Subversion Repositories Applications.referentiel

Rev

Rev 337 | Rev 382 | Go to most recent revision | Details | Compare with Previous | Last modification | View Log | RSS feed

Rev Author Line No. Line
267 delphine 1
<?php
2
/**
380 mathias 3
 * Indexation dans Algolia des référentiels
4
 *
5
 * Description : formate les données des référentiels choisis et envoie tout ça
6
 * dans Algolia
7
 *
8
 * Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
9
 *   -ref (optionnel): liste de codes de référentiels séparés par des virgules;
10
 *                     par défaut: "apd,bdtfx,bdtxa,isfan"
11
 *
12
 * Exemples:
13
 *   php script.php algolia
14
 *   php script.php algolia -ref "bdtfx,isfan"
15
 *
16
 * @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
17
 *
18
 * @author       Tela Botanica <equipe-dev@tela-botanica.org>
19
 * @licence		GPL v3 & CeCILL v2
20
 */
21
restore_error_handler();
22
restore_exception_handler();
23
ini_set("display_errors","1");
24
error_reporting(E_ALL);
25
 
26
// composer autoload
27
require dirname(__FILE__) . '/../../../vendor/autoload.php';
28
 
29
class Algolia extends ScriptCommande {
30
 
31
	const SCRIPT_NOM = 'algolia';
32
 
33
	public $parametres = array(
34
		'-ref' => array(false, false, 'Celui qui lit ça est un con')
35
	);
36
 
37
	/** connexion PDO à la BDD "referentiels" */
38
	protected $bdd;
39
 
40
	/** client API Algolia */
41
	protected $algolia;
42
	protected $indexAlgolia;
267 delphine 43
 
44
	public function executer() {
380 mathias 45
		echo "Indexation des référentiels dans Algolia" . PHP_EOL;
46
 
47
		// Bibliothèque Algolia PHP pour appeler l'API
48
		Config::charger(dirname(__FILE__) . '/algolia.ini');
49
		$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
50
		$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
51
 
52
		// Connexion à la base
53
		$this->connecterPDO();
54
 
55
		// Liste des référentiels à fusionner
56
		$refsTexte = Config::get('algolia_referentiels');
57
		$refs = explode(",", $refsTexte);
58
 
59
		// Liste des référentiels à mettre à jour
60
		$refsMajTexte = $this->getParam("ref");
61
		if ($refsMajTexte === false) {
62
			// si le paramètre est vide, on met tout à jour
63
			$refsMaj = $refs;
269 delphine 64
		} else {
380 mathias 65
			$refsMaj = explode(",", $refsMajTexte);
267 delphine 66
		}
273 delphine 67
 
380 mathias 68
		// Déniaisage 1
69
		foreach ($refs as $k => $r) {
70
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
71
			if (! file_exists($fichierRequete)) {
72
				echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
73
				unset($refs[$k]);
267 delphine 74
			}
75
		}
380 mathias 76
		if (empty($refs)) {
77
			echo "Aucun référentiel à fusionner" . PHP_EOL;
78
			exit;
267 delphine 79
		}
380 mathias 80
 
81
		// Déniaisage 2
82
		foreach ($refsMaj as $k => $r) {
83
			if (! in_array($r, $refs)) {
84
				echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
85
				unset($refsMaj[$k]);
267 delphine 86
			}
87
		}
380 mathias 88
		if (empty($refsMaj)) {
89
			echo "Aucun référentiel à mettre à jour" . PHP_EOL;
90
			exit;
273 delphine 91
		}
380 mathias 92
 
93
		// Confirmation
94
		//$this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?");
95
 
96
		//var_dump($refs);
97
		$donneesBrutes = array();
98
		// Exécution des requêtes pour chaque référentiel
99
		foreach ($refs as $ref) {
100
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
101
			// Exécution de la requête
102
			$requete = file_get_contents($fichierRequete);
103
			$resultat = $this->requete($requete);
104
			/*while ($ligne = $resultat->fetch()) {
105
				var_dump($ligne);
106
				break;
107
			}*/
108
			$donneesBrutes[$ref] = $resultat->fetchAll();
109
 
110
			// Info utilisation mémoire
111
			$mem = memory_get_usage(true);
112
			$memMio = round($mem / (1024 * 1024));
113
			echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
114
		}
115
 
116
		// Fusion !
117
		$index = $this->fusionnerReferentiels($donneesBrutes);
118
		//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
119
 
120
		// Mise en forme
121
		$index = $this->mettreEnForme($index);
122
		$this->extrait($index, 3);
123
 
124
		// Stats
125
		$taille = count($index);
126
		echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
127
		//file_put_contents("couscous.json", json_encode($index));
128
 
129
		// Calcul des différences ?
130
		// Insertion ?
131
		$this->insererDansAlgolia($index);
132
 
133
		// Info utilisation mémoire totale
134
		$mem = memory_get_peak_usage(true);
135
		$memMio = round($mem / (1024 * 1024));
136
		echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
273 delphine 137
	}
380 mathias 138
 
139
	/**
140
	 * Génère un index unique pour Algolia à partir des données de n référentiels
141
	 */
142
	protected function fusionnerReferentiels(&$donneesRefs) {
143
		$index = array();
144
		foreach ($donneesRefs as $ref => &$d) {
145
			$nbTaxons = count($d);
146
			echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
147
 
148
			$fusions = 0;
149
			foreach ($d as $taxon) {
150
				$nomSci = $taxon[$ref . '_nom_sci'];
151
				//$nn = $taxon[$ref . '_num_nom'];
152
				// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
153
				if (! empty ($taxon[$ref . '_auteur'])) {
154
					$nomSci .= ' ' . $taxon[$ref . '_auteur'];
273 delphine 155
				}
380 mathias 156
 
157
				// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
158
				if (empty($taxon[$ref . '_num_nom_retenu'])) {
159
					//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
160
					continue;
161
				}
162
 
163
				if (! isset($index[$nomSci])) {
164
					$index[$nomSci] = array(
165
						'objectID' => $nomSci,
166
						'referentiels' => array()
167
					);
168
				} else {
169
					//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
170
					$fusions++;
171
				}
172
				$index[$nomSci] = array_merge($index[$nomSci], $taxon);
173
				$index[$nomSci]['referentiels'][] = $ref;
174
				//break;
273 delphine 175
			}
380 mathias 176
			$taille = count($index);
177
			echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
273 delphine 178
		}
380 mathias 179
		return $index;
273 delphine 180
	}
380 mathias 181
 
182
	/**
183
	 * Organise les données de chaque objet conformément à la structure de
184
	 * l'index Algolia
185
	 *
186
	 * Voir commentaires sur cette page :
187
	 * http://taiga.tela-botanica.net/project/mathias-site-web/task/75
188
	 *
189
	 * L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
190
	 */
191
	protected function mettreEnForme($index) {
192
		$nouvelIndex = array();
193
		foreach ($index as $nomSci => $taxon) {
194
			$nouveauTaxon = array(
195
				'objectID' => md5($nomSci),
196
				'referentiels' => $taxon['referentiels']
197
			);
198
			foreach ($taxon['referentiels'] as $ref) {
199
				// ingrédients
200
				$nn = $taxon[$ref . '_num_nom'];
201
				$ns = $taxon[$ref . '_nom_sci'];
202
				$nts = $taxon[$ref . '_num_tax_sup'];
203
				$rang = $taxon[$ref . '_rang'];
204
				$auteur = $taxon[$ref . '_auteur'];
205
				$annee = $taxon[$ref . '_annee'];
206
				$biblio = $taxon[$ref . '_biblio'];
207
				$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
208
				$genre = $taxon[$ref . '_genre'];
209
				$epithete_sp = $taxon[$ref . '_epithete_sp'];
210
				$type_epithete = $taxon[$ref . '_type_epithete'];
211
				$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
212
				$cultivar = $taxon[$ref . '_cultivar'];
213
				$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
214
				$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
215
				$url = $taxon[$ref . '_url'];
216
				$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
217
				$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
218
				$raccourcis = array_values(array_unique($raccourcis)); // array_values réindexe pour obtenir une liste en JSON et non un objet
219
				// garniture
220
				$donneesRef = array(
221
					'nomenclatural_number' => intval($nn),
222
					'scientific_name' => $ns,
223
					'common_name' => $nomCommun,
224
					'synonyms' => $synonymes,
225
					'url' => $url,
226
					'parent_taxon_number' => intval($nts),
227
					'rank' => intval($rang),
228
					'author' => $auteur,
229
					'year' => intval($annee),
230
					'biblio' => $biblio,
231
					'supra_genus_name' => $nom_supra_generique,
232
					'genus' => $genre,
233
					'species_attribute' => $epithete_sp,
234
					'attribute_type' => $type_epithete,
235
					'infra_species_attribute' => $epithete_infra_sp,
236
					'cultivar' => $cultivar,
237
					'cultivar_groupe' => $cultivar_groupe
238
				);
239
				$nouveauTaxon[$ref] = $donneesRef;
240
				$nouveauTaxon['shortcuts'] = $raccourcis;
241
			}
242
			$nouvelIndex[] = $nouveauTaxon;
273 delphine 243
		}
380 mathias 244
		return $nouvelIndex;
273 delphine 245
	}
380 mathias 246
 
247
	protected function insererDansAlgolia($index) {
248
		echo "++++ Insertion dans Algolia !! ++++" . PHP_EOL;
249
		$tranche = array_slice($index, 0, 500);
250
		//var_dump($tranche);
251
		//$trancheJSON = json_encode($tranche);
252
		$this->indexAlgolia->addObjects($tranche);
253
		//$this->algolia->
273 delphine 254
	}
380 mathias 255
 
256
	// ---------------- utilitaires --------------------------------------------
257
 
258
	protected function extrait($index, $clefsOuNombre) {
259
		// Debug
260
		echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
261
		if (is_array($clefsOuNombre)) {
262
			foreach ($clefsOuNombre as $k) {
263
				var_dump($index[$k]);
267 delphine 264
			}
380 mathias 265
		} else {
266
			for ($i=0; $i < $clefsOuNombre; $i++) {
267
				var_dump($index[$i]);
268
			}
267 delphine 269
		}
270
	}
380 mathias 271
 
272
	protected function connecterPDO() {
273
		Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
267 delphine 274
		try {
269 delphine 275
			$dsn = Config::get('bdd_type').':dbname='.Config::get('bdd_nom').';host='.
276
				Config::get('bdd_hote');
277
			$this->bdd = new PDO($dsn, Config::get('bdd_utilisateur'), Config::get('bdd_mot_de_passe'));
380 mathias 278
			// Passe en UTF-8 la connexion à la BDD
279
			$this->bdd->exec("SET NAMES 'utf8'");
280
			// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
281
			$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
267 delphine 282
		} catch (PDOException $e) {
380 mathias 283
			//print_r($e);
284
			echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
285
			exit;
267 delphine 286
		}
287
	}
380 mathias 288
 
289
	protected function requete($requete) {
267 delphine 290
		$infos = null;
291
		try {
380 mathias 292
			$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
293
			/*if ($infos === false) {
267 delphine 294
				echo $requete;
380 mathias 295
			}*/
267 delphine 296
		} catch (PDOException $e) {
273 delphine 297
			echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
267 delphine 298
		}
299
		return $infos;
300
	}
380 mathias 301
 
302
	/**
303
	 * Demande confirmation, et sort du script à moins qu'on tape ce qui est
304
	 * indiqué (par défaut "o" pour "oui")
305
	 */
306
	protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
307
		echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
308
		$handle = fopen ("php://stdin","r");
309
		$line = fgets($handle);
310
		if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
311
			echo $messageAnnulation . PHP_EOL;
312
			exit;
313
		}
314
		fclose($handle);
315
	}
267 delphine 316
}
317
?>