Subversion Repositories Applications.referentiel

Rev

Rev 385 | Rev 393 | Go to most recent revision | Details | Compare with Previous | Last modification | View Log | RSS feed

Rev Author Line No. Line
267 delphine 1
<?php
2
/**
380 mathias 3
 * Indexation dans Algolia des référentiels
4
 *
5
 * Description : formate les données des référentiels choisis et envoie tout ça
6
 * dans Algolia
7
 *
8
 * Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
9
 *   -ref (optionnel): liste de codes de référentiels séparés par des virgules;
10
 *                     par défaut: "apd,bdtfx,bdtxa,isfan"
11
 *
12
 * Exemples:
13
 *   php script.php algolia
14
 *   php script.php algolia -ref "bdtfx,isfan"
15
 *
16
 * @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
17
 *
18
 * @author       Tela Botanica <equipe-dev@tela-botanica.org>
19
 * @licence		GPL v3 & CeCILL v2
20
 */
21
restore_error_handler();
22
restore_exception_handler();
23
ini_set("display_errors","1");
24
error_reporting(E_ALL);
25
 
26
// composer autoload
27
require dirname(__FILE__) . '/../../../vendor/autoload.php';
28
 
29
class Algolia extends ScriptCommande {
30
 
31
	const SCRIPT_NOM = 'algolia';
32
 
33
	public $parametres = array(
34
		'-ref' => array(false, false, 'Celui qui lit ça est un con')
35
	);
36
 
37
	/** connexion PDO à la BDD "referentiels" */
38
	protected $bdd;
39
 
40
	/** client API Algolia */
41
	protected $algolia;
42
	protected $indexAlgolia;
267 delphine 43
 
44
	public function executer() {
380 mathias 45
		echo "Indexation des référentiels dans Algolia" . PHP_EOL;
46
 
47
		// Bibliothèque Algolia PHP pour appeler l'API
48
		Config::charger(dirname(__FILE__) . '/algolia.ini');
49
		$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
50
		$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
51
 
382 mathias 52
		/*$settings = $this->indexAlgolia->getSettings();
53
		var_dump(json_encode($settings));
54
		exit;*/
55
 
385 mathias 56
		/*$idsexistants = $this->indexAlgolia->search("", array(
57
			"attributesToRetrieve" => array(
58
				"objectID"
59
			)
60
		));
61
		var_dump(count($idsexistants));
62
		var_dump($idsexistants);
63
		exit;*/
64
 
382 mathias 65
		// Réglages de l'index @TODO tenir à jour
66
		if ($this->confirmer("Charger les réglages par défaut (index_settings.json) dans la configuration de l'index Algolia ?")) {
67
			// Chargement des réglages par défaut
68
			$reglagesJson = file_get_contents(dirname(__FILE__) . '/index_settings.json');
69
			$reglages = json_decode($reglagesJson, true);
70
			$this->indexAlgolia->setSettings($reglages);
71
			echo "Réglages chargés dans Algolia" . PHP_EOL;
72
		}
73
 
380 mathias 74
		// Connexion à la base
75
		$this->connecterPDO();
76
 
77
		// Liste des référentiels à fusionner
78
		$refsTexte = Config::get('algolia_referentiels');
79
		$refs = explode(",", $refsTexte);
80
 
81
		// Liste des référentiels à mettre à jour
82
		$refsMajTexte = $this->getParam("ref");
83
		if ($refsMajTexte === false) {
84
			// si le paramètre est vide, on met tout à jour
85
			$refsMaj = $refs;
269 delphine 86
		} else {
380 mathias 87
			$refsMaj = explode(",", $refsMajTexte);
267 delphine 88
		}
273 delphine 89
 
380 mathias 90
		// Déniaisage 1
91
		foreach ($refs as $k => $r) {
92
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
93
			if (! file_exists($fichierRequete)) {
94
				echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
95
				unset($refs[$k]);
267 delphine 96
			}
97
		}
380 mathias 98
		if (empty($refs)) {
99
			echo "Aucun référentiel à fusionner" . PHP_EOL;
100
			exit;
267 delphine 101
		}
380 mathias 102
 
103
		// Déniaisage 2
104
		foreach ($refsMaj as $k => $r) {
105
			if (! in_array($r, $refs)) {
106
				echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
107
				unset($refsMaj[$k]);
267 delphine 108
			}
109
		}
380 mathias 110
		if (empty($refsMaj)) {
111
			echo "Aucun référentiel à mettre à jour" . PHP_EOL;
112
			exit;
273 delphine 113
		}
380 mathias 114
 
115
		// Confirmation
382 mathias 116
		if (! $this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?")) {
117
			exit;
118
		}
380 mathias 119
 
120
		//var_dump($refs);
121
		$donneesBrutes = array();
122
		// Exécution des requêtes pour chaque référentiel
123
		foreach ($refs as $ref) {
124
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
125
			// Exécution de la requête
126
			$requete = file_get_contents($fichierRequete);
127
			$resultat = $this->requete($requete);
128
			$donneesBrutes[$ref] = $resultat->fetchAll();
129
 
130
			// Info utilisation mémoire
131
			$mem = memory_get_usage(true);
132
			$memMio = round($mem / (1024 * 1024));
133
			echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
134
		}
135
 
136
		// Fusion !
137
		$index = $this->fusionnerReferentiels($donneesBrutes);
138
		//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
139
 
140
		// Mise en forme
141
		$index = $this->mettreEnForme($index);
392 mathias 142
		//$this->extrait($index, 100);
380 mathias 143
 
144
		// Stats
145
		$taille = count($index);
146
		echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
147
		//file_put_contents("couscous.json", json_encode($index));
148
 
149
		// Calcul des différences ?
392 mathias 150
		// @TODO bonjour la galère
151
 
380 mathias 152
		// Insertion ?
392 mathias 153
		if (! $this->confirmer("Prêt à insérer dans l'index Algolia [" . Config::get('algolia_index') . "]. Continuer ?")) {
154
			exit;
155
		}
380 mathias 156
		$this->insererDansAlgolia($index);
157
 
158
		// Info utilisation mémoire totale
159
		$mem = memory_get_peak_usage(true);
160
		$memMio = round($mem / (1024 * 1024));
161
		echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
273 delphine 162
	}
380 mathias 163
 
164
	/**
165
	 * Génère un index unique pour Algolia à partir des données de n référentiels
166
	 */
167
	protected function fusionnerReferentiels(&$donneesRefs) {
168
		$index = array();
169
		foreach ($donneesRefs as $ref => &$d) {
170
			$nbTaxons = count($d);
171
			echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
172
 
173
			$fusions = 0;
392 mathias 174
 
380 mathias 175
			foreach ($d as $taxon) {
392 mathias 176
				// debug
177
				/*if ($taxon[$ref . '_num_nom'] == 141) {
178
					echo "> Taxon 141 :" . PHP_EOL;
179
					var_dump($taxon);
180
					echo PHP_EOL;
181
				}*/
380 mathias 182
				$nomSci = $taxon[$ref . '_nom_sci'];
183
				//$nn = $taxon[$ref . '_num_nom'];
184
				// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
185
				if (! empty ($taxon[$ref . '_auteur'])) {
186
					$nomSci .= ' ' . $taxon[$ref . '_auteur'];
273 delphine 187
				}
380 mathias 188
 
189
				// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
190
				if (empty($taxon[$ref . '_num_nom_retenu'])) {
191
					//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
192
					continue;
193
				}
194
 
195
				if (! isset($index[$nomSci])) {
196
					$index[$nomSci] = array(
197
						'objectID' => $nomSci,
198
						'referentiels' => array()
199
					);
200
				} else {
201
					//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
202
					$fusions++;
203
				}
204
				$index[$nomSci] = array_merge($index[$nomSci], $taxon);
205
				$index[$nomSci]['referentiels'][] = $ref;
206
				//break;
273 delphine 207
			}
380 mathias 208
			$taille = count($index);
209
			echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
273 delphine 210
		}
380 mathias 211
		return $index;
273 delphine 212
	}
380 mathias 213
 
214
	/**
215
	 * Organise les données de chaque objet conformément à la structure de
216
	 * l'index Algolia
217
	 *
218
	 * Voir commentaires sur cette page :
219
	 * http://taiga.tela-botanica.net/project/mathias-site-web/task/75
220
	 *
221
	 * L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
222
	 */
223
	protected function mettreEnForme($index) {
224
		$nouvelIndex = array();
225
		foreach ($index as $nomSci => $taxon) {
226
			$nouveauTaxon = array(
227
				'objectID' => md5($nomSci),
228
				'referentiels' => $taxon['referentiels']
229
			);
230
			foreach ($taxon['referentiels'] as $ref) {
231
				// ingrédients
232
				$nn = $taxon[$ref . '_num_nom'];
233
				$ns = $taxon[$ref . '_nom_sci'];
234
				$nts = $taxon[$ref . '_num_tax_sup'];
235
				$rang = $taxon[$ref . '_rang'];
236
				$auteur = $taxon[$ref . '_auteur'];
237
				$annee = $taxon[$ref . '_annee'];
238
				$biblio = $taxon[$ref . '_biblio'];
239
				$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
240
				$genre = $taxon[$ref . '_genre'];
241
				$epithete_sp = $taxon[$ref . '_epithete_sp'];
242
				$type_epithete = $taxon[$ref . '_type_epithete'];
243
				$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
244
				$cultivar = $taxon[$ref . '_cultivar'];
245
				$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
246
				$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
247
				$url = $taxon[$ref . '_url'];
248
				$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
392 mathias 249
				// debug synonymes tronqués (group_concat limité en longueur)
250
				/*if ($nn == 141) {
251
					echo ">> Synonymes bruts: [" . $taxon[$ref . '_synonymes'] . "]" . PHP_EOL;
252
					echo ">> Synonymes décodés: [" . print_r($synonymes, true) . "]" . PHP_EOL;
253
					exit;
254
				}*/
380 mathias 255
				$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
382 mathias 256
				$raccourcis = ($raccourcis != null ? array_values(array_unique($raccourcis)) : null); // array_values réindexe pour obtenir une liste en JSON et non un objet
380 mathias 257
				// garniture
258
				$donneesRef = array(
259
					'nomenclatural_number' => intval($nn),
260
					'scientific_name' => $ns,
261
					'common_name' => $nomCommun,
262
					'synonyms' => $synonymes,
385 mathias 263
					'permalink' => $url,
380 mathias 264
					'parent_taxon_number' => intval($nts),
265
					'rank' => intval($rang),
266
					'author' => $auteur,
267
					'year' => intval($annee),
268
					'biblio' => $biblio,
269
					'supra_genus_name' => $nom_supra_generique,
270
					'genus' => $genre,
271
					'species_attribute' => $epithete_sp,
272
					'attribute_type' => $type_epithete,
273
					'infra_species_attribute' => $epithete_infra_sp,
274
					'cultivar' => $cultivar,
275
					'cultivar_groupe' => $cultivar_groupe
276
				);
392 mathias 277
				// dans le cas de BDTFX, ajout de l'illustration de Coste et de
278
				// la carte Chorodep pour illustrer les résultats de recherche
279
				if ($ref == "bdtfx" && (Config::get("activer_image_coste") == "1")) {
280
					$this->ajouterImagesCosteEtChorodep($nn, $donneesRef);
281
				}
282
 
380 mathias 283
				$nouveauTaxon[$ref] = $donneesRef;
284
				$nouveauTaxon['shortcuts'] = $raccourcis;
285
			}
286
			$nouvelIndex[] = $nouveauTaxon;
273 delphine 287
		}
380 mathias 288
		return $nouvelIndex;
273 delphine 289
	}
380 mathias 290
 
383 mathias 291
	/**
392 mathias 292
	 * Interroge le service eFlore pour récupérer l'illustration de Coste pour
293
	 * le nn en cours, et ajoute une URL pour obtenir la carte de répartition
294
	 * de Chorodep
295
	 */
296
	protected function ajouterImagesCosteEtChorodep($nn, &$donnees) {
297
		// carte de répartition - le service renvoie directement une image
298
		$donnees['thumbnails.chorodep'] = sprintf(Config::get('url_template_chorodep'), $nn);
299
		// Coste
300
		$urlServiceCoste = sprintf(Config::get('url_template_coste'), $nn);
301
		$retour = @file_get_contents($urlServiceCoste);
302
		if ($retour) {
303
			try {
304
				$infosCoste = json_decode($retour, true);
305
				if (! empty($infosCoste['resultats']) && is_array($infosCoste['resultats'])) {
306
					$res1 = array_shift($infosCoste['resultats']);
307
					if (is_array($res1) && ! empty($res1['binaire.href'])) {
308
						$donnees['thumbnails.coste'] = $res1['binaire.href'];
309
					}
310
				}
311
			} catch (Exception $ex) {
312
				// pas de bol
313
			}
314
		}
315
		// debug
316
		echo ">> nn : [$nn]" . PHP_EOL;
317
		echo ">> image Coste : [" . $donnees['thumbnails.coste'] . "]" . PHP_EOL;
318
		echo ">> carte Chorodep : [" . $donnees['thumbnails.chorodep'] . "]" . PHP_EOL;
319
	}
320
 
321
	/**
383 mathias 322
	 * Appelle l'API Algolia pour indexer les données présentes dans $index, par
323
	 * tranches.
324
	 */
325
	protected function insererDansAlgolia(&$index) {
326
		$tailleTranche = 5000;
327
		echo "++++ Insertion dans Algolia (" . count($index) . " objets) !! ++++" . PHP_EOL;
328
		// insertion par tranches pour éviter un timeout sur l'API Algolia
329
		while (count($index) > 0) {
330
			echo "++ insertion d'une tranche de $tailleTranche... (" . count($index) . " restant)" . PHP_EOL;
331
			$tranche = array_splice($index, 0, $tailleTranche);
332
			//var_dump($tranche);
333
			$this->indexAlgolia->addObjects($tranche);
334
		}
273 delphine 335
	}
380 mathias 336
 
337
	// ---------------- utilitaires --------------------------------------------
338
 
339
	protected function extrait($index, $clefsOuNombre) {
340
		// Debug
341
		echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
342
		if (is_array($clefsOuNombre)) {
343
			foreach ($clefsOuNombre as $k) {
344
				var_dump($index[$k]);
267 delphine 345
			}
380 mathias 346
		} else {
347
			for ($i=0; $i < $clefsOuNombre; $i++) {
348
				var_dump($index[$i]);
349
			}
267 delphine 350
		}
351
	}
380 mathias 352
 
353
	protected function connecterPDO() {
354
		Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
267 delphine 355
		try {
269 delphine 356
			$dsn = Config::get('bdd_type').':dbname='.Config::get('bdd_nom').';host='.
357
				Config::get('bdd_hote');
358
			$this->bdd = new PDO($dsn, Config::get('bdd_utilisateur'), Config::get('bdd_mot_de_passe'));
380 mathias 359
			// Passe en UTF-8 la connexion à la BDD
360
			$this->bdd->exec("SET NAMES 'utf8'");
361
			// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
362
			$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
267 delphine 363
		} catch (PDOException $e) {
380 mathias 364
			//print_r($e);
365
			echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
366
			exit;
267 delphine 367
		}
368
	}
380 mathias 369
 
370
	protected function requete($requete) {
267 delphine 371
		$infos = null;
372
		try {
380 mathias 373
			$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
374
			/*if ($infos === false) {
267 delphine 375
				echo $requete;
380 mathias 376
			}*/
267 delphine 377
		} catch (PDOException $e) {
273 delphine 378
			echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
267 delphine 379
		}
380
		return $infos;
381
	}
380 mathias 382
 
383
	/**
384
	 * Demande confirmation, et sort du script à moins qu'on tape ce qui est
385
	 * indiqué (par défaut "o" pour "oui")
386
	 */
387
	protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
388
		echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
389
		$handle = fopen ("php://stdin","r");
390
		$line = fgets($handle);
391
		if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
392
			echo $messageAnnulation . PHP_EOL;
382 mathias 393
			return false;
380 mathias 394
		}
395
		fclose($handle);
382 mathias 396
		return true;
380 mathias 397
	}
267 delphine 398
}
399
?>