Subversion Repositories Applications.referentiel

Rev

Rev 402 | Details | Compare with Previous | Last modification | View Log | RSS feed

Rev Author Line No. Line
267 delphine 1
<?php
2
/**
380 mathias 3
 * Indexation dans Algolia des référentiels
4
 *
5
 * Description : formate les données des référentiels choisis et envoie tout ça
6
 * dans Algolia
7
 *
8
 * Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
9
 *   -ref (optionnel): liste de codes de référentiels séparés par des virgules;
10
 *                     par défaut: "apd,bdtfx,bdtxa,isfan"
11
 *
12
 * Exemples:
13
 *   php script.php algolia
14
 *   php script.php algolia -ref "bdtfx,isfan"
15
 *
16
 * @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
17
 *
18
 * @author       Tela Botanica <equipe-dev@tela-botanica.org>
19
 * @licence		GPL v3 & CeCILL v2
20
 */
21
restore_error_handler();
22
restore_exception_handler();
23
ini_set("display_errors","1");
24
error_reporting(E_ALL);
25
 
26
// composer autoload
27
require dirname(__FILE__) . '/../../../vendor/autoload.php';
28
 
29
class Algolia extends ScriptCommande {
30
 
31
	const SCRIPT_NOM = 'algolia';
32
 
33
	public $parametres = array(
402 killian 34
		'-ref' => array(false, false, 'Celui qui lit ça est un con'),
35
		'-update' => array(false, false, 'Timestamp de la dernière mise à jour (YYYY-MM-DD)')
380 mathias 36
	);
37
 
38
	/** connexion PDO à la BDD "referentiels" */
39
	protected $bdd;
40
 
41
	/** client API Algolia */
42
	protected $algolia;
43
	protected $indexAlgolia;
267 delphine 44
 
45
	public function executer() {
380 mathias 46
		echo "Indexation des référentiels dans Algolia" . PHP_EOL;
47
 
48
		// Bibliothèque Algolia PHP pour appeler l'API
49
		Config::charger(dirname(__FILE__) . '/algolia.ini');
50
		$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
51
		$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
52
 
396 mathias 53
		// pour obtenir facilement la config existante et la répercuter dans
54
		// index_settings.json
382 mathias 55
		/*$settings = $this->indexAlgolia->getSettings();
56
		var_dump(json_encode($settings));
57
		exit;*/
58
 
385 mathias 59
		/*$idsexistants = $this->indexAlgolia->search("", array(
60
			"attributesToRetrieve" => array(
61
				"objectID"
62
			)
63
		));
64
		var_dump(count($idsexistants));
65
		var_dump($idsexistants);
66
		exit;*/
67
 
402 killian 68
		if ($this->getParam('update')) {
69
			$this->miseAJourPartielle($this->getParam('update'));
70
		}
71
 
382 mathias 72
		// Réglages de l'index @TODO tenir à jour
73
		if ($this->confirmer("Charger les réglages par défaut (index_settings.json) dans la configuration de l'index Algolia ?")) {
74
			// Chargement des réglages par défaut
75
			$reglagesJson = file_get_contents(dirname(__FILE__) . '/index_settings.json');
76
			$reglages = json_decode($reglagesJson, true);
77
			$this->indexAlgolia->setSettings($reglages);
78
			echo "Réglages chargés dans Algolia" . PHP_EOL;
79
		}
80
 
380 mathias 81
		// Connexion à la base
82
		$this->connecterPDO();
83
 
84
		// Liste des référentiels à fusionner
85
		$refsTexte = Config::get('algolia_referentiels');
86
		$refs = explode(",", $refsTexte);
87
 
88
		// Liste des référentiels à mettre à jour
89
		$refsMajTexte = $this->getParam("ref");
90
		if ($refsMajTexte === false) {
91
			// si le paramètre est vide, on met tout à jour
92
			$refsMaj = $refs;
269 delphine 93
		} else {
380 mathias 94
			$refsMaj = explode(",", $refsMajTexte);
267 delphine 95
		}
273 delphine 96
 
380 mathias 97
		// Déniaisage 1
98
		foreach ($refs as $k => $r) {
99
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
100
			if (! file_exists($fichierRequete)) {
101
				echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
102
				unset($refs[$k]);
267 delphine 103
			}
104
		}
380 mathias 105
		if (empty($refs)) {
106
			echo "Aucun référentiel à fusionner" . PHP_EOL;
107
			exit;
267 delphine 108
		}
380 mathias 109
 
110
		// Déniaisage 2
111
		foreach ($refsMaj as $k => $r) {
112
			if (! in_array($r, $refs)) {
113
				echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
114
				unset($refsMaj[$k]);
267 delphine 115
			}
116
		}
380 mathias 117
		if (empty($refsMaj)) {
118
			echo "Aucun référentiel à mettre à jour" . PHP_EOL;
119
			exit;
273 delphine 120
		}
380 mathias 121
 
122
		// Confirmation
382 mathias 123
		if (! $this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?")) {
124
			exit;
125
		}
380 mathias 126
 
127
		//var_dump($refs);
128
		$donneesBrutes = array();
129
		// Exécution des requêtes pour chaque référentiel
130
		foreach ($refs as $ref) {
131
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
132
			// Exécution de la requête
133
			$requete = file_get_contents($fichierRequete);
134
			$resultat = $this->requete($requete);
135
			$donneesBrutes[$ref] = $resultat->fetchAll();
136
 
137
			// Info utilisation mémoire
138
			$mem = memory_get_usage(true);
139
			$memMio = round($mem / (1024 * 1024));
140
			echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
141
		}
142
 
143
		// Fusion !
144
		$index = $this->fusionnerReferentiels($donneesBrutes);
145
		//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
146
 
147
		// Mise en forme
148
		$index = $this->mettreEnForme($index);
392 mathias 149
		//$this->extrait($index, 100);
380 mathias 150
 
151
		// Stats
152
		$taille = count($index);
153
		echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
154
		//file_put_contents("couscous.json", json_encode($index));
155
 
156
		// Calcul des différences ?
392 mathias 157
		// @TODO bonjour la galère
158
 
380 mathias 159
		// Insertion ?
392 mathias 160
		if (! $this->confirmer("Prêt à insérer dans l'index Algolia [" . Config::get('algolia_index') . "]. Continuer ?")) {
161
			exit;
162
		}
380 mathias 163
		$this->insererDansAlgolia($index);
164
 
165
		// Info utilisation mémoire totale
166
		$mem = memory_get_peak_usage(true);
167
		$memMio = round($mem / (1024 * 1024));
168
		echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
273 delphine 169
	}
380 mathias 170
 
171
	/**
172
	 * Génère un index unique pour Algolia à partir des données de n référentiels
173
	 */
174
	protected function fusionnerReferentiels(&$donneesRefs) {
175
		$index = array();
176
		foreach ($donneesRefs as $ref => &$d) {
177
			$nbTaxons = count($d);
178
			echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
179
 
180
			$fusions = 0;
392 mathias 181
 
380 mathias 182
			foreach ($d as $taxon) {
392 mathias 183
				// debug
184
				/*if ($taxon[$ref . '_num_nom'] == 141) {
185
					echo "> Taxon 141 :" . PHP_EOL;
186
					var_dump($taxon);
187
					echo PHP_EOL;
188
				}*/
380 mathias 189
				$nomSci = $taxon[$ref . '_nom_sci'];
190
				//$nn = $taxon[$ref . '_num_nom'];
191
				// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
192
				if (! empty ($taxon[$ref . '_auteur'])) {
193
					$nomSci .= ' ' . $taxon[$ref . '_auteur'];
273 delphine 194
				}
380 mathias 195
 
196
				// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
197
				if (empty($taxon[$ref . '_num_nom_retenu'])) {
198
					//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
199
					continue;
200
				}
201
 
202
				if (! isset($index[$nomSci])) {
203
					$index[$nomSci] = array(
204
						'objectID' => $nomSci,
205
						'referentiels' => array()
206
					);
207
				} else {
208
					//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
209
					$fusions++;
210
				}
211
				$index[$nomSci] = array_merge($index[$nomSci], $taxon);
212
				$index[$nomSci]['referentiels'][] = $ref;
213
				//break;
273 delphine 214
			}
380 mathias 215
			$taille = count($index);
216
			echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
273 delphine 217
		}
380 mathias 218
		return $index;
273 delphine 219
	}
380 mathias 220
 
221
	/**
222
	 * Organise les données de chaque objet conformément à la structure de
223
	 * l'index Algolia
224
	 *
225
	 * Voir commentaires sur cette page :
226
	 * http://taiga.tela-botanica.net/project/mathias-site-web/task/75
227
	 *
228
	 * L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
229
	 */
230
	protected function mettreEnForme($index) {
231
		$nouvelIndex = array();
232
		foreach ($index as $nomSci => $taxon) {
233
			$nouveauTaxon = array(
234
				'objectID' => md5($nomSci),
235
				'referentiels' => $taxon['referentiels']
236
			);
237
			foreach ($taxon['referentiels'] as $ref) {
238
				// ingrédients
239
				$nn = $taxon[$ref . '_num_nom'];
240
				$ns = $taxon[$ref . '_nom_sci'];
241
				$nts = $taxon[$ref . '_num_tax_sup'];
242
				$rang = $taxon[$ref . '_rang'];
243
				$auteur = $taxon[$ref . '_auteur'];
244
				$annee = $taxon[$ref . '_annee'];
245
				$biblio = $taxon[$ref . '_biblio'];
246
				$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
247
				$genre = $taxon[$ref . '_genre'];
248
				$epithete_sp = $taxon[$ref . '_epithete_sp'];
249
				$type_epithete = $taxon[$ref . '_type_epithete'];
250
				$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
251
				$cultivar = $taxon[$ref . '_cultivar'];
252
				$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
253
				$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
254
				$url = $taxon[$ref . '_url'];
255
				$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
392 mathias 256
				// debug synonymes tronqués (group_concat limité en longueur)
257
				/*if ($nn == 141) {
258
					echo ">> Synonymes bruts: [" . $taxon[$ref . '_synonymes'] . "]" . PHP_EOL;
259
					echo ">> Synonymes décodés: [" . print_r($synonymes, true) . "]" . PHP_EOL;
260
					exit;
261
				}*/
380 mathias 262
				$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
382 mathias 263
				$raccourcis = ($raccourcis != null ? array_values(array_unique($raccourcis)) : null); // array_values réindexe pour obtenir une liste en JSON et non un objet
380 mathias 264
				// garniture
265
				$donneesRef = array(
266
					'nomenclatural_number' => intval($nn),
267
					'scientific_name' => $ns,
268
					'common_name' => $nomCommun,
269
					'synonyms' => $synonymes,
385 mathias 270
					'permalink' => $url,
380 mathias 271
					'parent_taxon_number' => intval($nts),
272
					'rank' => intval($rang),
273
					'author' => $auteur,
274
					'year' => intval($annee),
275
					'biblio' => $biblio,
276
					'supra_genus_name' => $nom_supra_generique,
277
					'genus' => $genre,
278
					'species_attribute' => $epithete_sp,
279
					'attribute_type' => $type_epithete,
280
					'infra_species_attribute' => $epithete_infra_sp,
281
					'cultivar' => $cultivar,
282
					'cultivar_groupe' => $cultivar_groupe
283
				);
392 mathias 284
				// dans le cas de BDTFX, ajout de l'illustration de Coste et de
285
				// la carte Chorodep pour illustrer les résultats de recherche
402 killian 286
				if (Config::get("activer_image_cel") == "1") {
401 killian 287
					$this->ajouterImagesEflore($nn, $donneesRef);
392 mathias 288
				}
289
 
380 mathias 290
				$nouveauTaxon[$ref] = $donneesRef;
291
				$nouveauTaxon['shortcuts'] = $raccourcis;
292
			}
293
			$nouvelIndex[] = $nouveauTaxon;
273 delphine 294
		}
380 mathias 295
		return $nouvelIndex;
273 delphine 296
	}
380 mathias 297
 
383 mathias 298
	/**
392 mathias 299
	 * Interroge le service eFlore pour récupérer l'illustration de Coste pour
401 killian 300
	 * le nn en cours, ainsi que les meilleures images d'eFlore et ajoute une
301
	 * URL pour obtenir la carte de répartition de Chorodep
392 mathias 302
	 */
401 killian 303
	protected function ajouterImagesEflore($nn, &$donnees) {
392 mathias 304
		// carte de répartition - le service renvoie directement une image
401 killian 305
		$donnees['thumbnails']['chorodep'] = sprintf(Config::get('url_template_chorodep'), $nn);
392 mathias 306
		// Coste
401 killian 307
		$retour = @file_get_contents($sprintf(Config::get('url_template_coste'), $nn));
392 mathias 308
		if ($retour) {
309
			try {
310
				$infosCoste = json_decode($retour, true);
311
				if (! empty($infosCoste['resultats']) && is_array($infosCoste['resultats'])) {
312
					$res1 = array_shift($infosCoste['resultats']);
313
					if (is_array($res1) && ! empty($res1['binaire.href'])) {
401 killian 314
						$donnees['thumbnails']['coste'] = $res1['binaire.href'];
392 mathias 315
					}
316
				}
317
			} catch (Exception $ex) {
318
				// pas de bol
319
			}
320
		}
401 killian 321
		// CEL
322
		$retour = @file_get_contents($sprintf(Config::get('url_template_cel'), $nn));
323
		if ($retour) {
324
			try {
325
				$infosCel = json_decode($retour, true);
326
				if (! empty($infosCel['resultat']) && is_array($infosCel['resultat'])) {
327
					foreach($infosCel['resultat'] as $organe => $imageSrc) {
328
						$donnees['thumbnails']['cel'][$organe] = $imageSrc;
329
					}
330
				}
331
			} catch (Exception $ex) {
332
				// pas de bol
333
			}
334
		}
392 mathias 335
		// debug
393 mathias 336
		/*echo ">> nn : [$nn]" . PHP_EOL;
401 killian 337
		echo ">> image Coste : [" . $donnees['thumbnails']['coste'] . "]" . PHP_EOL;
338
		echo ">> carte Chorodep : [" . $donnees['thumbnails']['chorodep'] . "]" . PHP_EOL;
339
		echo ">> images CeL :" . PHP_EOL;
340
		var_dump($donnees['thumbnails']['cel'])*/
392 mathias 341
	}
342
 
343
	/**
383 mathias 344
	 * Appelle l'API Algolia pour indexer les données présentes dans $index, par
345
	 * tranches.
346
	 */
347
	protected function insererDansAlgolia(&$index) {
348
		$tailleTranche = 5000;
349
		echo "++++ Insertion dans Algolia (" . count($index) . " objets) !! ++++" . PHP_EOL;
350
		// insertion par tranches pour éviter un timeout sur l'API Algolia
351
		while (count($index) > 0) {
352
			echo "++ insertion d'une tranche de $tailleTranche... (" . count($index) . " restant)" . PHP_EOL;
353
			$tranche = array_splice($index, 0, $tailleTranche);
354
			//var_dump($tranche);
355
			$this->indexAlgolia->addObjects($tranche);
356
		}
273 delphine 357
	}
380 mathias 358
 
402 killian 359
	/**
360
	 * Met à jour les images d'illustration
361
	 */
362
	protected function miseAJourPartielle($date) {
363
		try {
364
			$date = new DateTime($date);
365
			$date = $date->format('Y-m-d');
366
		} catch (Exception $e) {
367
			die($e->getMessage());
368
		}
369
 
370
		// récupération des nn mis à jour
403 killian 371
        $this->connecterPDO('agathis_');
402 killian 372
		$sql = 'SELECT DISTINCT nn FROM del_image_top WHERE date_vote > ' . $date . ';';
373
		$requete = $this->requete($sql);
374
		$nns = $requete->fetchAll();
375
		// var_dump($nns); die();
376
 
377
		$donnees = array();
378
		foreach ($nns as $nn) {
379
			// récup des infos depuis le service d'images du cel
380
			$retour = @file_get_contents($sprintf(Config::get('url_template_cel'), $nn));
381
			if ($retour) {
382
				try {
383
					$infosCel = json_decode($retour, true);
384
					if (! empty($infosCel['resultat']) && is_array($infosCel['resultat'])) {
385
						foreach($infosCel['resultat'] as $organe => $imageSrc) {
386
							$donnees[$nn]['thumbnails']['cel'][$organe] = $imageSrc;
387
						}
388
						// var_dump($donnees); die();
389
 
403 killian 390
						$response = $this->indexAlgolia->getObjects([$nn], ['objectID', 'nomenclatural_number', 'thumbnails']);
402 killian 391
						$response = json_decode($response, true);
392
						// var_dump($response); die();
393
						if (isset($response['results'])) {
394
							$results = array_reduce($response['results'], function($carry, $item) use ($nn) {
395
								if ($item['nomenclatural_number'] == $nn) {
396
									$carry[] = $item;
397
								}
398
								return $carry;
399
							});
400
							// var_dump($results); die();
401
 
402
							if (count($results) == 1) {
403
								unset($results['thumbnails']['cel']);
404
								$results = array_merge($results, $donnees[$nn]);
403 killian 405
								$this->indexAlgolia->partialUpdateObject([
402 killian 406
									'thumbnails' => $results['thumbnails'],
407
									'objectID' => $results['objectID']
408
								]);
409
							}
410
 
411
						}
412
					}
413
				} catch (Exception $e) {
414
					die(var_dump($e));
415
				}
416
			}
417
		}
418
 
419
	}
420
 
380 mathias 421
	// ---------------- utilitaires --------------------------------------------
422
 
423
	protected function extrait($index, $clefsOuNombre) {
424
		// Debug
425
		echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
426
		if (is_array($clefsOuNombre)) {
427
			foreach ($clefsOuNombre as $k) {
428
				var_dump($index[$k]);
267 delphine 429
			}
380 mathias 430
		} else {
431
			for ($i=0; $i < $clefsOuNombre; $i++) {
432
				var_dump($index[$i]);
433
			}
267 delphine 434
		}
435
	}
380 mathias 436
 
403 killian 437
	protected function connecterPDO($base = '') {
380 mathias 438
		Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
267 delphine 439
		try {
403 killian 440
			$dsn = Config::get($base . 'bdd_type').':dbname='.Config::get($base . 'bdd_nom').';host='.
441
				Config::get($base . 'bdd_hote');
442
			$this->bdd = new PDO($dsn, Config::get($base . 'bdd_utilisateur'), Config::get($base . 'bdd_mot_de_passe'));
380 mathias 443
			// Passe en UTF-8 la connexion à la BDD
444
			$this->bdd->exec("SET NAMES 'utf8'");
445
			// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
446
			$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
267 delphine 447
		} catch (PDOException $e) {
380 mathias 448
			//print_r($e);
449
			echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
450
			exit;
267 delphine 451
		}
452
	}
380 mathias 453
 
454
	protected function requete($requete) {
267 delphine 455
		$infos = null;
456
		try {
380 mathias 457
			$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
458
			/*if ($infos === false) {
267 delphine 459
				echo $requete;
380 mathias 460
			}*/
267 delphine 461
		} catch (PDOException $e) {
273 delphine 462
			echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
267 delphine 463
		}
464
		return $infos;
465
	}
380 mathias 466
 
467
	/**
468
	 * Demande confirmation, et sort du script à moins qu'on tape ce qui est
469
	 * indiqué (par défaut "o" pour "oui")
470
	 */
471
	protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
472
		echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
473
		$handle = fopen ("php://stdin","r");
474
		$line = fgets($handle);
475
		if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
476
			echo $messageAnnulation . PHP_EOL;
382 mathias 477
			return false;
380 mathias 478
		}
479
		fclose($handle);
382 mathias 480
		return true;
380 mathias 481
	}
267 delphine 482
}
401 killian 483
?>