Subversion Repositories Applications.referentiel

Rev

Rev 393 | Rev 401 | Go to most recent revision | Details | Compare with Previous | Last modification | View Log | RSS feed

Rev Author Line No. Line
267 delphine 1
<?php
2
/**
380 mathias 3
 * Indexation dans Algolia des référentiels
4
 *
5
 * Description : formate les données des référentiels choisis et envoie tout ça
6
 * dans Algolia
7
 *
8
 * Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
9
 *   -ref (optionnel): liste de codes de référentiels séparés par des virgules;
10
 *                     par défaut: "apd,bdtfx,bdtxa,isfan"
11
 *
12
 * Exemples:
13
 *   php script.php algolia
14
 *   php script.php algolia -ref "bdtfx,isfan"
15
 *
16
 * @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
17
 *
18
 * @author       Tela Botanica <equipe-dev@tela-botanica.org>
19
 * @licence		GPL v3 & CeCILL v2
20
 */
21
restore_error_handler();
22
restore_exception_handler();
23
ini_set("display_errors","1");
24
error_reporting(E_ALL);
25
 
26
// composer autoload
27
require dirname(__FILE__) . '/../../../vendor/autoload.php';
28
 
29
class Algolia extends ScriptCommande {
30
 
31
	const SCRIPT_NOM = 'algolia';
32
 
33
	public $parametres = array(
34
		'-ref' => array(false, false, 'Celui qui lit ça est un con')
35
	);
36
 
37
	/** connexion PDO à la BDD "referentiels" */
38
	protected $bdd;
39
 
40
	/** client API Algolia */
41
	protected $algolia;
42
	protected $indexAlgolia;
267 delphine 43
 
44
	public function executer() {
380 mathias 45
		echo "Indexation des référentiels dans Algolia" . PHP_EOL;
46
 
47
		// Bibliothèque Algolia PHP pour appeler l'API
48
		Config::charger(dirname(__FILE__) . '/algolia.ini');
49
		$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
50
		$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
51
 
396 mathias 52
		// pour obtenir facilement la config existante et la répercuter dans
53
		// index_settings.json
382 mathias 54
		/*$settings = $this->indexAlgolia->getSettings();
55
		var_dump(json_encode($settings));
56
		exit;*/
57
 
385 mathias 58
		/*$idsexistants = $this->indexAlgolia->search("", array(
59
			"attributesToRetrieve" => array(
60
				"objectID"
61
			)
62
		));
63
		var_dump(count($idsexistants));
64
		var_dump($idsexistants);
65
		exit;*/
66
 
382 mathias 67
		// Réglages de l'index @TODO tenir à jour
68
		if ($this->confirmer("Charger les réglages par défaut (index_settings.json) dans la configuration de l'index Algolia ?")) {
69
			// Chargement des réglages par défaut
70
			$reglagesJson = file_get_contents(dirname(__FILE__) . '/index_settings.json');
71
			$reglages = json_decode($reglagesJson, true);
72
			$this->indexAlgolia->setSettings($reglages);
73
			echo "Réglages chargés dans Algolia" . PHP_EOL;
74
		}
75
 
380 mathias 76
		// Connexion à la base
77
		$this->connecterPDO();
78
 
79
		// Liste des référentiels à fusionner
80
		$refsTexte = Config::get('algolia_referentiels');
81
		$refs = explode(",", $refsTexte);
82
 
83
		// Liste des référentiels à mettre à jour
84
		$refsMajTexte = $this->getParam("ref");
85
		if ($refsMajTexte === false) {
86
			// si le paramètre est vide, on met tout à jour
87
			$refsMaj = $refs;
269 delphine 88
		} else {
380 mathias 89
			$refsMaj = explode(",", $refsMajTexte);
267 delphine 90
		}
273 delphine 91
 
380 mathias 92
		// Déniaisage 1
93
		foreach ($refs as $k => $r) {
94
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
95
			if (! file_exists($fichierRequete)) {
96
				echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
97
				unset($refs[$k]);
267 delphine 98
			}
99
		}
380 mathias 100
		if (empty($refs)) {
101
			echo "Aucun référentiel à fusionner" . PHP_EOL;
102
			exit;
267 delphine 103
		}
380 mathias 104
 
105
		// Déniaisage 2
106
		foreach ($refsMaj as $k => $r) {
107
			if (! in_array($r, $refs)) {
108
				echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
109
				unset($refsMaj[$k]);
267 delphine 110
			}
111
		}
380 mathias 112
		if (empty($refsMaj)) {
113
			echo "Aucun référentiel à mettre à jour" . PHP_EOL;
114
			exit;
273 delphine 115
		}
380 mathias 116
 
117
		// Confirmation
382 mathias 118
		if (! $this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?")) {
119
			exit;
120
		}
380 mathias 121
 
122
		//var_dump($refs);
123
		$donneesBrutes = array();
124
		// Exécution des requêtes pour chaque référentiel
125
		foreach ($refs as $ref) {
126
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
127
			// Exécution de la requête
128
			$requete = file_get_contents($fichierRequete);
129
			$resultat = $this->requete($requete);
130
			$donneesBrutes[$ref] = $resultat->fetchAll();
131
 
132
			// Info utilisation mémoire
133
			$mem = memory_get_usage(true);
134
			$memMio = round($mem / (1024 * 1024));
135
			echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
136
		}
137
 
138
		// Fusion !
139
		$index = $this->fusionnerReferentiels($donneesBrutes);
140
		//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
141
 
142
		// Mise en forme
143
		$index = $this->mettreEnForme($index);
392 mathias 144
		//$this->extrait($index, 100);
380 mathias 145
 
146
		// Stats
147
		$taille = count($index);
148
		echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
149
		//file_put_contents("couscous.json", json_encode($index));
150
 
151
		// Calcul des différences ?
392 mathias 152
		// @TODO bonjour la galère
153
 
380 mathias 154
		// Insertion ?
392 mathias 155
		if (! $this->confirmer("Prêt à insérer dans l'index Algolia [" . Config::get('algolia_index') . "]. Continuer ?")) {
156
			exit;
157
		}
380 mathias 158
		$this->insererDansAlgolia($index);
159
 
160
		// Info utilisation mémoire totale
161
		$mem = memory_get_peak_usage(true);
162
		$memMio = round($mem / (1024 * 1024));
163
		echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
273 delphine 164
	}
380 mathias 165
 
166
	/**
167
	 * Génère un index unique pour Algolia à partir des données de n référentiels
168
	 */
169
	protected function fusionnerReferentiels(&$donneesRefs) {
170
		$index = array();
171
		foreach ($donneesRefs as $ref => &$d) {
172
			$nbTaxons = count($d);
173
			echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
174
 
175
			$fusions = 0;
392 mathias 176
 
380 mathias 177
			foreach ($d as $taxon) {
392 mathias 178
				// debug
179
				/*if ($taxon[$ref . '_num_nom'] == 141) {
180
					echo "> Taxon 141 :" . PHP_EOL;
181
					var_dump($taxon);
182
					echo PHP_EOL;
183
				}*/
380 mathias 184
				$nomSci = $taxon[$ref . '_nom_sci'];
185
				//$nn = $taxon[$ref . '_num_nom'];
186
				// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
187
				if (! empty ($taxon[$ref . '_auteur'])) {
188
					$nomSci .= ' ' . $taxon[$ref . '_auteur'];
273 delphine 189
				}
380 mathias 190
 
191
				// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
192
				if (empty($taxon[$ref . '_num_nom_retenu'])) {
193
					//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
194
					continue;
195
				}
196
 
197
				if (! isset($index[$nomSci])) {
198
					$index[$nomSci] = array(
199
						'objectID' => $nomSci,
200
						'referentiels' => array()
201
					);
202
				} else {
203
					//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
204
					$fusions++;
205
				}
206
				$index[$nomSci] = array_merge($index[$nomSci], $taxon);
207
				$index[$nomSci]['referentiels'][] = $ref;
208
				//break;
273 delphine 209
			}
380 mathias 210
			$taille = count($index);
211
			echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
273 delphine 212
		}
380 mathias 213
		return $index;
273 delphine 214
	}
380 mathias 215
 
216
	/**
217
	 * Organise les données de chaque objet conformément à la structure de
218
	 * l'index Algolia
219
	 *
220
	 * Voir commentaires sur cette page :
221
	 * http://taiga.tela-botanica.net/project/mathias-site-web/task/75
222
	 *
223
	 * L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
224
	 */
225
	protected function mettreEnForme($index) {
226
		$nouvelIndex = array();
227
		foreach ($index as $nomSci => $taxon) {
228
			$nouveauTaxon = array(
229
				'objectID' => md5($nomSci),
230
				'referentiels' => $taxon['referentiels']
231
			);
232
			foreach ($taxon['referentiels'] as $ref) {
233
				// ingrédients
234
				$nn = $taxon[$ref . '_num_nom'];
235
				$ns = $taxon[$ref . '_nom_sci'];
236
				$nts = $taxon[$ref . '_num_tax_sup'];
237
				$rang = $taxon[$ref . '_rang'];
238
				$auteur = $taxon[$ref . '_auteur'];
239
				$annee = $taxon[$ref . '_annee'];
240
				$biblio = $taxon[$ref . '_biblio'];
241
				$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
242
				$genre = $taxon[$ref . '_genre'];
243
				$epithete_sp = $taxon[$ref . '_epithete_sp'];
244
				$type_epithete = $taxon[$ref . '_type_epithete'];
245
				$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
246
				$cultivar = $taxon[$ref . '_cultivar'];
247
				$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
248
				$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
249
				$url = $taxon[$ref . '_url'];
250
				$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
392 mathias 251
				// debug synonymes tronqués (group_concat limité en longueur)
252
				/*if ($nn == 141) {
253
					echo ">> Synonymes bruts: [" . $taxon[$ref . '_synonymes'] . "]" . PHP_EOL;
254
					echo ">> Synonymes décodés: [" . print_r($synonymes, true) . "]" . PHP_EOL;
255
					exit;
256
				}*/
380 mathias 257
				$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
382 mathias 258
				$raccourcis = ($raccourcis != null ? array_values(array_unique($raccourcis)) : null); // array_values réindexe pour obtenir une liste en JSON et non un objet
380 mathias 259
				// garniture
260
				$donneesRef = array(
261
					'nomenclatural_number' => intval($nn),
262
					'scientific_name' => $ns,
263
					'common_name' => $nomCommun,
264
					'synonyms' => $synonymes,
385 mathias 265
					'permalink' => $url,
380 mathias 266
					'parent_taxon_number' => intval($nts),
267
					'rank' => intval($rang),
268
					'author' => $auteur,
269
					'year' => intval($annee),
270
					'biblio' => $biblio,
271
					'supra_genus_name' => $nom_supra_generique,
272
					'genus' => $genre,
273
					'species_attribute' => $epithete_sp,
274
					'attribute_type' => $type_epithete,
275
					'infra_species_attribute' => $epithete_infra_sp,
276
					'cultivar' => $cultivar,
277
					'cultivar_groupe' => $cultivar_groupe
278
				);
392 mathias 279
				// dans le cas de BDTFX, ajout de l'illustration de Coste et de
280
				// la carte Chorodep pour illustrer les résultats de recherche
281
				if ($ref == "bdtfx" && (Config::get("activer_image_coste") == "1")) {
282
					$this->ajouterImagesCosteEtChorodep($nn, $donneesRef);
283
				}
284
 
380 mathias 285
				$nouveauTaxon[$ref] = $donneesRef;
286
				$nouveauTaxon['shortcuts'] = $raccourcis;
287
			}
288
			$nouvelIndex[] = $nouveauTaxon;
273 delphine 289
		}
380 mathias 290
		return $nouvelIndex;
273 delphine 291
	}
380 mathias 292
 
383 mathias 293
	/**
392 mathias 294
	 * Interroge le service eFlore pour récupérer l'illustration de Coste pour
295
	 * le nn en cours, et ajoute une URL pour obtenir la carte de répartition
296
	 * de Chorodep
297
	 */
298
	protected function ajouterImagesCosteEtChorodep($nn, &$donnees) {
299
		// carte de répartition - le service renvoie directement une image
300
		$donnees['thumbnails.chorodep'] = sprintf(Config::get('url_template_chorodep'), $nn);
301
		// Coste
302
		$urlServiceCoste = sprintf(Config::get('url_template_coste'), $nn);
303
		$retour = @file_get_contents($urlServiceCoste);
304
		if ($retour) {
305
			try {
306
				$infosCoste = json_decode($retour, true);
307
				if (! empty($infosCoste['resultats']) && is_array($infosCoste['resultats'])) {
308
					$res1 = array_shift($infosCoste['resultats']);
309
					if (is_array($res1) && ! empty($res1['binaire.href'])) {
310
						$donnees['thumbnails.coste'] = $res1['binaire.href'];
311
					}
312
				}
313
			} catch (Exception $ex) {
314
				// pas de bol
315
			}
316
		}
317
		// debug
393 mathias 318
		/*echo ">> nn : [$nn]" . PHP_EOL;
392 mathias 319
		echo ">> image Coste : [" . $donnees['thumbnails.coste'] . "]" . PHP_EOL;
393 mathias 320
		echo ">> carte Chorodep : [" . $donnees['thumbnails.chorodep'] . "]" . PHP_EOL;*/
392 mathias 321
	}
322
 
323
	/**
383 mathias 324
	 * Appelle l'API Algolia pour indexer les données présentes dans $index, par
325
	 * tranches.
326
	 */
327
	protected function insererDansAlgolia(&$index) {
328
		$tailleTranche = 5000;
329
		echo "++++ Insertion dans Algolia (" . count($index) . " objets) !! ++++" . PHP_EOL;
330
		// insertion par tranches pour éviter un timeout sur l'API Algolia
331
		while (count($index) > 0) {
332
			echo "++ insertion d'une tranche de $tailleTranche... (" . count($index) . " restant)" . PHP_EOL;
333
			$tranche = array_splice($index, 0, $tailleTranche);
334
			//var_dump($tranche);
335
			$this->indexAlgolia->addObjects($tranche);
336
		}
273 delphine 337
	}
380 mathias 338
 
339
	// ---------------- utilitaires --------------------------------------------
340
 
341
	protected function extrait($index, $clefsOuNombre) {
342
		// Debug
343
		echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
344
		if (is_array($clefsOuNombre)) {
345
			foreach ($clefsOuNombre as $k) {
346
				var_dump($index[$k]);
267 delphine 347
			}
380 mathias 348
		} else {
349
			for ($i=0; $i < $clefsOuNombre; $i++) {
350
				var_dump($index[$i]);
351
			}
267 delphine 352
		}
353
	}
380 mathias 354
 
355
	protected function connecterPDO() {
356
		Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
267 delphine 357
		try {
269 delphine 358
			$dsn = Config::get('bdd_type').':dbname='.Config::get('bdd_nom').';host='.
359
				Config::get('bdd_hote');
360
			$this->bdd = new PDO($dsn, Config::get('bdd_utilisateur'), Config::get('bdd_mot_de_passe'));
380 mathias 361
			// Passe en UTF-8 la connexion à la BDD
362
			$this->bdd->exec("SET NAMES 'utf8'");
363
			// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
364
			$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
267 delphine 365
		} catch (PDOException $e) {
380 mathias 366
			//print_r($e);
367
			echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
368
			exit;
267 delphine 369
		}
370
	}
380 mathias 371
 
372
	protected function requete($requete) {
267 delphine 373
		$infos = null;
374
		try {
380 mathias 375
			$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
376
			/*if ($infos === false) {
267 delphine 377
				echo $requete;
380 mathias 378
			}*/
267 delphine 379
		} catch (PDOException $e) {
273 delphine 380
			echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
267 delphine 381
		}
382
		return $infos;
383
	}
380 mathias 384
 
385
	/**
386
	 * Demande confirmation, et sort du script à moins qu'on tape ce qui est
387
	 * indiqué (par défaut "o" pour "oui")
388
	 */
389
	protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
390
		echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
391
		$handle = fopen ("php://stdin","r");
392
		$line = fgets($handle);
393
		if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
394
			echo $messageAnnulation . PHP_EOL;
382 mathias 395
			return false;
380 mathias 396
		}
397
		fclose($handle);
382 mathias 398
		return true;
380 mathias 399
	}
267 delphine 400
}
401
?>