Subversion Repositories Applications.referentiel

Rev

Rev 383 | Rev 392 | Go to most recent revision | Details | Compare with Previous | Last modification | View Log | RSS feed

Rev Author Line No. Line
267 delphine 1
<?php
2
/**
380 mathias 3
 * Indexation dans Algolia des référentiels
4
 *
5
 * Description : formate les données des référentiels choisis et envoie tout ça
6
 * dans Algolia
7
 *
8
 * Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
9
 *   -ref (optionnel): liste de codes de référentiels séparés par des virgules;
10
 *                     par défaut: "apd,bdtfx,bdtxa,isfan"
11
 *
12
 * Exemples:
13
 *   php script.php algolia
14
 *   php script.php algolia -ref "bdtfx,isfan"
15
 *
16
 * @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
17
 *
18
 * @author       Tela Botanica <equipe-dev@tela-botanica.org>
19
 * @licence		GPL v3 & CeCILL v2
20
 */
21
restore_error_handler();
22
restore_exception_handler();
23
ini_set("display_errors","1");
24
error_reporting(E_ALL);
25
 
26
// composer autoload
27
require dirname(__FILE__) . '/../../../vendor/autoload.php';
28
 
29
class Algolia extends ScriptCommande {
30
 
31
	const SCRIPT_NOM = 'algolia';
32
 
33
	public $parametres = array(
34
		'-ref' => array(false, false, 'Celui qui lit ça est un con')
35
	);
36
 
37
	/** connexion PDO à la BDD "referentiels" */
38
	protected $bdd;
39
 
40
	/** client API Algolia */
41
	protected $algolia;
42
	protected $indexAlgolia;
267 delphine 43
 
44
	public function executer() {
380 mathias 45
		echo "Indexation des référentiels dans Algolia" . PHP_EOL;
46
 
47
		// Bibliothèque Algolia PHP pour appeler l'API
48
		Config::charger(dirname(__FILE__) . '/algolia.ini');
49
		$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
50
		$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
51
 
382 mathias 52
		/*$settings = $this->indexAlgolia->getSettings();
53
		var_dump(json_encode($settings));
54
		exit;*/
55
 
385 mathias 56
		/*$idsexistants = $this->indexAlgolia->search("", array(
57
			"attributesToRetrieve" => array(
58
				"objectID"
59
			)
60
		));
61
		var_dump(count($idsexistants));
62
		var_dump($idsexistants);
63
		exit;*/
64
 
382 mathias 65
		// Réglages de l'index @TODO tenir à jour
66
		if ($this->confirmer("Charger les réglages par défaut (index_settings.json) dans la configuration de l'index Algolia ?")) {
67
			// Chargement des réglages par défaut
68
			$reglagesJson = file_get_contents(dirname(__FILE__) . '/index_settings.json');
69
			$reglages = json_decode($reglagesJson, true);
70
			$this->indexAlgolia->setSettings($reglages);
71
			echo "Réglages chargés dans Algolia" . PHP_EOL;
72
		}
73
 
380 mathias 74
		// Connexion à la base
75
		$this->connecterPDO();
76
 
77
		// Liste des référentiels à fusionner
78
		$refsTexte = Config::get('algolia_referentiels');
79
		$refs = explode(",", $refsTexte);
80
 
81
		// Liste des référentiels à mettre à jour
82
		$refsMajTexte = $this->getParam("ref");
83
		if ($refsMajTexte === false) {
84
			// si le paramètre est vide, on met tout à jour
85
			$refsMaj = $refs;
269 delphine 86
		} else {
380 mathias 87
			$refsMaj = explode(",", $refsMajTexte);
267 delphine 88
		}
273 delphine 89
 
380 mathias 90
		// Déniaisage 1
91
		foreach ($refs as $k => $r) {
92
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
93
			if (! file_exists($fichierRequete)) {
94
				echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
95
				unset($refs[$k]);
267 delphine 96
			}
97
		}
380 mathias 98
		if (empty($refs)) {
99
			echo "Aucun référentiel à fusionner" . PHP_EOL;
100
			exit;
267 delphine 101
		}
380 mathias 102
 
103
		// Déniaisage 2
104
		foreach ($refsMaj as $k => $r) {
105
			if (! in_array($r, $refs)) {
106
				echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
107
				unset($refsMaj[$k]);
267 delphine 108
			}
109
		}
380 mathias 110
		if (empty($refsMaj)) {
111
			echo "Aucun référentiel à mettre à jour" . PHP_EOL;
112
			exit;
273 delphine 113
		}
380 mathias 114
 
115
		// Confirmation
382 mathias 116
		if (! $this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?")) {
117
			exit;
118
		}
380 mathias 119
 
120
		//var_dump($refs);
121
		$donneesBrutes = array();
122
		// Exécution des requêtes pour chaque référentiel
123
		foreach ($refs as $ref) {
124
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
125
			// Exécution de la requête
126
			$requete = file_get_contents($fichierRequete);
127
			$resultat = $this->requete($requete);
128
			/*while ($ligne = $resultat->fetch()) {
129
				var_dump($ligne);
130
				break;
131
			}*/
132
			$donneesBrutes[$ref] = $resultat->fetchAll();
133
 
134
			// Info utilisation mémoire
135
			$mem = memory_get_usage(true);
136
			$memMio = round($mem / (1024 * 1024));
137
			echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
138
		}
139
 
140
		// Fusion !
141
		$index = $this->fusionnerReferentiels($donneesBrutes);
142
		//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
143
 
144
		// Mise en forme
145
		$index = $this->mettreEnForme($index);
382 mathias 146
		//$this->extrait($index, 3);
380 mathias 147
 
148
		// Stats
149
		$taille = count($index);
150
		echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
151
		//file_put_contents("couscous.json", json_encode($index));
152
 
153
		// Calcul des différences ?
154
		// Insertion ?
155
		$this->insererDansAlgolia($index);
156
 
157
		// Info utilisation mémoire totale
158
		$mem = memory_get_peak_usage(true);
159
		$memMio = round($mem / (1024 * 1024));
160
		echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
273 delphine 161
	}
380 mathias 162
 
163
	/**
164
	 * Génère un index unique pour Algolia à partir des données de n référentiels
165
	 */
166
	protected function fusionnerReferentiels(&$donneesRefs) {
167
		$index = array();
168
		foreach ($donneesRefs as $ref => &$d) {
169
			$nbTaxons = count($d);
170
			echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
171
 
172
			$fusions = 0;
173
			foreach ($d as $taxon) {
174
				$nomSci = $taxon[$ref . '_nom_sci'];
175
				//$nn = $taxon[$ref . '_num_nom'];
176
				// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
177
				if (! empty ($taxon[$ref . '_auteur'])) {
178
					$nomSci .= ' ' . $taxon[$ref . '_auteur'];
273 delphine 179
				}
380 mathias 180
 
181
				// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
182
				if (empty($taxon[$ref . '_num_nom_retenu'])) {
183
					//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
184
					continue;
185
				}
186
 
187
				if (! isset($index[$nomSci])) {
188
					$index[$nomSci] = array(
189
						'objectID' => $nomSci,
190
						'referentiels' => array()
191
					);
192
				} else {
193
					//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
194
					$fusions++;
195
				}
196
				$index[$nomSci] = array_merge($index[$nomSci], $taxon);
197
				$index[$nomSci]['referentiels'][] = $ref;
198
				//break;
273 delphine 199
			}
380 mathias 200
			$taille = count($index);
201
			echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
273 delphine 202
		}
380 mathias 203
		return $index;
273 delphine 204
	}
380 mathias 205
 
206
	/**
207
	 * Organise les données de chaque objet conformément à la structure de
208
	 * l'index Algolia
209
	 *
210
	 * Voir commentaires sur cette page :
211
	 * http://taiga.tela-botanica.net/project/mathias-site-web/task/75
212
	 *
213
	 * L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
214
	 */
215
	protected function mettreEnForme($index) {
216
		$nouvelIndex = array();
217
		foreach ($index as $nomSci => $taxon) {
218
			$nouveauTaxon = array(
219
				'objectID' => md5($nomSci),
220
				'referentiels' => $taxon['referentiels']
221
			);
222
			foreach ($taxon['referentiels'] as $ref) {
223
				// ingrédients
224
				$nn = $taxon[$ref . '_num_nom'];
225
				$ns = $taxon[$ref . '_nom_sci'];
226
				$nts = $taxon[$ref . '_num_tax_sup'];
227
				$rang = $taxon[$ref . '_rang'];
228
				$auteur = $taxon[$ref . '_auteur'];
229
				$annee = $taxon[$ref . '_annee'];
230
				$biblio = $taxon[$ref . '_biblio'];
231
				$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
232
				$genre = $taxon[$ref . '_genre'];
233
				$epithete_sp = $taxon[$ref . '_epithete_sp'];
234
				$type_epithete = $taxon[$ref . '_type_epithete'];
235
				$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
236
				$cultivar = $taxon[$ref . '_cultivar'];
237
				$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
238
				$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
239
				$url = $taxon[$ref . '_url'];
240
				$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
241
				$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
382 mathias 242
				$raccourcis = ($raccourcis != null ? array_values(array_unique($raccourcis)) : null); // array_values réindexe pour obtenir une liste en JSON et non un objet
380 mathias 243
				// garniture
244
				$donneesRef = array(
245
					'nomenclatural_number' => intval($nn),
246
					'scientific_name' => $ns,
247
					'common_name' => $nomCommun,
248
					'synonyms' => $synonymes,
385 mathias 249
					'permalink' => $url,
380 mathias 250
					'parent_taxon_number' => intval($nts),
251
					'rank' => intval($rang),
252
					'author' => $auteur,
253
					'year' => intval($annee),
254
					'biblio' => $biblio,
255
					'supra_genus_name' => $nom_supra_generique,
256
					'genus' => $genre,
257
					'species_attribute' => $epithete_sp,
258
					'attribute_type' => $type_epithete,
259
					'infra_species_attribute' => $epithete_infra_sp,
260
					'cultivar' => $cultivar,
261
					'cultivar_groupe' => $cultivar_groupe
262
				);
263
				$nouveauTaxon[$ref] = $donneesRef;
264
				$nouveauTaxon['shortcuts'] = $raccourcis;
265
			}
266
			$nouvelIndex[] = $nouveauTaxon;
273 delphine 267
		}
380 mathias 268
		return $nouvelIndex;
273 delphine 269
	}
380 mathias 270
 
383 mathias 271
	/**
272
	 * Appelle l'API Algolia pour indexer les données présentes dans $index, par
273
	 * tranches.
274
	 */
275
	protected function insererDansAlgolia(&$index) {
276
		$tailleTranche = 5000;
277
		echo "++++ Insertion dans Algolia (" . count($index) . " objets) !! ++++" . PHP_EOL;
278
		// insertion par tranches pour éviter un timeout sur l'API Algolia
279
		while (count($index) > 0) {
280
			echo "++ insertion d'une tranche de $tailleTranche... (" . count($index) . " restant)" . PHP_EOL;
281
			$tranche = array_splice($index, 0, $tailleTranche);
282
			//var_dump($tranche);
283
			$this->indexAlgolia->addObjects($tranche);
284
		}
273 delphine 285
	}
380 mathias 286
 
287
	// ---------------- utilitaires --------------------------------------------
288
 
289
	protected function extrait($index, $clefsOuNombre) {
290
		// Debug
291
		echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
292
		if (is_array($clefsOuNombre)) {
293
			foreach ($clefsOuNombre as $k) {
294
				var_dump($index[$k]);
267 delphine 295
			}
380 mathias 296
		} else {
297
			for ($i=0; $i < $clefsOuNombre; $i++) {
298
				var_dump($index[$i]);
299
			}
267 delphine 300
		}
301
	}
380 mathias 302
 
303
	protected function connecterPDO() {
304
		Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
267 delphine 305
		try {
269 delphine 306
			$dsn = Config::get('bdd_type').':dbname='.Config::get('bdd_nom').';host='.
307
				Config::get('bdd_hote');
308
			$this->bdd = new PDO($dsn, Config::get('bdd_utilisateur'), Config::get('bdd_mot_de_passe'));
380 mathias 309
			// Passe en UTF-8 la connexion à la BDD
310
			$this->bdd->exec("SET NAMES 'utf8'");
311
			// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
312
			$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
267 delphine 313
		} catch (PDOException $e) {
380 mathias 314
			//print_r($e);
315
			echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
316
			exit;
267 delphine 317
		}
318
	}
380 mathias 319
 
320
	protected function requete($requete) {
267 delphine 321
		$infos = null;
322
		try {
380 mathias 323
			$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
324
			/*if ($infos === false) {
267 delphine 325
				echo $requete;
380 mathias 326
			}*/
267 delphine 327
		} catch (PDOException $e) {
273 delphine 328
			echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
267 delphine 329
		}
330
		return $infos;
331
	}
380 mathias 332
 
333
	/**
334
	 * Demande confirmation, et sort du script à moins qu'on tape ce qui est
335
	 * indiqué (par défaut "o" pour "oui")
336
	 */
337
	protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
338
		echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
339
		$handle = fopen ("php://stdin","r");
340
		$line = fgets($handle);
341
		if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
342
			echo $messageAnnulation . PHP_EOL;
382 mathias 343
			return false;
380 mathias 344
		}
345
		fclose($handle);
382 mathias 346
		return true;
380 mathias 347
	}
267 delphine 348
}
349
?>