Subversion Repositories Applications.referentiel

Rev

Go to most recent revision | Details | Last modification | View Log | RSS feed

Rev Author Line No. Line
267 delphine 1
<?php
2
/**
380 mathias 3
 * Indexation dans Algolia des référentiels
4
 *
5
 * Description : formate les données des référentiels choisis et envoie tout ça
6
 * dans Algolia
7
 *
8
 * Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
9
 *   -ref (optionnel): liste de codes de référentiels séparés par des virgules;
10
 *                     par défaut: "apd,bdtfx,bdtxa,isfan"
11
 *
12
 * Exemples:
13
 *   php script.php algolia
14
 *   php script.php algolia -ref "bdtfx,isfan"
15
 *
16
 * @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
17
 *
18
 * @author       Tela Botanica <equipe-dev@tela-botanica.org>
19
 * @licence		GPL v3 & CeCILL v2
20
 */
21
restore_error_handler();
22
restore_exception_handler();
23
ini_set("display_errors","1");
24
error_reporting(E_ALL);
25
 
26
// composer autoload
27
require dirname(__FILE__) . '/../../../vendor/autoload.php';
28
 
29
class Algolia extends ScriptCommande {
30
 
31
	const SCRIPT_NOM = 'algolia';
32
 
33
	public $parametres = array(
34
		'-ref' => array(false, false, 'Celui qui lit ça est un con')
35
	);
36
 
37
	/** connexion PDO à la BDD "referentiels" */
38
	protected $bdd;
39
 
40
	/** client API Algolia */
41
	protected $algolia;
42
	protected $indexAlgolia;
267 delphine 43
 
44
	public function executer() {
380 mathias 45
		echo "Indexation des référentiels dans Algolia" . PHP_EOL;
46
 
47
		// Bibliothèque Algolia PHP pour appeler l'API
48
		Config::charger(dirname(__FILE__) . '/algolia.ini');
49
		$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
50
		$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
51
 
382 mathias 52
		/*$settings = $this->indexAlgolia->getSettings();
53
		var_dump(json_encode($settings));
54
		exit;*/
55
 
56
		// Réglages de l'index @TODO tenir à jour
57
		if ($this->confirmer("Charger les réglages par défaut (index_settings.json) dans la configuration de l'index Algolia ?")) {
58
			// Chargement des réglages par défaut
59
			$reglagesJson = file_get_contents(dirname(__FILE__) . '/index_settings.json');
60
			$reglages = json_decode($reglagesJson, true);
61
			$this->indexAlgolia->setSettings($reglages);
62
			echo "Réglages chargés dans Algolia" . PHP_EOL;
63
		}
64
 
380 mathias 65
		// Connexion à la base
66
		$this->connecterPDO();
67
 
68
		// Liste des référentiels à fusionner
69
		$refsTexte = Config::get('algolia_referentiels');
70
		$refs = explode(",", $refsTexte);
71
 
72
		// Liste des référentiels à mettre à jour
73
		$refsMajTexte = $this->getParam("ref");
74
		if ($refsMajTexte === false) {
75
			// si le paramètre est vide, on met tout à jour
76
			$refsMaj = $refs;
269 delphine 77
		} else {
380 mathias 78
			$refsMaj = explode(",", $refsMajTexte);
267 delphine 79
		}
273 delphine 80
 
380 mathias 81
		// Déniaisage 1
82
		foreach ($refs as $k => $r) {
83
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
84
			if (! file_exists($fichierRequete)) {
85
				echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
86
				unset($refs[$k]);
267 delphine 87
			}
88
		}
380 mathias 89
		if (empty($refs)) {
90
			echo "Aucun référentiel à fusionner" . PHP_EOL;
91
			exit;
267 delphine 92
		}
380 mathias 93
 
94
		// Déniaisage 2
95
		foreach ($refsMaj as $k => $r) {
96
			if (! in_array($r, $refs)) {
97
				echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
98
				unset($refsMaj[$k]);
267 delphine 99
			}
100
		}
380 mathias 101
		if (empty($refsMaj)) {
102
			echo "Aucun référentiel à mettre à jour" . PHP_EOL;
103
			exit;
273 delphine 104
		}
380 mathias 105
 
106
		// Confirmation
382 mathias 107
		if (! $this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?")) {
108
			exit;
109
		}
380 mathias 110
 
111
		//var_dump($refs);
112
		$donneesBrutes = array();
113
		// Exécution des requêtes pour chaque référentiel
114
		foreach ($refs as $ref) {
115
			$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
116
			// Exécution de la requête
117
			$requete = file_get_contents($fichierRequete);
118
			$resultat = $this->requete($requete);
119
			/*while ($ligne = $resultat->fetch()) {
120
				var_dump($ligne);
121
				break;
122
			}*/
123
			$donneesBrutes[$ref] = $resultat->fetchAll();
124
 
125
			// Info utilisation mémoire
126
			$mem = memory_get_usage(true);
127
			$memMio = round($mem / (1024 * 1024));
128
			echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
129
		}
130
 
131
		// Fusion !
132
		$index = $this->fusionnerReferentiels($donneesBrutes);
133
		//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
134
 
135
		// Mise en forme
136
		$index = $this->mettreEnForme($index);
382 mathias 137
		//$this->extrait($index, 3);
380 mathias 138
 
139
		// Stats
140
		$taille = count($index);
141
		echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
142
		//file_put_contents("couscous.json", json_encode($index));
143
 
144
		// Calcul des différences ?
145
		// Insertion ?
146
		$this->insererDansAlgolia($index);
147
 
148
		// Info utilisation mémoire totale
149
		$mem = memory_get_peak_usage(true);
150
		$memMio = round($mem / (1024 * 1024));
151
		echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
273 delphine 152
	}
380 mathias 153
 
154
	/**
155
	 * Génère un index unique pour Algolia à partir des données de n référentiels
156
	 */
157
	protected function fusionnerReferentiels(&$donneesRefs) {
158
		$index = array();
159
		foreach ($donneesRefs as $ref => &$d) {
160
			$nbTaxons = count($d);
161
			echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
162
 
163
			$fusions = 0;
164
			foreach ($d as $taxon) {
165
				$nomSci = $taxon[$ref . '_nom_sci'];
166
				//$nn = $taxon[$ref . '_num_nom'];
167
				// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
168
				if (! empty ($taxon[$ref . '_auteur'])) {
169
					$nomSci .= ' ' . $taxon[$ref . '_auteur'];
273 delphine 170
				}
380 mathias 171
 
172
				// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
173
				if (empty($taxon[$ref . '_num_nom_retenu'])) {
174
					//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
175
					continue;
176
				}
177
 
178
				if (! isset($index[$nomSci])) {
179
					$index[$nomSci] = array(
180
						'objectID' => $nomSci,
181
						'referentiels' => array()
182
					);
183
				} else {
184
					//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
185
					$fusions++;
186
				}
187
				$index[$nomSci] = array_merge($index[$nomSci], $taxon);
188
				$index[$nomSci]['referentiels'][] = $ref;
189
				//break;
273 delphine 190
			}
380 mathias 191
			$taille = count($index);
192
			echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
273 delphine 193
		}
380 mathias 194
		return $index;
273 delphine 195
	}
380 mathias 196
 
197
	/**
198
	 * Organise les données de chaque objet conformément à la structure de
199
	 * l'index Algolia
200
	 *
201
	 * Voir commentaires sur cette page :
202
	 * http://taiga.tela-botanica.net/project/mathias-site-web/task/75
203
	 *
204
	 * L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
205
	 */
206
	protected function mettreEnForme($index) {
207
		$nouvelIndex = array();
208
		foreach ($index as $nomSci => $taxon) {
209
			$nouveauTaxon = array(
210
				'objectID' => md5($nomSci),
211
				'referentiels' => $taxon['referentiels']
212
			);
213
			foreach ($taxon['referentiels'] as $ref) {
214
				// ingrédients
215
				$nn = $taxon[$ref . '_num_nom'];
216
				$ns = $taxon[$ref . '_nom_sci'];
217
				$nts = $taxon[$ref . '_num_tax_sup'];
218
				$rang = $taxon[$ref . '_rang'];
219
				$auteur = $taxon[$ref . '_auteur'];
220
				$annee = $taxon[$ref . '_annee'];
221
				$biblio = $taxon[$ref . '_biblio'];
222
				$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
223
				$genre = $taxon[$ref . '_genre'];
224
				$epithete_sp = $taxon[$ref . '_epithete_sp'];
225
				$type_epithete = $taxon[$ref . '_type_epithete'];
226
				$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
227
				$cultivar = $taxon[$ref . '_cultivar'];
228
				$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
229
				$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
230
				$url = $taxon[$ref . '_url'];
231
				$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
232
				$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
382 mathias 233
				$raccourcis = ($raccourcis != null ? array_values(array_unique($raccourcis)) : null); // array_values réindexe pour obtenir une liste en JSON et non un objet
380 mathias 234
				// garniture
235
				$donneesRef = array(
236
					'nomenclatural_number' => intval($nn),
237
					'scientific_name' => $ns,
238
					'common_name' => $nomCommun,
239
					'synonyms' => $synonymes,
240
					'url' => $url,
241
					'parent_taxon_number' => intval($nts),
242
					'rank' => intval($rang),
243
					'author' => $auteur,
244
					'year' => intval($annee),
245
					'biblio' => $biblio,
246
					'supra_genus_name' => $nom_supra_generique,
247
					'genus' => $genre,
248
					'species_attribute' => $epithete_sp,
249
					'attribute_type' => $type_epithete,
250
					'infra_species_attribute' => $epithete_infra_sp,
251
					'cultivar' => $cultivar,
252
					'cultivar_groupe' => $cultivar_groupe
253
				);
254
				$nouveauTaxon[$ref] = $donneesRef;
255
				$nouveauTaxon['shortcuts'] = $raccourcis;
256
			}
257
			$nouvelIndex[] = $nouveauTaxon;
273 delphine 258
		}
380 mathias 259
		return $nouvelIndex;
273 delphine 260
	}
380 mathias 261
 
383 mathias 262
	/**
263
	 * Appelle l'API Algolia pour indexer les données présentes dans $index, par
264
	 * tranches.
265
	 */
266
	protected function insererDansAlgolia(&$index) {
267
		$tailleTranche = 5000;
268
		echo "++++ Insertion dans Algolia (" . count($index) . " objets) !! ++++" . PHP_EOL;
269
		// insertion par tranches pour éviter un timeout sur l'API Algolia
270
		while (count($index) > 0) {
271
			echo "++ insertion d'une tranche de $tailleTranche... (" . count($index) . " restant)" . PHP_EOL;
272
			$tranche = array_splice($index, 0, $tailleTranche);
273
			//var_dump($tranche);
274
			$this->indexAlgolia->addObjects($tranche);
275
		}
273 delphine 276
	}
380 mathias 277
 
278
	// ---------------- utilitaires --------------------------------------------
279
 
280
	protected function extrait($index, $clefsOuNombre) {
281
		// Debug
282
		echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
283
		if (is_array($clefsOuNombre)) {
284
			foreach ($clefsOuNombre as $k) {
285
				var_dump($index[$k]);
267 delphine 286
			}
380 mathias 287
		} else {
288
			for ($i=0; $i < $clefsOuNombre; $i++) {
289
				var_dump($index[$i]);
290
			}
267 delphine 291
		}
292
	}
380 mathias 293
 
294
	protected function connecterPDO() {
295
		Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
267 delphine 296
		try {
269 delphine 297
			$dsn = Config::get('bdd_type').':dbname='.Config::get('bdd_nom').';host='.
298
				Config::get('bdd_hote');
299
			$this->bdd = new PDO($dsn, Config::get('bdd_utilisateur'), Config::get('bdd_mot_de_passe'));
380 mathias 300
			// Passe en UTF-8 la connexion à la BDD
301
			$this->bdd->exec("SET NAMES 'utf8'");
302
			// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
303
			$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
267 delphine 304
		} catch (PDOException $e) {
380 mathias 305
			//print_r($e);
306
			echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
307
			exit;
267 delphine 308
		}
309
	}
380 mathias 310
 
311
	protected function requete($requete) {
267 delphine 312
		$infos = null;
313
		try {
380 mathias 314
			$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
315
			/*if ($infos === false) {
267 delphine 316
				echo $requete;
380 mathias 317
			}*/
267 delphine 318
		} catch (PDOException $e) {
273 delphine 319
			echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
267 delphine 320
		}
321
		return $infos;
322
	}
380 mathias 323
 
324
	/**
325
	 * Demande confirmation, et sort du script à moins qu'on tape ce qui est
326
	 * indiqué (par défaut "o" pour "oui")
327
	 */
328
	protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
329
		echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
330
		$handle = fopen ("php://stdin","r");
331
		$line = fgets($handle);
332
		if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
333
			echo $messageAnnulation . PHP_EOL;
382 mathias 334
			return false;
380 mathias 335
		}
336
		fclose($handle);
382 mathias 337
		return true;
380 mathias 338
	}
267 delphine 339
}
340
?>