267 |
delphine |
1 |
<?php
|
|
|
2 |
/**
|
380 |
mathias |
3 |
* Indexation dans Algolia des référentiels
|
|
|
4 |
*
|
|
|
5 |
* Description : formate les données des référentiels choisis et envoie tout ça
|
|
|
6 |
* dans Algolia
|
|
|
7 |
*
|
|
|
8 |
* Utilisation : php script.php algolia [-ref "ref1,ref2,..."]
|
|
|
9 |
* -ref (optionnel): liste de codes de référentiels séparés par des virgules;
|
|
|
10 |
* par défaut: "apd,bdtfx,bdtxa,isfan"
|
|
|
11 |
*
|
|
|
12 |
* Exemples:
|
|
|
13 |
* php script.php algolia
|
|
|
14 |
* php script.php algolia -ref "bdtfx,isfan"
|
|
|
15 |
*
|
|
|
16 |
* @note: ignorer le paramètre fasciste -a : on ne s'en sert pas
|
|
|
17 |
*
|
|
|
18 |
* @author Tela Botanica <equipe-dev@tela-botanica.org>
|
|
|
19 |
* @licence GPL v3 & CeCILL v2
|
|
|
20 |
*/
|
|
|
21 |
restore_error_handler();
|
|
|
22 |
restore_exception_handler();
|
|
|
23 |
ini_set("display_errors","1");
|
|
|
24 |
error_reporting(E_ALL);
|
|
|
25 |
|
|
|
26 |
// composer autoload
|
|
|
27 |
require dirname(__FILE__) . '/../../../vendor/autoload.php';
|
|
|
28 |
|
|
|
29 |
class Algolia extends ScriptCommande {
|
|
|
30 |
|
|
|
31 |
const SCRIPT_NOM = 'algolia';
|
|
|
32 |
|
|
|
33 |
public $parametres = array(
|
|
|
34 |
'-ref' => array(false, false, 'Celui qui lit ça est un con')
|
|
|
35 |
);
|
|
|
36 |
|
|
|
37 |
/** connexion PDO à la BDD "referentiels" */
|
|
|
38 |
protected $bdd;
|
|
|
39 |
|
|
|
40 |
/** client API Algolia */
|
|
|
41 |
protected $algolia;
|
|
|
42 |
protected $indexAlgolia;
|
267 |
delphine |
43 |
|
|
|
44 |
public function executer() {
|
380 |
mathias |
45 |
echo "Indexation des référentiels dans Algolia" . PHP_EOL;
|
|
|
46 |
|
|
|
47 |
// Bibliothèque Algolia PHP pour appeler l'API
|
|
|
48 |
Config::charger(dirname(__FILE__) . '/algolia.ini');
|
|
|
49 |
$this->algolia = new \AlgoliaSearch\Client(Config::get('algolia_application_id'), Config::get('algolia_api_key'));
|
|
|
50 |
$this->indexAlgolia = $this->algolia->initIndex(Config::get('algolia_index'));
|
|
|
51 |
|
382 |
mathias |
52 |
/*$settings = $this->indexAlgolia->getSettings();
|
|
|
53 |
var_dump(json_encode($settings));
|
|
|
54 |
exit;*/
|
|
|
55 |
|
|
|
56 |
// Réglages de l'index @TODO tenir à jour
|
|
|
57 |
if ($this->confirmer("Charger les réglages par défaut (index_settings.json) dans la configuration de l'index Algolia ?")) {
|
|
|
58 |
// Chargement des réglages par défaut
|
|
|
59 |
$reglagesJson = file_get_contents(dirname(__FILE__) . '/index_settings.json');
|
|
|
60 |
$reglages = json_decode($reglagesJson, true);
|
|
|
61 |
$this->indexAlgolia->setSettings($reglages);
|
|
|
62 |
echo "Réglages chargés dans Algolia" . PHP_EOL;
|
|
|
63 |
}
|
|
|
64 |
|
380 |
mathias |
65 |
// Connexion à la base
|
|
|
66 |
$this->connecterPDO();
|
|
|
67 |
|
|
|
68 |
// Liste des référentiels à fusionner
|
|
|
69 |
$refsTexte = Config::get('algolia_referentiels');
|
|
|
70 |
$refs = explode(",", $refsTexte);
|
|
|
71 |
|
|
|
72 |
// Liste des référentiels à mettre à jour
|
|
|
73 |
$refsMajTexte = $this->getParam("ref");
|
|
|
74 |
if ($refsMajTexte === false) {
|
|
|
75 |
// si le paramètre est vide, on met tout à jour
|
|
|
76 |
$refsMaj = $refs;
|
269 |
delphine |
77 |
} else {
|
380 |
mathias |
78 |
$refsMaj = explode(",", $refsMajTexte);
|
267 |
delphine |
79 |
}
|
273 |
delphine |
80 |
|
380 |
mathias |
81 |
// Déniaisage 1
|
|
|
82 |
foreach ($refs as $k => $r) {
|
|
|
83 |
$fichierRequete = dirname(__FILE__) . "/algolia_" . $r . ".sql";
|
|
|
84 |
if (! file_exists($fichierRequete)) {
|
|
|
85 |
echo "- fichier [$fichierRequete] non trouvé, fusion de [$r] ignorée" . PHP_EOL;
|
|
|
86 |
unset($refs[$k]);
|
267 |
delphine |
87 |
}
|
|
|
88 |
}
|
380 |
mathias |
89 |
if (empty($refs)) {
|
|
|
90 |
echo "Aucun référentiel à fusionner" . PHP_EOL;
|
|
|
91 |
exit;
|
267 |
delphine |
92 |
}
|
380 |
mathias |
93 |
|
|
|
94 |
// Déniaisage 2
|
|
|
95 |
foreach ($refsMaj as $k => $r) {
|
|
|
96 |
if (! in_array($r, $refs)) {
|
|
|
97 |
echo "- le référentiel à mettre à jour [$r] n'est pas présent dans la liste à fusionner, il sera ignoré" . PHP_EOL;
|
|
|
98 |
unset($refsMaj[$k]);
|
267 |
delphine |
99 |
}
|
|
|
100 |
}
|
380 |
mathias |
101 |
if (empty($refsMaj)) {
|
|
|
102 |
echo "Aucun référentiel à mettre à jour" . PHP_EOL;
|
|
|
103 |
exit;
|
273 |
delphine |
104 |
}
|
380 |
mathias |
105 |
|
|
|
106 |
// Confirmation
|
382 |
mathias |
107 |
if (! $this->confirmer("Fusion des référentiels [" . implode(',', $refs) . "] et mise à jour de [" . implode(',', $refsMaj) . "]. Continuer ?")) {
|
|
|
108 |
exit;
|
|
|
109 |
}
|
380 |
mathias |
110 |
|
|
|
111 |
//var_dump($refs);
|
|
|
112 |
$donneesBrutes = array();
|
|
|
113 |
// Exécution des requêtes pour chaque référentiel
|
|
|
114 |
foreach ($refs as $ref) {
|
|
|
115 |
$fichierRequete = dirname(__FILE__) . "/algolia_" . $ref . ".sql";
|
|
|
116 |
// Exécution de la requête
|
|
|
117 |
$requete = file_get_contents($fichierRequete);
|
|
|
118 |
$resultat = $this->requete($requete);
|
|
|
119 |
/*while ($ligne = $resultat->fetch()) {
|
|
|
120 |
var_dump($ligne);
|
|
|
121 |
break;
|
|
|
122 |
}*/
|
|
|
123 |
$donneesBrutes[$ref] = $resultat->fetchAll();
|
|
|
124 |
|
|
|
125 |
// Info utilisation mémoire
|
|
|
126 |
$mem = memory_get_usage(true);
|
|
|
127 |
$memMio = round($mem / (1024 * 1024));
|
|
|
128 |
echo "Mémoire utilisée : $memMio Mio" . PHP_EOL;
|
|
|
129 |
}
|
|
|
130 |
|
|
|
131 |
// Fusion !
|
|
|
132 |
$index = $this->fusionnerReferentiels($donneesBrutes);
|
|
|
133 |
//$this->extrait($index, array('Acacia dealbata Link','Acacia Mill.','Fabaceae'));
|
|
|
134 |
|
|
|
135 |
// Mise en forme
|
|
|
136 |
$index = $this->mettreEnForme($index);
|
382 |
mathias |
137 |
//$this->extrait($index, 3);
|
380 |
mathias |
138 |
|
|
|
139 |
// Stats
|
|
|
140 |
$taille = count($index);
|
|
|
141 |
echo "Taille de l'index: [$taille] lignes !" . PHP_EOL;
|
|
|
142 |
//file_put_contents("couscous.json", json_encode($index));
|
|
|
143 |
|
|
|
144 |
// Calcul des différences ?
|
|
|
145 |
// Insertion ?
|
|
|
146 |
$this->insererDansAlgolia($index);
|
|
|
147 |
|
|
|
148 |
// Info utilisation mémoire totale
|
|
|
149 |
$mem = memory_get_peak_usage(true);
|
|
|
150 |
$memMio = round($mem / (1024 * 1024));
|
|
|
151 |
echo "Mémoire maximale utilisée : $memMio Mio" . PHP_EOL;
|
273 |
delphine |
152 |
}
|
380 |
mathias |
153 |
|
|
|
154 |
/**
|
|
|
155 |
* Génère un index unique pour Algolia à partir des données de n référentiels
|
|
|
156 |
*/
|
|
|
157 |
protected function fusionnerReferentiels(&$donneesRefs) {
|
|
|
158 |
$index = array();
|
|
|
159 |
foreach ($donneesRefs as $ref => &$d) {
|
|
|
160 |
$nbTaxons = count($d);
|
|
|
161 |
echo "-- fusion du référentiel [$ref] : $nbTaxons taxons --" . PHP_EOL;
|
|
|
162 |
|
|
|
163 |
$fusions = 0;
|
|
|
164 |
foreach ($d as $taxon) {
|
|
|
165 |
$nomSci = $taxon[$ref . '_nom_sci'];
|
|
|
166 |
//$nn = $taxon[$ref . '_num_nom'];
|
|
|
167 |
// Ajout du nom d'auteur pour éviter les collisions dans un même référentiel
|
|
|
168 |
if (! empty ($taxon[$ref . '_auteur'])) {
|
|
|
169 |
$nomSci .= ' ' . $taxon[$ref . '_auteur'];
|
273 |
delphine |
170 |
}
|
380 |
mathias |
171 |
|
|
|
172 |
// -- ÉLIMINATION DES NOMS SANS CORRESPONDANCE
|
|
|
173 |
if (empty($taxon[$ref . '_num_nom_retenu'])) {
|
|
|
174 |
//echo "XX élimination du nom sans correspondance : [$nomSci] (nn $nn)" . PHP_EOL;
|
|
|
175 |
continue;
|
|
|
176 |
}
|
|
|
177 |
|
|
|
178 |
if (! isset($index[$nomSci])) {
|
|
|
179 |
$index[$nomSci] = array(
|
|
|
180 |
'objectID' => $nomSci,
|
|
|
181 |
'referentiels' => array()
|
|
|
182 |
);
|
|
|
183 |
} else {
|
|
|
184 |
//echo "> fusion sur [$nomSci] (nn $nn)" . PHP_EOL;
|
|
|
185 |
$fusions++;
|
|
|
186 |
}
|
|
|
187 |
$index[$nomSci] = array_merge($index[$nomSci], $taxon);
|
|
|
188 |
$index[$nomSci]['referentiels'][] = $ref;
|
|
|
189 |
//break;
|
273 |
delphine |
190 |
}
|
380 |
mathias |
191 |
$taille = count($index);
|
|
|
192 |
echo "- taille de l'index après ajout de [$ref]: [$taille] lignes ($fusions fusions)" . PHP_EOL;
|
273 |
delphine |
193 |
}
|
380 |
mathias |
194 |
return $index;
|
273 |
delphine |
195 |
}
|
380 |
mathias |
196 |
|
|
|
197 |
/**
|
|
|
198 |
* Organise les données de chaque objet conformément à la structure de
|
|
|
199 |
* l'index Algolia
|
|
|
200 |
*
|
|
|
201 |
* Voir commentaires sur cette page :
|
|
|
202 |
* http://taiga.tela-botanica.net/project/mathias-site-web/task/75
|
|
|
203 |
*
|
|
|
204 |
* L'objectID est le MD5 de la "clef" (nom scientifique avec auteur)
|
|
|
205 |
*/
|
|
|
206 |
protected function mettreEnForme($index) {
|
|
|
207 |
$nouvelIndex = array();
|
|
|
208 |
foreach ($index as $nomSci => $taxon) {
|
|
|
209 |
$nouveauTaxon = array(
|
|
|
210 |
'objectID' => md5($nomSci),
|
|
|
211 |
'referentiels' => $taxon['referentiels']
|
|
|
212 |
);
|
|
|
213 |
foreach ($taxon['referentiels'] as $ref) {
|
|
|
214 |
// ingrédients
|
|
|
215 |
$nn = $taxon[$ref . '_num_nom'];
|
|
|
216 |
$ns = $taxon[$ref . '_nom_sci'];
|
|
|
217 |
$nts = $taxon[$ref . '_num_tax_sup'];
|
|
|
218 |
$rang = $taxon[$ref . '_rang'];
|
|
|
219 |
$auteur = $taxon[$ref . '_auteur'];
|
|
|
220 |
$annee = $taxon[$ref . '_annee'];
|
|
|
221 |
$biblio = $taxon[$ref . '_biblio'];
|
|
|
222 |
$nom_supra_generique = $taxon[$ref . '_nom_supra_generique'];
|
|
|
223 |
$genre = $taxon[$ref . '_genre'];
|
|
|
224 |
$epithete_sp = $taxon[$ref . '_epithete_sp'];
|
|
|
225 |
$type_epithete = $taxon[$ref . '_type_epithete'];
|
|
|
226 |
$epithete_infra_sp = $taxon[$ref . '_epithete_infra_sp'];
|
|
|
227 |
$cultivar = $taxon[$ref . '_cultivar'];
|
|
|
228 |
$cultivar_groupe = $taxon[$ref . '_cultivar_groupe'];
|
|
|
229 |
$nomCommun = (isset($taxon[$ref . '_nom_francais']) ? $taxon[$ref . '_nom_francais'] : '');
|
|
|
230 |
$url = $taxon[$ref . '_url'];
|
|
|
231 |
$synonymes = json_decode($taxon[$ref . '_synonymes'], true);
|
|
|
232 |
$raccourcis = json_decode($taxon[$ref . '_shortcuts'], true);
|
382 |
mathias |
233 |
$raccourcis = ($raccourcis != null ? array_values(array_unique($raccourcis)) : null); // array_values réindexe pour obtenir une liste en JSON et non un objet
|
380 |
mathias |
234 |
// garniture
|
|
|
235 |
$donneesRef = array(
|
|
|
236 |
'nomenclatural_number' => intval($nn),
|
|
|
237 |
'scientific_name' => $ns,
|
|
|
238 |
'common_name' => $nomCommun,
|
|
|
239 |
'synonyms' => $synonymes,
|
|
|
240 |
'url' => $url,
|
|
|
241 |
'parent_taxon_number' => intval($nts),
|
|
|
242 |
'rank' => intval($rang),
|
|
|
243 |
'author' => $auteur,
|
|
|
244 |
'year' => intval($annee),
|
|
|
245 |
'biblio' => $biblio,
|
|
|
246 |
'supra_genus_name' => $nom_supra_generique,
|
|
|
247 |
'genus' => $genre,
|
|
|
248 |
'species_attribute' => $epithete_sp,
|
|
|
249 |
'attribute_type' => $type_epithete,
|
|
|
250 |
'infra_species_attribute' => $epithete_infra_sp,
|
|
|
251 |
'cultivar' => $cultivar,
|
|
|
252 |
'cultivar_groupe' => $cultivar_groupe
|
|
|
253 |
);
|
|
|
254 |
$nouveauTaxon[$ref] = $donneesRef;
|
|
|
255 |
$nouveauTaxon['shortcuts'] = $raccourcis;
|
|
|
256 |
}
|
|
|
257 |
$nouvelIndex[] = $nouveauTaxon;
|
273 |
delphine |
258 |
}
|
380 |
mathias |
259 |
return $nouvelIndex;
|
273 |
delphine |
260 |
}
|
380 |
mathias |
261 |
|
383 |
mathias |
262 |
/**
|
|
|
263 |
* Appelle l'API Algolia pour indexer les données présentes dans $index, par
|
|
|
264 |
* tranches.
|
|
|
265 |
*/
|
|
|
266 |
protected function insererDansAlgolia(&$index) {
|
|
|
267 |
$tailleTranche = 5000;
|
|
|
268 |
echo "++++ Insertion dans Algolia (" . count($index) . " objets) !! ++++" . PHP_EOL;
|
|
|
269 |
// insertion par tranches pour éviter un timeout sur l'API Algolia
|
|
|
270 |
while (count($index) > 0) {
|
|
|
271 |
echo "++ insertion d'une tranche de $tailleTranche... (" . count($index) . " restant)" . PHP_EOL;
|
|
|
272 |
$tranche = array_splice($index, 0, $tailleTranche);
|
|
|
273 |
//var_dump($tranche);
|
|
|
274 |
$this->indexAlgolia->addObjects($tranche);
|
|
|
275 |
}
|
273 |
delphine |
276 |
}
|
380 |
mathias |
277 |
|
|
|
278 |
// ---------------- utilitaires --------------------------------------------
|
|
|
279 |
|
|
|
280 |
protected function extrait($index, $clefsOuNombre) {
|
|
|
281 |
// Debug
|
|
|
282 |
echo PHP_EOL . "---- extrait des données --" . PHP_EOL;
|
|
|
283 |
if (is_array($clefsOuNombre)) {
|
|
|
284 |
foreach ($clefsOuNombre as $k) {
|
|
|
285 |
var_dump($index[$k]);
|
267 |
delphine |
286 |
}
|
380 |
mathias |
287 |
} else {
|
|
|
288 |
for ($i=0; $i < $clefsOuNombre; $i++) {
|
|
|
289 |
var_dump($index[$i]);
|
|
|
290 |
}
|
267 |
delphine |
291 |
}
|
|
|
292 |
}
|
380 |
mathias |
293 |
|
|
|
294 |
protected function connecterPDO() {
|
|
|
295 |
Config::charger(dirname(__FILE__) . '/../../configurations/bdd.ini');
|
267 |
delphine |
296 |
try {
|
269 |
delphine |
297 |
$dsn = Config::get('bdd_type').':dbname='.Config::get('bdd_nom').';host='.
|
|
|
298 |
Config::get('bdd_hote');
|
|
|
299 |
$this->bdd = new PDO($dsn, Config::get('bdd_utilisateur'), Config::get('bdd_mot_de_passe'));
|
380 |
mathias |
300 |
// Passe en UTF-8 la connexion à la BDD
|
|
|
301 |
$this->bdd->exec("SET NAMES 'utf8'");
|
|
|
302 |
// Affiche les erreurs détectées par PDO (sinon mode silencieux => aucune erreur affiché)
|
|
|
303 |
$this->bdd->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
|
267 |
delphine |
304 |
} catch (PDOException $e) {
|
380 |
mathias |
305 |
//print_r($e);
|
|
|
306 |
echo 'La connexion à la base de données via PDO a échoué : ' . $e->getMessage() . PHP_EOL;
|
|
|
307 |
exit;
|
267 |
delphine |
308 |
}
|
|
|
309 |
}
|
380 |
mathias |
310 |
|
|
|
311 |
protected function requete($requete) {
|
267 |
delphine |
312 |
$infos = null;
|
|
|
313 |
try {
|
380 |
mathias |
314 |
$infos = $this->bdd->query($requete, PDO::FETCH_ASSOC);
|
|
|
315 |
/*if ($infos === false) {
|
267 |
delphine |
316 |
echo $requete;
|
380 |
mathias |
317 |
}*/
|
267 |
delphine |
318 |
} catch (PDOException $e) {
|
273 |
delphine |
319 |
echo sprintf($e->getFile(), $e->getLine(), $e->getMessage(), $e->getCode(), $requete);
|
267 |
delphine |
320 |
}
|
|
|
321 |
return $infos;
|
|
|
322 |
}
|
380 |
mathias |
323 |
|
|
|
324 |
/**
|
|
|
325 |
* Demande confirmation, et sort du script à moins qu'on tape ce qui est
|
|
|
326 |
* indiqué (par défaut "o" pour "oui")
|
|
|
327 |
*/
|
|
|
328 |
protected function confirmer($question='Continuer ?', $codeAcceptation='o', $messageAnnulation='annulation') {
|
|
|
329 |
echo $question . ' ("' . $codeAcceptation . '" pour confirmer, autre chose pour annuler)' . PHP_EOL;
|
|
|
330 |
$handle = fopen ("php://stdin","r");
|
|
|
331 |
$line = fgets($handle);
|
|
|
332 |
if(strtolower(trim($line)) != strtolower($codeAcceptation)) {
|
|
|
333 |
echo $messageAnnulation . PHP_EOL;
|
382 |
mathias |
334 |
return false;
|
380 |
mathias |
335 |
}
|
|
|
336 |
fclose($handle);
|
382 |
mathias |
337 |
return true;
|
380 |
mathias |
338 |
}
|
267 |
delphine |
339 |
}
|
|
|
340 |
?>
|