2031 |
aurelien |
1 |
<?php
|
2414 |
jpm |
2 |
// declare(encoding='UTF-8');
|
2031 |
aurelien |
3 |
/**
|
|
|
4 |
* Traitement des mots clés cel pour les migrer vers des mots clés stockés avec path enumeration
|
|
|
5 |
*
|
2414 |
jpm |
6 |
* Utilisation :
|
|
|
7 |
* - migrer les mots-clés obs : <code>/opt/lamp/bin/php cli.php migration_mots_cles -a obs</code>
|
|
|
8 |
* - migrer les mots-clés images : <code>/opt/lamp/bin/php cli.php migration_mots_cles -a images</code>
|
2031 |
aurelien |
9 |
*
|
2414 |
jpm |
10 |
* @category CEL
|
|
|
11 |
* @package Scripts
|
|
|
12 |
* @subpackage Migration : Mots-Clés
|
|
|
13 |
* @author Mathias CHOUET <mathias@tela-botanica.org>
|
|
|
14 |
* @author Jean-Pascal MILCENT <jpm@tela-botanica.org>
|
|
|
15 |
* @author Aurelien PERONNET <aurelien@tela-botanica.org>
|
|
|
16 |
* @license GPL v3 <http://www.gnu.org/licenses/gpl.txt>
|
|
|
17 |
* @license CECILL v2 <http://www.cecill.info/licences/Licence_CeCILL_V2-en.txt>
|
|
|
18 |
* @copyright 1999-2014 Tela Botanica <accueil@tela-botanica.org>
|
2031 |
aurelien |
19 |
*/
|
2414 |
jpm |
20 |
include_once dirname(__FILE__).'/bibliotheque/Dao.php';
|
|
|
21 |
|
|
|
22 |
class MigrationMotsCles extends Script {
|
|
|
23 |
|
2031 |
aurelien |
24 |
private $mode;
|
2414 |
jpm |
25 |
|
|
|
26 |
public function executer() {
|
2031 |
aurelien |
27 |
$cmd = $this->getParametre('a');
|
|
|
28 |
$this->mode_verbeux = $this->getParametre('v');
|
|
|
29 |
|
|
|
30 |
switch($cmd) {
|
|
|
31 |
case 'obs':
|
|
|
32 |
$this->mode = $cmd;
|
|
|
33 |
$this->migrerMotsClesObservations();
|
2436 |
jpm |
34 |
break;
|
2031 |
aurelien |
35 |
case 'images':
|
|
|
36 |
$this->mode = $cmd;
|
|
|
37 |
$this->migrerMotsClesImages();
|
2436 |
jpm |
38 |
break;
|
2031 |
aurelien |
39 |
default:
|
2414 |
jpm |
40 |
echo 'Méthode inconnue, les méthodes possibles sont obs et images'."\n";
|
|
|
41 |
}
|
2031 |
aurelien |
42 |
}
|
2414 |
jpm |
43 |
|
2031 |
aurelien |
44 |
private function migrerMotsClesObservations() {
|
|
|
45 |
$this->dao = new Dao('obs');
|
|
|
46 |
$this->convertirNestedSetVersPathEnum();
|
|
|
47 |
}
|
2414 |
jpm |
48 |
|
2031 |
aurelien |
49 |
private function migrerMotsClesImages() {
|
|
|
50 |
$this->dao = new Dao('images');
|
|
|
51 |
$this->convertirNestedSetVersPathEnum();
|
|
|
52 |
}
|
2414 |
jpm |
53 |
|
2031 |
aurelien |
54 |
private function convertirNestedSetVersPathEnum() {
|
|
|
55 |
$debut = microtime();
|
2414 |
jpm |
56 |
|
2031 |
aurelien |
57 |
$this->dao->viderTables();
|
2414 |
jpm |
58 |
|
2031 |
aurelien |
59 |
$mots_cles_hierarchiques = $this->dao->obtenirMotsClesOriginaux($this->mode);
|
|
|
60 |
$mots_cles_hierarchiques = $this->formaterChemin($mots_cles_hierarchiques);
|
|
|
61 |
|
|
|
62 |
$liaisons = $this->dao->obtenirLiaisonsMotsClesOriginaux($this->mode);
|
2414 |
jpm |
63 |
|
2436 |
jpm |
64 |
if ($this->mode_verbeux) {
|
2031 |
aurelien |
65 |
echo "-------------------------------------------------------------------\n";
|
|
|
66 |
echo " Début de la migration des mots clés ".$this->mode." \n";
|
|
|
67 |
echo " ".count($mots_cles_hierarchiques)." mots clés et ".count($liaisons)." liaisons à migrer \n";
|
|
|
68 |
echo "-------------------------------------------------------------------\n";
|
|
|
69 |
}
|
|
|
70 |
|
|
|
71 |
$nb_mots_cles = 0;
|
|
|
72 |
$nb_liaisons = 0;
|
2414 |
jpm |
73 |
|
2031 |
aurelien |
74 |
$mots_cles_slice = array_chunk($mots_cles_hierarchiques, 800, true);
|
|
|
75 |
echo " Insertion des mots clés par paquet de 800 \n";
|
2436 |
jpm |
76 |
foreach ($mots_cles_slice as &$mots_cles_tranche) {
|
2066 |
aurelien |
77 |
$this->dao->insererMotsCles($mots_cles_tranche);
|
2031 |
aurelien |
78 |
$nb_mots_cles += 800;
|
|
|
79 |
if($this->mode_verbeux) {
|
|
|
80 |
$this->afficherAvancement(' mots clés insérés ', $nb_mots_cles);
|
|
|
81 |
}
|
|
|
82 |
}
|
2057 |
aurelien |
83 |
echo "\n Insertion des mots clés ".$this->mode." terminée \n";
|
2414 |
jpm |
84 |
|
2031 |
aurelien |
85 |
$infos_nouveaux_mots_cles = $this->dao->obtenirInfosNouveauxMotsCles();
|
|
|
86 |
$correspondances = $this->formaterCorrespondanceCheminId($infos_nouveaux_mots_cles);
|
2414 |
jpm |
87 |
|
2031 |
aurelien |
88 |
$liaisons_slice = array_chunk($liaisons, 800, true);
|
|
|
89 |
echo " Insertion des mots liaisons par paquet de 800 \n";
|
2436 |
jpm |
90 |
foreach ($liaisons_slice as &$liaison_tranche) {
|
2066 |
aurelien |
91 |
$this->dao->insererLiaisonsMotsCles($mots_cles_hierarchiques, $liaison_tranche, $correspondances);
|
2031 |
aurelien |
92 |
$nb_liaisons += 800;
|
|
|
93 |
if($this->mode_verbeux) {
|
|
|
94 |
$this->afficherAvancement(' liaisons insérées ', $nb_liaisons);
|
|
|
95 |
}
|
|
|
96 |
}
|
|
|
97 |
echo "\n Insertion des liaisons ".$this->mode." terminée \n";
|
2414 |
jpm |
98 |
|
2031 |
aurelien |
99 |
$fin = microtime(true);
|
2436 |
jpm |
100 |
if ($this->mode_verbeux) {
|
2031 |
aurelien |
101 |
echo "\n";
|
|
|
102 |
echo "-------------------------------------------------------------------\n";
|
|
|
103 |
echo " Fin de la migration des mots clés ".$this->mode.", \n";
|
|
|
104 |
echo " ".($fin - $debut)." secondes écoulées \n";
|
|
|
105 |
echo " ".count($mots_cles_hierarchiques)." mots clés insérés \n";
|
|
|
106 |
echo " ".count($liaisons)." liaisons insérées \n";
|
|
|
107 |
echo "-------------------------------------------------------------------\n";
|
|
|
108 |
echo "\n";
|
|
|
109 |
}
|
|
|
110 |
}
|
2414 |
jpm |
111 |
|
2031 |
aurelien |
112 |
private function formaterCorrespondanceCheminId($infos_nouveaux_mots_cles) {
|
|
|
113 |
$mots_cles_correspondances = array();
|
2436 |
jpm |
114 |
foreach ($infos_nouveaux_mots_cles as &$mot) {
|
2031 |
aurelien |
115 |
$cle = $mot['chemin'].'-'.$mot['id_utilisateur'];
|
|
|
116 |
$mots_cles_correspondances[$cle] = $mot;
|
|
|
117 |
}
|
|
|
118 |
return $mots_cles_correspondances;
|
|
|
119 |
}
|
2414 |
jpm |
120 |
|
2031 |
aurelien |
121 |
private function formaterChemin($mots_cles) {
|
|
|
122 |
$mots_cles_hierarchiques = array();
|
|
|
123 |
$chemin_traites = array();
|
|
|
124 |
$pbs = array('doublons' => array(), 'vides' => array());
|
2414 |
jpm |
125 |
|
2436 |
jpm |
126 |
foreach ($mots_cles as &$mot) {
|
2414 |
jpm |
127 |
|
2436 |
jpm |
128 |
if (trim($mot['mot_cle']) != "") {
|
2031 |
aurelien |
129 |
$chemin = '/';
|
|
|
130 |
$cle_parent = $mot['parent'].'-'.$mot['id_utilisateur'];
|
2436 |
jpm |
131 |
if (isset($mots_cles_hierarchiques[$cle_parent])) {
|
2031 |
aurelien |
132 |
$chemin = $mots_cles_hierarchiques[$cle_parent]['chemin'];
|
|
|
133 |
}
|
|
|
134 |
$chemin .= self::simplifier($mot['mot_cle']).'/';
|
|
|
135 |
$chemin = str_replace("//", "/", $chemin);
|
2414 |
jpm |
136 |
|
2436 |
jpm |
137 |
if (!isset($chemin_traites[self::harmoniserPourDoublon($chemin).'-'.$mot['id_utilisateur']])) {
|
2031 |
aurelien |
138 |
$cle = $mot['id_mot_cle'].'-'.$mot['id_utilisateur'];
|
2414 |
jpm |
139 |
|
2031 |
aurelien |
140 |
$mots_cles_hierarchiques[$cle] = array(
|
2436 |
jpm |
141 |
'id_utilisateur' => $mot['id_utilisateur'],
|
|
|
142 |
'chemin' => $chemin,
|
|
|
143 |
'mot_cle' => $mot['mot_cle']
|
2031 |
aurelien |
144 |
);
|
|
|
145 |
$chemin_traites[self::harmoniserPourDoublon($chemin).'-'.$mot['id_utilisateur']] = 1;
|
|
|
146 |
} else {
|
|
|
147 |
$pbs['doublons'][self::harmoniserPourDoublon($chemin).'-'.$mot['id_utilisateur']] = $mot;
|
|
|
148 |
}
|
|
|
149 |
} else {
|
|
|
150 |
$pbs['vides'][] = $mot;
|
|
|
151 |
}
|
|
|
152 |
}
|
2414 |
jpm |
153 |
|
2057 |
aurelien |
154 |
//echo '<pre>'.print_r($mots_cles_hierarchiques,true).'</pre>';exit;
|
2031 |
aurelien |
155 |
return $mots_cles_hierarchiques;
|
|
|
156 |
}
|
2414 |
jpm |
157 |
|
2031 |
aurelien |
158 |
static public function harmoniserPourDoublon($texte) {
|
|
|
159 |
$texte = htmlentities($texte, ENT_NOQUOTES, 'utf-8');
|
|
|
160 |
$texte = preg_replace('/&([A-za-z])(?:acute|cedil|circ|grave|orn|ring|slash|th|tilde|uml);/', '\1', $texte);
|
|
|
161 |
$texte = preg_replace('/&([A-za-z]{2})(?:lig);/', '\1', $texte); // pour les ligatures e.g. 'œ'
|
|
|
162 |
$texte = preg_replace('/&[^;]+;/', '', $texte); // supprime les autres caractères
|
2414 |
jpm |
163 |
|
2031 |
aurelien |
164 |
return strtolower($texte);
|
|
|
165 |
}
|
2414 |
jpm |
166 |
|
2031 |
aurelien |
167 |
static public function simplifier($text) {
|
|
|
168 |
// le slash est le seul caractère interdit dans les mots clés
|
|
|
169 |
return trim(str_replace(array('\\','/'), '', $text));
|
|
|
170 |
}
|
2414 |
jpm |
171 |
}
|