* @author Jean-Pascal MILCENT * @copyright Copyright (c) 2012, Tela Botanica (accueil@tela-botanica.org) * @license http://www.cecill.info/licences/Licence_CeCILL_V2-fr.txt Licence CECILL * @license http://www.gnu.org/licenses/gpl.html Licence GNU-GPL * @version $Id$ */ class MigrationObs { const truncate = true; //Doit on vider les tables de destination ? const dry_run = false; const PATTERN_LAT = '/^[+-]?(?:[1-9][0-9]|[0-9])(?:[.][0-9]+|)$/'; const PATTERN_LNG = '/^[+-]?(?:1[0-8][0-9]|[1-9][0-9]|[0-9])(?:[.][0-9]+|)$/'; private $bdd = null; private $script = null; public static $bdd_cel_migration; public static $bdd_utilisateurs; private $communesOubliees = array(); private $tableau_utilisateurs = array(); private $tableau_mots_cles = array(); private $tableau_zones_geo = array(); /** Tableau associatif permettant de stocker l'avancement dans une boucle. * La clé est un md5 du message à afficher au démarrage de la boucle. * @var array */ private static $avancement = array(); private $tableau_nouveau_ancien = array( 'id_observation' => 'id', 'ordre' => 'ordre', 'ce_utilisateur' => 'traiterIdentifiantUtilisateur', 'prenom_utilisateur' => 'traiterPrenomUtilisateur', 'nom_utilisateur' => 'traiterNomUtilisateur', 'courriel_utilisateur' => 'traiterCourrielUtilisateur', 'nom_sel' => 'nom_sel', 'nom_sel_nn' => 'num_nom_sel', 'nom_ret' => 'nom_ret', 'nom_ret_nn' => 'num_nom_ret', 'nt' => 'num_taxon', 'famille' => 'famille', 'nom_referentiel' => 'traiterReferentiel', 'ce_zone_geo' => 'traiterIdentifiantZoneGeo', 'zone_geo' => 'location', 'lieudit' => 'lieudit', 'station' => 'station', 'milieu' => 'milieu', 'latitude' => 'traiterLat', 'longitude' => 'traiterLng', 'geodatum' => 'traiterGeodatum', 'date_observation' => 'date_observation', 'mots_cles_texte' => 'traiterMotsClesTexte', 'commentaire' => 'commentaire', 'transmission' => 'transmission', 'date_creation' => 'date_creation', 'date_modification' => 'date_modification', 'date_transmission' => 'date_transmission' ); private $tableau_ancien_nouveau = array( 'id' => 'id_observation', 'identifiant' => '', 'prenom_utilisateur' => 'prenom_utilisateur', 'nom_utilisateur' => 'nom_utilisateur', 'ordre' => 'ordre', 'nom_sel' => 'nom_sel', 'num_nom_sel' => 'nom_sel_nn', 'nom_ret' => 'nom_ret', 'num_nom_ret' => 'nom_ret_nn', 'num_taxon' => 'nt', 'famille' => 'famille', 'location' => '', 'id_location' => '', 'date_observation' => 'date_observation', 'lieu_dit' => 'lieudit', 'station' => 'station', 'milieu' => 'milieu', 'commentaire' => 'commentaire', 'transmission' => 'transmission', 'date_creation' => 'date_creation', 'date_modification' => 'date_modification', 'date_transmission' => 'date_transmission', 'mots_cles' => '', 'coord_x' => 'latitude', 'coord_y' => 'longitude', 'ref_geo' => 'geodatum' ); public function __construct(Conteneur $conteneur) { $bddMigration = $conteneur->getParametre('database_cel.database_migration'); if ($bddMigration == null || $bddMigration == '') { echo 'Attention la variable de configuration database_migration dans la section database_cel, contenant la base de données d\'arrivée, doit être remplie '."\n"; exit; } $bddIdentification = $conteneur->getParametre('database_ident.database'); if ($bddIdentification == null || $bddIdentification == '') { echo 'Attention la variable de configuration database dans la section database_ident, contenant la base de données utilisateurs, doit être remplie '."\n"; exit; } self::$bdd_cel_migration = $conteneur->getParametre('database_cel.database_migration'); self::$bdd_utilisateurs = $conteneur->getParametre('database_ident.database'); $this->bdd = $conteneur->getBdd(); $this->script = $conteneur->getScript(); } /** * Méthode appelée pour executer le script. */ public function executer($params) { echo "--MIGRATION DES OBSERVATIONS --------------------------------------\n"; //1. TEMPORAIRE : vider les tables de destinations if (self::truncate) { echo "-------------------------------------------------------------------\n"; echo " ETAPE 0. Vider les tables ... \n"; echo "-------------------------------------------------------------------\n"; $nouvellesTables = array('cel_obs', 'cel_utilisateurs_infos', 'cel_zones_geo'); foreach ($nouvellesTables as $nomTable) { echo 'Vider la table '.$nomTable.'...'; $requeteTruncate = 'TRUNCATE TABLE '.self::$bdd_cel_migration.'.'.$nomTable; $resultatTruncate = $this->bdd->executer($requeteTruncate); echo "ok \n"; } } echo "-------------------------------------------------------------------\n"; echo " ETAPE 1. Paramétrage ... \n"; echo "-------------------------------------------------------------------\n"; $this->getUtilisateurs(); $this->getMotsCles(); echo "-------------------------------------------------------------------\n"; echo " ETAPE 2. Migration des utilisateurs ... \n"; echo "-------------------------------------------------------------------\n"; $this->migrerUtilisateurs(); echo "-------------------------------------------------------------------\n"; echo " ETAPE 3. Migration des zone géographiques ... \n"; echo "-------------------------------------------------------------------\n"; $this->migrerZonesGeo(); echo "-------------------------------------------------------------------\n"; echo " ETAPE 4. Migration des observations ... \n"; echo "-------------------------------------------------------------------\n"; $this->migrerObs(); $this->mettreANullPrenomNomVide(); $this->ordonnerObs(); } private function executerRequeteSimple($requete) { // Fonction de commodité pour afficher les requetes au lieu de les executer if (self::dry_run) { echo str_replace('),','),'."\n", $requete); return true; } else { return $this->bdd->executer($requete); } } private function getUtilisateurs() { echo "SELECTION DES UTILISATEURS\n"; $requete = 'SELECT DISTINCT u_id AS id, u_mail AS mail, u_name AS nom, u_surname AS prenom, u_passwd AS pass '. 'FROM cel_inventory INNER JOIN '.self::$bdd_utilisateurs.'.annuaire_tela ON (u_mail = identifiant) '; $tableau_utilisateurs = $this->bdd->requeter($requete); foreach( $tableau_utilisateurs as &$utilisateur) { $this->tableau_utilisateurs[$utilisateur['mail']] = $utilisateur; } echo sizeof($this->tableau_utilisateurs)." utilisateurs sélectionnés\n"; } private function getMotsCles() { echo "SELECTION DES MOTS-CLES \n"; $requete = 'SELECT cmc_id_proprietaire as id_utilisateur, cmc_id_mot_cle_utilisateur as id_mot_cle, '. 'cmc_mot_cle as mot_cle '. 'FROM cel_mots_cles_obs '; $tableau_mots_cles = $this->bdd->requeter($requete); foreach( $tableau_mots_cles as &$mot_cle) { $this->tableau_mots_cles[$mot_cle['id_utilisateur']][$mot_cle['id_mot_cle']] = $mot_cle; } echo sizeof($this->tableau_mots_cles)." mots-clés sélectionnés\n"; } private function migrerUtilisateurs() { $requete = 'INSERT INTO '.self::$bdd_cel_migration.'.cel_utilisateurs_infos '. '(id_utilisateur) '. 'VALUES '; $sous_requete = array(); foreach ($this->tableau_utilisateurs as $id => &$utilisateur) { $sous_requete[] = '('.$this->bdd->proteger($utilisateur['id']).')'; } $requete .= implode(',', $sous_requete); $migration_utilisateurs = $this->executerRequeteSimple($requete); if ($migration_utilisateurs) { echo "Migration utilisateurs : ".count($sous_requete); } else { exit('Erreur lors de la migration des utilisateurs '."\n"); } echo "\n"; } private function migrerZonesGeo() { $pas = 5000; //SELECTIONNER LE NOMBRE DE ZONE GEO $requete_nombreZonesGeo = 'SELECT count(*) as nb FROM locations'; $resultatNbZonesGeo = $this->bdd->requeter($requete_nombreZonesGeo, Bdd::SQL_RETOUR_COLONNE); $nbZones = (int) $resultatNbZonesGeo; $nbTotal = 0; for($i = 0; $i <= $nbZones ; $i += $pas) { $requete_selection_zones_geo = 'SELECT * FROM locations LIMIT '.$i.', '.$pas; $zones_geo = $this->bdd->requeter($requete_selection_zones_geo); $requete_insertion_nouvelles_zones_geo = 'INSERT INTO '.self::$bdd_cel_migration.'.cel_zones_geo '. '(id_zone_geo, code, nom, utm_secteur, utm_x, utm_y, wgs84_latitude, wgs84_longitude, date_modification) '. 'VALUES '; $sous_requete_insertion_valeurs = ''; if(count($zones_geo) > 0) { foreach($zones_geo as $zone_geo) { $zone_geo['nouveau_code_geo'] = 'INSEE-C:'.$zone_geo['insee_code']; $lat_long = $this->convertirUtmVersLatLong($zone_geo['x_utm'],$zone_geo['y_utm'],$zone_geo['sector']); $indice_tableau_localites = $this->construireIndiceTableauLocalites($zone_geo['name'], $zone_geo['insee_code']); $this->tableau_zones_geo[$indice_tableau_localites] = $zone_geo; $sous_requete_insertion_valeurs .= '('.$this->bdd->proteger($zone_geo['nouveau_code_geo']).','. $this->bdd->proteger($zone_geo['insee_code']).','. $this->bdd->proteger($zone_geo['name']).','. $this->bdd->proteger($zone_geo['sector']).','. $this->bdd->proteger($zone_geo['x_utm']).','. $this->bdd->proteger($zone_geo['y_utm']).','. $this->bdd->proteger($lat_long['lat']).','. $this->bdd->proteger($lat_long['long']).','. $this->bdd->proteger($zone_geo['update_date']). '),'; } $sous_requete_insertion_valeurs = rtrim($sous_requete_insertion_valeurs,','); $requete_insertion_nouvelles_zones_geo .= $sous_requete_insertion_valeurs; $migration_zones_geo = $this->executerRequeteSimple($requete_insertion_nouvelles_zones_geo); } else { echo 'Fin de migration des zones géo '."\n"; return; } if ($migration_zones_geo) { $nbTotal ++; $this->script->afficherAvancement('Migration des zones (par '.$pas.')', $nbTotal); } else { exit('Erreur lors de la migration des zones géo '.$i.' à '.($i+$pas)."\n"); } } echo "\n"; } private function convertirUtmVersLatLong($x, $y, $sector) { $lat_long = array(); $convertisseur = new gPoint(); $convertisseur->setUTM($x, $y, $sector); $convertisseur->convertTMtoLL(); $lat_long['lat'] = str_replace(',','.',$convertisseur->Lat()); $lat_long['long'] = str_replace(',','.',$convertisseur->Long()); return $lat_long; } private function migrerObs() { $debut = 0; $pas = 1000; $nbTotal = 0; //Selectionner le nombre d'observations $requeteNbObs = "SELECT COUNT(*) as nb FROM cel_inventory"; $fin = $this->bdd->requeter($requeteNbObs, Bdd::SQL_RETOUR_COLONNE); for ($i = $debut; $i < $fin ; $i += $pas) { $requete_selection_obs = 'SELECT * '. 'FROM cel_inventory '. 'ORDER BY identifiant '. 'LIMIT '.$i.','.$pas; $observations = $this->bdd->requeter($requete_selection_obs); $requete_insertion_observations = 'INSERT IGNORE INTO '.self::$bdd_cel_migration.'.cel_obs ('; foreach ($this->tableau_nouveau_ancien as $nouveau_champ => $ancien_champ) { $requete_insertion_observations .= $nouveau_champ.','; } $requete_insertion_observations = rtrim($requete_insertion_observations, ','); $requete_insertion_observations = $requete_insertion_observations.') VALUES '; if (count($observations) > 0) { foreach($observations as $observation) { $nouvelle_observation = $this->traiterLigneObservation($observation); $nouvelle_observation = array_map(array($this, 'protegerSiNonNull'), $nouvelle_observation); $requete_insertion_observations .= '('.join(',', array_values($nouvelle_observation)).'),'; } $requete_insertion_observations = rtrim($requete_insertion_observations, ','); $migration_observations = $this->executerRequeteSimple($requete_insertion_observations); } else { echo "Fin de migration des observations\n"; return; } if ($migration_observations) { $nbTotal ++; $this->script->afficherAvancement('Migration des observations (par '.$pas.')', $nbTotal); } else { exit('Erreur lors de la migration des observation de '.$i.' à '.($i+$pas)."\n"); } } echo "\n"; if (sizeof($this->communesOubliees) > 0) { echo "xxxxxxxxx Communes ignorées : ".sizeof($this->communesOubliees)." xxxxxxxxx \n"; } } private function ordonnerObs() { $requete = 'ALTER TABLE '.self::$bdd_cel_migration.'.cel_obs ORDER BY id_observation'; $this->executerRequeteSimple($requete); } private function traiterLigneObservation($obs) { $nouvelle_obs = array(); foreach($this->tableau_nouveau_ancien as $nouveau_champ_obs => $ancien_champ_obs) { if ($this->estUnChampATraiter($ancien_champ_obs)) { if (method_exists($this, $ancien_champ_obs)) { $nouvelle_obs[$nouveau_champ_obs] = $this->$ancien_champ_obs($obs); } else { $nouvelle_obs[$nouveau_champ_obs] = ''; } } else { if ($obs[$ancien_champ_obs] == '000null' || $obs[$ancien_champ_obs] == 'null' || trim($obs[$ancien_champ_obs]) == '') { $obs[$ancien_champ_obs] = 'NULL'; } if (($ancien_champ_obs == 'coord_x' || $ancien_champ_obs == 'coord_y') && ($obs[$ancien_champ_obs] == '0' || $obs[$ancien_champ_obs] == 0)) { $obs[$ancien_champ_obs] = 'NULL'; } $nouvelle_obs[$nouveau_champ_obs] = $obs[$ancien_champ_obs]; } } return $nouvelle_obs; } private function protegerSiNonNull($valeur) { if ($valeur != 'NULL') { $valeur = $this->bdd->proteger($valeur); } return $valeur; } private function estUnChampATraiter($champ) { return strpos($champ,'traiter') !== false; } private function traiterReferentiel($observation) { $retour = 'NULL'; if ($observation['num_nom_sel'] != '' && $observation['num_nom_sel'] != '0') { $retour = 'bdnff:4.02'; if (isset($observation['nom_referentiel'])) { $retour = ($observation['nom_referentiel'] == 'bdtfx:1.01') ? 'bdtfx:1.01' : 'bdnff:4.02'; } } return $retour; } private function traiterLat(&$observation) { if ($this->bdd->etreNull($observation['coord_x'])) { $observation['coord_x'] = 'NULL'; } else if (preg_match(self::PATTERN_LAT, $observation['coord_x']) == false) { $latNote = 'Latitude éronnée : '.$observation['coord_x']; if ($this->bdd->etreNull($observation['commentaire'])) { $observation['commentaire'] = $latNote; } else { $observation['commentaire'] .= "\n".$latNote; } $observation['coord_x'] = 'NULL'; } $retour = $observation['coord_x']; return $retour; } private function traiterLng(&$observation) { if ($this->bdd->etreNull($observation['coord_y'])) { $observation['coord_y'] = 'NULL'; } else if (preg_match(self::PATTERN_LNG, $observation['coord_y']) == false) { $lngNote = 'Longitude éronnée : '.$observation['coord_y']; if ($this->bdd->etreNull($observation['commentaire'])) { $observation['commentaire'] = $lngNote; } else { $observation['commentaire'] .= "\n".$lngNote; } $observation['coord_y'] = 'NULL'; } $retour = $observation['coord_y']; return $retour; } private function traiterGeodatum($observation) { $retour = 'NULL'; if ($observation['coord_x'] != 'NULL' && $observation['coord_y'] != 'NULL') { $retour = 'WGS84'; } return $retour; } private function traiterMotsClesTexte($ligne_observation) { $mail_observation = $ligne_observation['identifiant']; $retour = $ligne_observation['mots_cles']; if (isset($this->tableau_mots_cles[$mail_observation])) { $mots_cles_tableau = $this->parserMotsCles($mail_observation, $ligne_observation['mots_cles'], ';'); $retour = join(',', $mots_cles_tableau); $retour = ltrim($retour, ',,') ; } return $retour; } private function parserMotsCles($utilisateur, $mot_cles, $separateur = ',') { $tableau_mots_cles = explode($separateur,$mot_cles); $tableau_mots_cles_formates = array(); foreach ($tableau_mots_cles as $mot_cle) { $mot_cle = str_replace($separateur.$separateur,'',$mot_cle); $mot_cle = str_replace('null','',$mot_cle); if ($this->estUnIdentifiantMotCle($mot_cle)) { // certains mots clés mal formatés contiennent des virgules if (strpos($mot_cle,',') !== false) { $tab_mot_cle_mal_formate = explode(',',$mot_cle); foreach ($tab_mot_cle_mal_formate as $mot_cle_mal_formate) { if ($this->estUnIdentifiantMotCle($mot_cle_mal_formate)) { $tableau_mots_cles_formates[$mot_cle_mal_formate] = $this->tableau_mots_cles[$utilisateur][$mot_cle_mal_formate]['mot_cle']; } } } else { // on met le mot clé dans sa propre case afin d'éviter // facilement les doublons provoqués par de mauvais formatages if (isset($this->tableau_mots_cles[$utilisateur][$mot_cle]) && trim($this->tableau_mots_cles[$utilisateur][$mot_cle]['mot_cle']) != '') { $tableau_mots_cles_formates[$mot_cle] = $this->tableau_mots_cles[$utilisateur][$mot_cle]['mot_cle']; } } } } return $tableau_mots_cles_formates; } private function estUnIdentifiantMotCle($chaine) { return trim($chaine) != '' && preg_match('/[0-9A-Z]+\.[0-9A-Z]+/i', $chaine) ; } private function traiterIdentifiantUtilisateur($ligne_observation) { $mail_observation = $ligne_observation['identifiant']; $retour = $this->renvoyerIdPourMigration($mail_observation); return $retour; } private function traiterPrenomUtilisateur($ligne_observation) { $mail_observation = $ligne_observation['identifiant']; $retour = ''; if (isset($this->tableau_utilisateurs[$mail_observation])) { $prenom = $this->tableau_utilisateurs[$mail_observation]['prenom']; $retour = self::formaterMotPremiereLettreChaqueMotEnMajuscule($prenom); } return $retour; } private function traiterNomUtilisateur($ligne_observation) { $mail_observation = $ligne_observation['identifiant']; $retour = 'NULL'; if (isset($this->tableau_utilisateurs[$mail_observation])) { $nom = $this->tableau_utilisateurs[$mail_observation]['nom']; $retour = self::formaterMotEnMajuscule($nom); } return $retour; } private function traiterCourrielUtilisateur($observation) { $courriel = $observation['identifiant']; $retour = 'NULL'; if ($this->mailValide($courriel)) { $retour = $courriel; } return $retour; } public static function formaterMotPremiereLettreChaqueMotEnMajuscule($chaine, $encodage= 'UTF-8') { $chaine = str_replace('-', ' - ', $chaine); $chaine = mb_strtolower($chaine, $encodage); $chaine = mb_convert_case($chaine, MB_CASE_TITLE, $encodage); $chaine = str_replace(' - ', '-', $chaine); return $chaine; } public static function formaterMotEnMajuscule($chaine, $encodage= 'UTF-8') { return mb_convert_case($chaine, MB_CASE_UPPER, $encodage); } private function traiterZoneGeo($ligne_observation) { $zone_geo = $ligne_observation['location']; if ($ligne_observation['id_location'] != null && !is_numeric($ligne_observation['id_location']) && $ligne_observation['id_location'] != '000null') { $id_zone_geo_ancienne = $ligne_observation['id_location']; if ($zone_geo != '') { $id_zone_geo_ancienne = '('.$id_zone_geo_ancienne.')'; } $zone_geo .= $id_zone_geo_ancienne; } else if ($ligne_observation['location'] == null || $ligne_observation['location'] == "" || $ligne_observation['location'] == "000null") { if ($ligne_observation['id_location'] != '' && $ligne_observation['id_location'] != '000null') { $id_zone_geo_ancienne = $ligne_observation['id_location']; $id_zone_geo_ancienne = $id_zone_geo_ancienne; $zone_geo = $id_zone_geo_ancienne; } else { $zones_geo = 'NULL'; } } return $zone_geo; } private function traiterIdentifiantZoneGeo($ligne_observation) { $id_zone_geo = ''; if ($ligne_observation['id_location'] != '' && $ligne_observation['id_location'] != '000null') { $indice = $this->construireIndiceTableauLocalites($ligne_observation['location'], $ligne_observation['id_location']); if (isset($this->tableau_zones_geo[$indice])) { $id_zone_geo = $this->tableau_zones_geo[$indice]['nouveau_code_geo']; } else { if ($ligne_observation['location'] != "000null") { $this->communesOubliees[$indice] = false; } } } else { $id_zone_geo = 'NULL'; } return $id_zone_geo; } private function construireIndiceTableauLocalites($nom, $id) { $nom = htmlentities($nom, ENT_NOQUOTES, 'UTF-8'); $nom = preg_replace('#&([A-za-z])(?:acute|cedil|circ|grave|orn|ring|slash|th|tilde|uml);#', '\1', $nom); $nom = preg_replace('#&([A-za-z]{2})(?:lig);#', '\1', $nom); // pour les ligatures e.g. 'œ' $nom = preg_replace('#&[^;]+;#', '', $nom); // supprime les autres caractères $nom = str_replace("'",'_',$nom); $nom = str_replace(' ','_',$nom); $nom = str_replace('-','_',$nom); $nom = str_replace(' ','_',$nom); $indice = strtolower($nom).substr($id, 0, 2); return $indice; } // Par défaut, on garde l'utilisateur tel quel (cas de la chaine de session des utilisateur anonymes) private function renvoyerIdPourMigration($utilisateur) { $retour = $utilisateur; // si le mail correspond a un utilisateur de la bdd if (isset($this->tableau_utilisateurs[$utilisateur])) { // on renvoie son id $retour = $this->tableau_utilisateurs[$utilisateur]['id']; } else if ($utilisateur != '') { // sinon si c'est un mail inconnu, on garde le md5 if ($this->mailValide($utilisateur)) { $retour = md5($utilisateur); } } else if ($utilisateur == '') { $retour = 'NULL'; } return $retour; } private function mailValide($mail) { // vérification bidon mais ça suffit pour ici return !(strpos($mail, '@') === false); } private function mettreANullPrenomNomVide() { $bdd = self::$bdd_cel_migration; $requete = "UPDATE $bdd.cel_obs ". 'SET prenom_utilisateur = NULL '. "WHERE prenom_utilisateur = '' "; $this->bdd->executer($requete); $requete = "UPDATE $bdd.cel_obs ". 'SET nom_utilisateur = NULL '. "WHERE nom_utilisateur = '' "; $this->bdd->executer($requete); } }