Rev 1189 | Blame | Last modification | View Log | RSS feed
<?php
// declare(encoding='UTF-8');
/**
* Script de migration des Observations de la version 1 de la base de données du CEL à la v2.
*
* @category php 5.2
* @package Cel/Scripts
* @author Aurélien PERONNET <aurelien@tela-botanica.org>
* @author Jean-Pascal MILCENT <jpm@tela-botanica.org>
* @copyright Copyright (c) 2012, Tela Botanica (accueil@tela-botanica.org)
* @license http://www.cecill.info/licences/Licence_CeCILL_V2-fr.txt Licence CECILL
* @license http://www.gnu.org/licenses/gpl.html Licence GNU-GPL
* @version $Id$
*/
class MigrationObs extends Cel {
const truncate = true; //Doit on vider les tables de destination ?
const dry_run = false;
const PATTERN_LAT = '/^[+-]?(?:[1-9][0-9]|[0-9])(?:[.][0-9]+|)$/';
const PATTERN_LNG = '/^[+-]?(?:1[0-8][0-9]|[1-9][0-9]|[0-9])(?:[.][0-9]+|)$/';
public static $bdd_cel_migration;
public static $bdd_utilisateurs;
private $communesOubliees = array();
private $tableau_utilisateurs = array();
private $tableau_mots_cles = array();
private $tableau_zones_geo = array();
/** Tableau associatif permettant de stocker l'avancement dans une boucle.
* La clé est un md5 du message à afficher au démarrage de la boucle.
* @var array
*/
private static $avancement = array();
private $tableau_nouveau_ancien = array(
'id_observation' => 'id',
'ordre' => 'ordre',
'ce_utilisateur' => 'traiterIdentifiantUtilisateur',
'prenom_utilisateur' => 'traiterPrenomUtilisateur',
'nom_utilisateur' => 'traiterNomUtilisateur',
'courriel_utilisateur' => 'identifiant',
'nom_sel' => 'nom_sel',
'nom_sel_nn' => 'num_nom_sel',
'nom_ret' => 'nom_ret',
'nom_ret_nn' => 'num_nom_ret',
'nt' => 'num_taxon',
'famille' => 'famille',
'nom_referentiel' => 'traiterReferentiel',
'ce_zone_geo' => 'traiterIdentifiantZoneGeo',
'zone_geo' => 'location',
'lieudit' => 'lieudit',
'station' => 'station',
'milieu' => 'milieu',
'latitude' => 'traiterLat',
'longitude' => 'traiterLng',
'geodatum' => 'traiterGeodatum',
'date_observation' => 'date_observation',
'mots_cles_texte' => 'traiterMotsClesTexte',
'commentaire' => 'commentaire',
'transmission' => 'transmission',
'date_creation' => 'date_creation',
'date_modification' => 'date_modification',
'date_transmission' => 'date_transmission'
);
private $tableau_ancien_nouveau = array(
'id' => 'id_observation',
'identifiant' => '',
'prenom_utilisateur' => 'prenom_utilisateur',
'nom_utilisateur' => 'nom_utilisateur',
'ordre' => 'ordre',
'nom_sel' => 'nom_sel',
'num_nom_sel' => 'nom_sel_nn',
'nom_ret' => 'nom_ret',
'num_nom_ret' => 'nom_ret_nn',
'num_taxon' => 'nt',
'famille' => 'famille',
'location' => '',
'id_location' => '',
'date_observation' => 'date_observation',
'lieu_dit' => 'lieudit',
'station' => 'station',
'milieu' => 'milieu',
'commentaire' => 'commentaire',
'transmission' => 'transmission',
'date_creation' => 'date_creation',
'date_modification' => 'date_modification',
'date_transmission' => 'date_transmission',
'mots_cles' => '',
'coord_x' => 'latitude',
'coord_y' => 'longitude',
'ref_geo' => 'geodatum'
);
/**
* Méthode appelée avec une requête de type GET.
*/
public function getElement($params) {
if(!isset($this->config['database_cel']['database_migration']) || $this->config['database_cel']['database_migration'] == '') {
echo 'Attention la variable de configuration database_migration dans la section database_cel, contenant la base de données d\'arrivée, doit être remplie '."\n";
exit;
}
if(!isset($this->config['database_ident']['database']) || $this->config['database_ident']['database'] == '') {
echo 'Attention la variable de configuration database dans la section database_ident, contenant la base de données utilisateurs, doit être remplie '."\n";
exit;
}
self::$bdd_cel_migration = $this->config['database_cel']['database_migration'];
self::$bdd_utilisateurs = $this->config['database_ident']['database'];
echo "--MIGRATION DES OBSERVATIONS --------------------------------------\n";
//1. TEMPORAIRE : vider les tables de destinations
if (self::truncate) {
echo "-------------------------------------------------------------------\n\n";
echo " ETAPE 0. Vider les tables ... \n\n";
echo "-------------------------------------------------------------------\n\n";
$nouvellesTables = array('cel_obs', 'cel_utilisateurs_infos', 'cel_zones_geo');
foreach ($nouvellesTables as $nomTable) {
echo 'Vider la table '.$nomTable.'...';
$requeteTruncate = 'TRUNCATE TABLE '.self::$bdd_cel_migration.'.'.$nomTable;
$resultatTruncate = $this->executerRequete($requeteTruncate);
echo "ok \n";
}
echo "\n---------------------------------------------------------------- OK\n\n";
}
echo "-------------------------------------------------------------------\n\n";
echo " ETAPE 1. Paramétrage ... \n\n";
echo "-------------------------------------------------------------------\n\n";
$this->getUtilisateurs();
$this->getMotsCles();
echo "-------------------------------------------------------------------\n\n";
echo " ETAPE 2. Migration des utilisateurs ... \n\n";
echo "-------------------------------------------------------------------\n\n";
$this->migrerUtilisateurs();
echo "-------------------------------------------------------------------\n\n";
echo " ETAPE 3. Migration des zone géographiques ... \n\n";
echo "-------------------------------------------------------------------\n\n";
$this->migrerZonesGeo();
echo "-------------------------------------------------------------------\n\n";
echo " ETAPE 4. Migration des observations ... \n\n";
echo "-------------------------------------------------------------------\n\n";
$this->migrerObs();
$this->ordonnerObs();
echo "\n"."\n"."\n";
}
public function executerRequeteSimple($requete) {
// Fonction de commodité pour afficher les requetes au lieu de les executer
if (self::dry_run) {
echo str_replace('),','),'."\n", $requete);
return true;
} else {
return parent::executerRequeteSimple($requete);
}
}
private function getUtilisateurs() {
echo "\n-------------------------------------------------------------------\n";
echo "--SELECTION DES UTILISATEURS---------------------------------------\n\n";
$requete = 'SELECT DISTINCT u_id AS id, u_mail AS mail, u_name AS nom, u_surname AS prenom, u_passwd AS pass '.
'FROM cel_inventory INNER JOIN '.self::$bdd_utilisateurs.'.annuaire_tela ON (u_mail = identifiant) ';
$tableau_utilisateurs = $this->executerRequete($requete);
foreach( $tableau_utilisateurs as &$utilisateur) {
$this->tableau_utilisateurs[$utilisateur['mail']] = $utilisateur;
}
echo sizeof($this->tableau_utilisateurs)." utilisateurs sélectionnés";
echo "\n-----------------------------------------------------------------OK\n";
}
private function getMotsCles() {
echo "\n-------------------------------------------------------------------\n";
echo "--SELECTION DES MOTS-CLES -----------------------------------------\n\n";
$requete = 'SELECT cmc_id_proprietaire as id_utilisateur, cmc_id_mot_cle_utilisateur as id_mot_cle, '.
'cmc_mot_cle as mot_cle '.
'FROM cel_mots_cles_obs ';
$tableau_mots_cles = $this->executerRequete($requete);
foreach( $tableau_mots_cles as &$mot_cle) {
$this->tableau_mots_cles[$mot_cle['id_utilisateur']][$mot_cle['id_mot_cle']] = $mot_cle;
}
echo sizeof($this->tableau_mots_cles)." mots-clés sélectionnés";
echo "\n-----------------------------------------------------------------OK\n";
}
/**
* Utiliser cette méthode dans une boucle pour afficher un message suivi du nombre de tour de boucle effectué.
* Vous devrez vous même gérer le retour à la ligne à la sortie de la boucle.
*
* @param string le message d'information.
* @param int le nombre de départ à afficher.
* @return void le message est affiché dans la console.
*/
protected function afficherAvancement($message, $depart = 0) {
if (! isset(self::$avancement[$message])) {
self::$avancement[$message] = $depart;
echo "$message : ";
$actuel =& self::$avancement[$message];
echo $actuel++;
} else {
$actuel =& self::$avancement[$message];
// Cas du passage de 99 (= 2 caractères) à 100 (= 3 caractères)
$passage = 0;
if (strlen((string) ($actuel - 1)) < strlen((string) ($actuel))) {
$passage = 1;
}
echo str_repeat(chr(8), (strlen((string) $actuel) - $passage));
echo $actuel++;
}
}
private function migrerUtilisateurs() {
$requete = 'INSERT INTO '.self::$bdd_cel_migration.'.cel_utilisateurs_infos '.
'(id_utilisateur) '.
'VALUES ';
$sous_requete = array();
foreach ($this->tableau_utilisateurs as $id => &$utilisateur) {
$sous_requete[] = '('.$this->proteger($utilisateur['id']).')';
}
$requete .= implode(',', $sous_requete);
$migration_utilisateurs = $this->executerRequeteSimple($requete);
if ($migration_utilisateurs) {
echo "Migration utilisateurs : ".count($sous_requete);
} else {
exit('Erreur lors de la migration des utilisateurs '."\n");
}
echo "\n---------------------------------------------------------------- OK\n\n";
}
private function migrerZonesGeo() {
$pas = 5000;
//SELECTIONNER LE NOMBRE DE ZONE GEO
$requete_nombreZonesGeo = 'SELECT count(*) as nb FROM locations';
$resultatNbZonesGeo = $this->executerRequete($requete_nombreZonesGeo);
$nbZones = (int) $resultatNbZonesGeo[0]['nb'];
$nbTotal = 0;
for($i = 0; $i <= $nbZones ; $i += $pas) {
$requete_selection_zones_geo = 'SELECT * FROM locations LIMIT '.$i.', '.$pas;
$zones_geo = $this->executerRequete($requete_selection_zones_geo);
$requete_insertion_nouvelles_zones_geo = 'INSERT INTO '.self::$bdd_cel_migration.'.cel_zones_geo '.
'(id_zone_geo, code, nom, utm_secteur, utm_x, utm_y, wgs84_latitude, wgs84_longitude, date_modification) '.
'VALUES ';
$sous_requete_insertion_valeurs = '';
if(count($zones_geo) > 0) {
foreach($zones_geo as $zone_geo) {
$zone_geo['nouveau_code_geo'] = 'INSEE-C:'.$zone_geo['insee_code'];
$lat_long = $this->convertirUtmVersLatLong($zone_geo['x_utm'],$zone_geo['y_utm'],$zone_geo['sector']);
$indice_tableau_localites = $this->construireIndiceTableauLocalites($zone_geo['name'], $zone_geo['insee_code']);
$this->tableau_zones_geo[$indice_tableau_localites] = $zone_geo;
$sous_requete_insertion_valeurs .= '('.$this->proteger($zone_geo['nouveau_code_geo']).','.
$this->proteger($zone_geo['insee_code']).','.
$this->proteger($zone_geo['name']).','.
$this->proteger($zone_geo['sector']).','.
$this->proteger($zone_geo['x_utm']).','.
$this->proteger($zone_geo['y_utm']).','.
$this->proteger($lat_long['lat']).','.
$this->proteger($lat_long['long']).','.
$this->proteger($zone_geo['update_date']).
'),';
}
$sous_requete_insertion_valeurs = rtrim($sous_requete_insertion_valeurs,',');
$requete_insertion_nouvelles_zones_geo .= $sous_requete_insertion_valeurs;
$migration_zones_geo = $this->executerRequeteSimple($requete_insertion_nouvelles_zones_geo);
} else {
echo 'Fin de migration des zones géo '."\n";
return;
}
if ($migration_zones_geo) {
$nbTotal ++;
$this->afficherAvancement('Migration des zones (par '.$pas.')', $nbTotal);
} else {
exit('Erreur lors de la migration des zones géo '.$i.' à '.($i+$pas)."\n");
}
}
echo "\n---------------------------------------------------------------- OK\n\n";
}
private function convertirUtmVersLatLong($x, $y, $sector) {
$lat_long = array();
$convertisseur = new gPoint();
$convertisseur->setUTM($x, $y, $sector);
$convertisseur->convertTMtoLL();
$lat_long['lat'] = str_replace(',','.',$convertisseur->Lat());
$lat_long['long'] = str_replace(',','.',$convertisseur->Long());
return $lat_long;
}
private function migrerObs() {
$debut = 0;
$pas = 1000;
$nbTotal = 0;
//Selectionner le nombre d'observations
$requeteNbObs = "SELECT COUNT(*) as nb FROM cel_inventory";
$resultatNbObs = $this->executerRequete($requeteNbObs);
$fin = $resultatNbObs[0]['nb'];
for ($i = $debut; $i < $fin ; $i += $pas) {
$requete_selection_obs = 'SELECT * FROM cel_inventory '.
'ORDER BY identifiant LIMIT '.$i.','.$pas;
$observations = $this->requeter($requete_selection_obs);
$requete_insertion_observations = 'INSERT IGNORE INTO '.self::$bdd_cel_migration.'.cel_obs (';
foreach ($this->tableau_nouveau_ancien as $nouveau_champ => $ancien_champ) {
$requete_insertion_observations .= $nouveau_champ.',';
}
$requete_insertion_observations = rtrim($requete_insertion_observations, ',');
$requete_insertion_observations = $requete_insertion_observations.') VALUES ';
if (count($observations) > 0) {
foreach($observations as $observation) {
$nouvelle_observation = $this->traiterLigneObservation($observation);
$nouvelle_observation = array_map(array($this, 'protegerSiNonNull'), $nouvelle_observation);
$requete_insertion_observations .= '('.join(',', array_values($nouvelle_observation)).'),';
}
$requete_insertion_observations = rtrim($requete_insertion_observations, ',');
$migration_observations = $this->executerRequeteSimple($requete_insertion_observations);
} else {
echo 'Fin de migration des observations '."\n"."\n";
return;
}
if ($migration_observations) {
$nbTotal ++;
$this->afficherAvancement('Migration des observations (par '.$pas.')', $nbTotal);
} else {
exit('Erreur lors de la migration des observation de '.$i.' à '.($i+$pas)."\n");
}
}
if (sizeof($this->communesOubliees) > 0) {
echo "\nxxxxxxxxx communes oubliées : ".sizeof($this->communesOubliees)." xxxxxxxxx \\n";
}
echo "\n---------------------------------------------------------------- OK\n\n";
}
private function ordonnerObs() {
$requete = 'ALTER TABLE '.self::$bdd_cel_migration.'.cel_obs ORDER BY id_observation';
$this->executerRequeteSimple($requete);
}
private function traiterLigneObservation($obs) {
$nouvelle_obs = array();
foreach($this->tableau_nouveau_ancien as $nouveau_champ_obs => $ancien_champ_obs) {
if ($this->estUnChampATraiter($ancien_champ_obs)) {
if (method_exists($this, $ancien_champ_obs)) {
$nouvelle_obs[$nouveau_champ_obs] = $this->$ancien_champ_obs($obs);
} else {
$nouvelle_obs[$nouveau_champ_obs] = '';
}
} else {
if ($obs[$ancien_champ_obs] == '000null' || $obs[$ancien_champ_obs] == 'null' || trim($obs[$ancien_champ_obs]) == '') {
$obs[$ancien_champ_obs] = 'NULL';
}
if (($ancien_champ_obs == 'coord_x' || $ancien_champ_obs == 'coord_y') && ($obs[$ancien_champ_obs] == '0' || $obs[$ancien_champ_obs] == 0)) {
$obs[$ancien_champ_obs] = 'NULL';
}
$nouvelle_obs[$nouveau_champ_obs] = $obs[$ancien_champ_obs];
}
}
return $nouvelle_obs;
}
private function protegerSiNonNull($valeur) {
if ($valeur != 'NULL') {
$valeur = $this->proteger($valeur);
}
return $valeur;
}
private function estUnChampATraiter($champ) {
return strpos($champ,'traiter') !== false;
}
private function traiterReferentiel($observation) {
$retour = 'NULL';
if ($observation['num_nom_sel'] != '' && $observation['num_nom_sel'] != '0') {
$retour = 'bdnff:4.02';
}
return $retour;
}
private function traiterLat(&$observation) {
if ($this->etreNull($observation['coord_x'])) {
$observation['coord_x'] = 'NULL';
} else if (preg_match(self::PATTERN_LAT, $observation['coord_x']) == false) {
$latNote = 'Latitude éronnée : '.$observation['coord_x'];
if ($this->etreNull($observation['commentaire'])) {
$observation['commentaire'] = $latNote;
} else {
$observation['commentaire'] .= "\n".$latNote;
}
$observation['coord_x'] = 'NULL';
}
$retour = $observation['coord_x'];
return $retour;
}
private function traiterLng(&$observation) {
if ($this->etreNull($observation['coord_y'])) {
$observation['coord_y'] = 'NULL';
} else if (preg_match(self::PATTERN_LNG, $observation['coord_y']) == false) {
$lngNote = 'Longitude éronnée : '.$observation['coord_y'];
if ($this->etreNull($observation['commentaire'])) {
$observation['commentaire'] = $lngNote;
} else {
$observation['commentaire'] .= "\n".$lngNote;
}
$observation['coord_y'] = 'NULL';
}
$retour = $observation['coord_y'];
return $retour;
}
private function traiterGeodatum($observation) {
$retour = 'NULL';
if ($observation['coord_x'] != 'NULL' && $observation['coord_y'] != 'NULL') {
$retour = 'WGS84';
}
return $retour;
}
private function traiterMotsClesTexte($ligne_observation) {
$mail_observation = $ligne_observation['identifiant'];
$retour = $ligne_observation['mots_cles'];
if (isset($this->tableau_mots_cles[$mail_observation])) {
$mots_cles_tableau = $this->parserMotsCles($mail_observation, $ligne_observation['mots_cles'], ';');
$retour = join(',', $mots_cles_tableau);
$retour = ltrim($retour, ',,') ;
}
return $retour;
}
private function parserMotsCles($utilisateur, $mot_cles, $separateur = ',') {
$tableau_mots_cles = explode($separateur,$mot_cles);
$tableau_mots_cles_formates = array();
foreach ($tableau_mots_cles as $mot_cle) {
$mot_cle = str_replace($separateur.$separateur,'',$mot_cle);
$mot_cle = str_replace('null','',$mot_cle);
if ($this->estUnIdentifiantMotCle($mot_cle)) {
// certains mots clés mal formatés contiennent des virgules
if (strpos($mot_cle,',') !== false) {
$tab_mot_cle_mal_formate = explode(',',$mot_cle);
foreach ($tab_mot_cle_mal_formate as $mot_cle_mal_formate) {
if ($this->estUnIdentifiantMotCle($mot_cle_mal_formate)) {
$tableau_mots_cles_formates[$mot_cle_mal_formate] = $this->tableau_mots_cles[$utilisateur][$mot_cle_mal_formate]['mot_cle'];
}
}
} else {
// on met le mot clé dans sa propre case afin d'éviter
// facilement les doublons provoqués par de mauvais formatages
if (isset($this->tableau_mots_cles[$utilisateur][$mot_cle]) && trim($this->tableau_mots_cles[$utilisateur][$mot_cle]['mot_cle']) != '') {
$tableau_mots_cles_formates[$mot_cle] = $this->tableau_mots_cles[$utilisateur][$mot_cle]['mot_cle'];
}
}
}
}
return $tableau_mots_cles_formates;
}
private function estUnIdentifiantMotCle($chaine) {
return trim($chaine) != '' && preg_match('/[0-9A-Z]+\.[0-9A-Z]+/i', $chaine) ;
}
private function traiterIdentifiantUtilisateur($ligne_observation) {
$mail_observation = $ligne_observation['identifiant'];
$retour = $this->renvoyerIdPourMigration($mail_observation);
return $retour;
}
private function traiterPrenomUtilisateur($ligne_observation) {
$mail_observation = $ligne_observation['identifiant'];
$retour = '';
if (isset($this->tableau_utilisateurs[$mail_observation])) {
$prenom = $this->tableau_utilisateurs[$mail_observation]['prenom'];
$retour = self::formaterMotPremiereLettreChaqueMotEnMajuscule($prenom);
}
return $retour;
}
private function traiterNomUtilisateur($ligne_observation) {
$mail_observation = $ligne_observation['identifiant'];
$retour = '';
if (isset($this->tableau_utilisateurs[$mail_observation])) {
$nom = $this->tableau_utilisateurs[$mail_observation]['nom'];
$retour = self::formaterMotEnMajuscule($nom);
}
return $retour;
}
public static function formaterMotPremiereLettreChaqueMotEnMajuscule($chaine, $encodage= 'UTF-8') {
$chaine = str_replace('-', ' - ', $chaine);
$chaine = mb_strtolower($chaine, $encodage);
$chaine = mb_convert_case($chaine, MB_CASE_TITLE, $encodage);
$chaine = str_replace(' - ', '-', $chaine);
return $chaine;
}
public static function formaterMotEnMajuscule($chaine, $encodage= 'UTF-8') {
return mb_convert_case($chaine, MB_CASE_UPPER, $encodage);
}
private function traiterZoneGeo($ligne_observation) {
$zone_geo = $ligne_observation['location'];
if ($ligne_observation['id_location'] != null && !is_numeric($ligne_observation['id_location']) && $ligne_observation['id_location'] != '000null') {
$id_zone_geo_ancienne = $ligne_observation['id_location'];
if ($zone_geo != '') {
$id_zone_geo_ancienne = '('.$id_zone_geo_ancienne.')';
}
$zone_geo .= $id_zone_geo_ancienne;
} else if ($ligne_observation['location'] == null || $ligne_observation['location'] == "" || $ligne_observation['location'] == "000null") {
if ($ligne_observation['id_location'] != '' && $ligne_observation['id_location'] != '000null') {
$id_zone_geo_ancienne = $ligne_observation['id_location'];
$id_zone_geo_ancienne = $id_zone_geo_ancienne;
$zone_geo = $id_zone_geo_ancienne;
} else {
$zones_geo = 'NULL';
}
}
return $zone_geo;
}
private function traiterIdentifiantZoneGeo($ligne_observation) {
$id_zone_geo = '';
if ($ligne_observation['id_location'] != '' && $ligne_observation['id_location'] != '000null') {
$indice = $this->construireIndiceTableauLocalites($ligne_observation['location'], $ligne_observation['id_location']);
if (isset($this->tableau_zones_geo[$indice])) {
$id_zone_geo = $this->tableau_zones_geo[$indice]['nouveau_code_geo'];
} else {
if ($ligne_observation['location'] != "000null") {
$this->communesOubliees[$indice] = false;
}
}
} else {
$id_zone_geo = 'NULL';
}
return $id_zone_geo;
}
private function construireIndiceTableauLocalites($nom, $id) {
$nom = htmlentities($nom, ENT_NOQUOTES, 'UTF-8');
$nom = preg_replace('#&([A-za-z])(?:acute|cedil|circ|grave|orn|ring|slash|th|tilde|uml);#', '\1', $nom);
$nom = preg_replace('#&([A-za-z]{2})(?:lig);#', '\1', $nom); // pour les ligatures e.g. 'œ'
$nom = preg_replace('#&[^;]+;#', '', $nom); // supprime les autres caractères
$nom = str_replace("'",'_',$nom);
$nom = str_replace(' ','_',$nom);
$nom = str_replace('-','_',$nom);
$nom = str_replace(' ','_',$nom);
$indice = strtolower($nom).substr($id,0,2);
return $indice;
}
// Par défaut, on garde l'utilisateur tel quel (cas de la chaine de session des utilisateur anonymes)
private function renvoyerIdPourMigration($utilisateur) {
$retour = $utilisateur;
// si le mail correspond a un utilisateur de la bdd
if (isset($this->tableau_utilisateurs[$utilisateur])) {
// on renvoie son id
$retour = $this->tableau_utilisateurs[$utilisateur]['id'];
} else if ($utilisateur != '') {
// sinon si c'est un mail inconnu, on garde le md5
if ($this->mailValide($utilisateur)) {
$retour = md5($utilisateur);
}
}
return $retour;
}
public function mailValide($mail) {
// vérification bidon mais ça suffit pour ici
return !(strpos('@', $mail) === false);
}
}