Rev 1983 | Blame | Compare with Previous | Last modification | View Log | RSS feed
<?php// declare(encoding='UTF-8');/*** Script gérant la maintenance de DEL.** @category DEL* @package Scripts* @subpackage Maintenance* @author Aurelien PERONNET <aurelien@tela-botanica.org>* @license GPL v3 <http://www.gnu.org/licenses/gpl.txt>* @license CECILL v2 <http://www.cecill.info/licences/Licence_CeCILL_V2-en.txt>* @copyright 1999-2014 Tela Botanica <accueil@tela-botanica.org>*/class Maintenance extends Script {protected $tables_referentiel = array();protected $conteneur = null;public function executer() {$cmd = $this->getParametre('a');$this->conteneur = new Conteneur($this->parametres);switch ($cmd) {case 'corrigerNomsReferentiels' :$this->corrigerNomsReferentiels();break;case 'supprimerPropositionsOrphelines' :$this->supprimerPropositionsOrphelines();break;case 'affecterNnsAuxPropositionsViables' :$this->affecterNnsAuxPropositionsViables();break;case 'dedoublonnerPropositions' :$this->dedoublonnerPropositions();break;case 'dedoublonnerPropositionsEtCorrigerDonnees' :// Suppression des propositions et votes sur des obs inexistantes// pas la peine de traiter ce qui n'existe plus !$this->supprimerPropositionsOrphelines();// Corriger les noms de référentiels permet de simplifier les affectations de noms ensuite$this->corrigerNomsReferentiels();// Affectations de nums noms aux propositions qui le permettent$this->affecterNnsAuxPropositionsViables();echo "\n";$this->dedoublonnerPropositions();// A la fin, les votes qui n'ont pas été fusionnés pointent sur des propositions// qui n'existent plus, donc on les supprime$this->supprimerVotesOrphelins();echo "\n";break;default :throw new Exception("Erreur : la commande '$cmd' n'existe pas!");}}private function corrigerNomsReferentiels() {echo "Corrections des noms de referentiels ... ";$requete = "UPDATE del_commentaire "."SET nom_referentiel = 'bdtfx' "."WHERE nom_referentiel IN ('bdtfx_v1', 'bdtfx:1.01') ";$modif = $this->conteneur->getBdd()->executer($requete);$requete = "UPDATE del_commentaire "."SET nom_referentiel = 'apd' "."WHERE nom_referentiel IN ('bdtao', 'bdtao:1.00') ";$modif = $this->conteneur->getBdd()->executer($requete);$requete = "UPDATE del_commentaire "."SET nom_referentiel = 'bdtxa' "."WHERE nom_referentiel IN ('bdtxa:1.00') ";$modif = $this->conteneur->getBdd()->executer($requete);$requete = "UPDATE del_commentaire "."SET nom_referentiel = 'isfan' "."WHERE nom_referentiel IN ('isfan:1.00') ";$modif = $this->conteneur->getBdd()->executer($requete);echo "OK \n";return $modif;}private function supprimerPropositionsOrphelines() {echo "Suppression des propositions orphelines (et des votes associés) ... ";$requete_prop = "DELETE FROM del_commentaire "."WHERE ce_observation NOT IN (SELECT id_observation FROM del_observation)";$modif_prop = $this->conteneur->getBdd()->executer($requete_prop);$modif_votes = $this->supprimerVotesOrphelins();echo "OK \n";return $modif_prop && $modif_votes;}private function supprimerVotesOrphelins() {$requete_votes = "DELETE FROM del_commentaire_vote "."WHERE ce_proposition NOT IN (SELECT id_commentaire FROM del_commentaire)";$modif_votes = $this->conteneur->getBdd()->executer($requete_votes);}private function dedoublonnerPropositions() {echo "Détection des propositions en doublons \n";// La méthode n'est pas optimisée, on fait beaucoup de boucles, de traitement de données// etc... mais la méthode ne doit pas être lancée souvent et elle est rapide// donc lisibilité > performances$infos_indexees = array();$infos_indexees_par_obs = array();// Selection des ids de commentaires dupliqués, groupés par observation et par nom (concaténés par des virgules)$requete_id_prod_doubl = "SELECT GROUP_CONCAT(id_commentaire) as id_commentaires_dupliques "."FROM del_commentaire "."GROUP BY ce_observation, nom_sel "."HAVING COUNT(nom_sel) > 1 ";$ids_propositions_doublonnees = $this->conteneur->getBdd()->recupererTous($requete_id_prod_doubl);// Assemblage en une seule chaine des id de commentaires$ids_propositions_doublonnees_chaine = "";foreach($ids_propositions_doublonnees as $ids_p_d) {$ids_propositions_doublonnees_chaine .= $ids_p_d['id_commentaires_dupliques'].",";}$ids_propositions_doublonnees_chaine = rtrim($ids_propositions_doublonnees_chaine, ',');$propositions_doublonnees = array();if(!empty($ids_propositions_doublonnees)) {// Selection des informations relatives aux ids de commentaires trouvés au dessus$requete_prop_doubl = "SELECT * FROM del_commentaire "."WHERE id_commentaire IN (".$ids_propositions_doublonnees_chaine.") "."ORDER BY ce_observation, date ";$propositions_doublonnees = $this->conteneur->getBdd()->recupererTous($requete_prop_doubl);}echo count($propositions_doublonnees)." propositions pour ".count($ids_propositions_doublonnees)." couples 'observation-nom_sel' sont potentiellement en doublons \n";// Organisation par numéro d'obs, puis par nom sel, puis par id proposition// + Création d'un tableau indexé par id proposition pour accès direct au infosforeach($propositions_doublonnees as &$proposition_d) {$id_obs = $proposition_d['ce_observation'];$id_proposition = $proposition_d['id_commentaire'];$nom_sel_prop = $proposition_d['nom_sel'];$infos_indexees[$id_proposition] = $proposition_d;if(!isset($infos_indexees_par_obs[$id_obs])) {$infos_indexees_par_obs[$id_obs] = array();}$proposition_d['votes'] = array();$infos_indexees_par_obs[$id_obs][$nom_sel_prop][$id_proposition] = $proposition_d;}$votes_doublonnes = array();if(!empty($ids_propositions_doublonnees)) {// Selection des votes concernés par ces propositions$requete_votes_prop_doubl = "SELECT * FROM del_commentaire_vote "."WHERE ce_proposition IN (".$ids_propositions_doublonnees_chaine.")";$votes_doublonnes = $this->conteneur->getBdd()->recupererTous($requete_votes_prop_doubl);}echo count($votes_doublonnes)." votes sont concernés \n";// Affectation des votes trouvés aux propositions concernéesforeach($votes_doublonnes as &$vote_d) {$id_proposition = $vote_d['ce_proposition'];$proposition_concernee = $infos_indexees[$id_proposition];$id_obs = $proposition_concernee['ce_observation'];$nom_sel_prop = $proposition_concernee['nom_sel'];$infos_indexees_par_obs[$id_obs][$nom_sel_prop][$id_proposition]['votes'][] = $vote_d;}$nb_propositions_conservees = 0;$nb_propositions_supprimees = 0;$nb_votes_reaffectes = 0;// Tri des propositions pour savoir lequelles conserver et lesquelles supprimerforeach($infos_indexees_par_obs as $obs => &$propositions) {foreach($propositions as $nom => &$doublons) {$this->trierPropositionsEtFusionnerVotes($doublons);$nb_propositions_conservees += count($doublons['propositions_conservees']);$nb_propositions_supprimees += count($doublons['propositions_supprimees']);$nb_votes_reaffectes += count($doublons['votes_propositions_doublons']);}}echo $nb_propositions_conservees." propositions seront conservées \n";echo $nb_propositions_supprimees." propositions seront supprimées car inutiles ou fusionnées \n";echo $nb_votes_reaffectes." groupes de votes seront potentiellement réaffectés \n";// Mise à jour proprement diteforeach($infos_indexees_par_obs as $obs => &$nom_en_doublons) {foreach($nom_en_doublons as $nom_en_doublon => &$propositions_en_doublons) {$this->mettreAJourPropositions($propositions_en_doublons);}$this->afficherAvancement('observations traitées ', 1);}// Fichier json pour vérification par zieutage (chemin à modifier suivant l'emplacement désiré)//file_put_contents('/home/aurelien/web/test_fusion.json', json_encode($infos_indexees_par_obs));}private function trierPropositionsEtFusionnerVotes(&$prop_a_doublons) {$proposition_conservees = array();$propositions_supprimees = array();$votes_conserves = array();foreach($prop_a_doublons as &$prop) {// Indexer le tableau par nom_sel courriel permet de ne garder qu'un seul couple// utilisateur / nom sci pour chaque observation// (on utilise le courriel car les gens non identifiés peuvent proposer également// et celui-ci est normalement toujours rempli)$index = strtolower($prop['nom_sel']).'-'.$prop['utilisateur_courriel'];// Fusion des votes s'il y en aif(!empty($prop['votes'])) {// Utiliser le couple utilisateur / nom sci pour stocker les votes permet facilement// de réaffecter les votes à la proposition qui sera conservéeif(!isset($votes_conserves[$index])) {$votes_conserves[$index] = array();}// Si on trouve un vote pour et un vote contre par le même utilisateur// (cas d'une proposition doublonnée votée de manière contradictoire par// un utilisateur), on garde le vote positifforeach($prop['votes'] as $vote_proposition) {// Un utilisateur ne peut avoir qu'un seul vote par proposition$index_vote = $vote_proposition['ce_utilisateur'];if(isset($votes_conserves[$index][$index_vote])) { // fusion$vote_deja_present = $votes_conserves[$index][$index_vote];// Mise à jour de la valeur dans le cas où le vote existe déjà$valeur_vote_maj = max($votes_conserves[$index][$index_vote]['valeur'], $vote_proposition['valeur']);$votes_conserves[$index][$index_vote]['valeur'] = $valeur_vote_maj;$votes_conserves[$index][$index_vote]['raison'] .= ' - '.$vote_proposition['valeur'];} else { // nouveau vote$vote_proposition['raison'] = 'Fusion de '.$vote_proposition['valeur'];$votes_conserves[$index][$index_vote] = $vote_proposition;}}}// valeurs par défaut$conservee = false;$raison = 'Supprimée car ne rentre dans aucun cas';// Les cas ci dessous permettent de fusionner le maximum d'information// dans la proposition qui sera conservée (car il existe des doublons qui ne sont// pas tout à fait identiques (ex.: l'un à un num_nom et l'autre pas)// Les propositions sont classées par ordre de saisie donc on gardera comme base de fusion,// la plus ancienne qui correspond à au moins un cas de conservation$this->fusionnerPropositions($index, $prop, $proposition_conservees, $propositions_supprimees);}// Si aucune proposition ne convient on prend la première// qui est normalement la plus ancienne// @TODO normalement ça sert plus à rienif (empty($proposition_conservees)) {$prop_conservee = reset($prop_a_doublons);$index = strtolower($prop_conservee['nom_sel']).'-'.$prop_conservee['utilisateur_courriel'];$proposition_conservees[$index] = $prop_conservee;$proposition_conservees[$index]['raison'] = "Conservée car aucune autre ne convient \n";// Dans ce cas on retire la proposition de la liste des propositions suppriméesunset($propositions_supprimees[$prop_conservee['id_commentaire']]);}$prop_a_doublons['propositions_conservees'] = $proposition_conservees;$prop_a_doublons['propositions_supprimees'] = $propositions_supprimees;$prop_a_doublons['votes_propositions_doublons'] = $votes_conserves;}/*** Tente de fusionner toutes les propositions, pour une observation donnée,* en se basant sur le couple auteur-nom_selectionne*/protected function fusionnerPropositions($index, &$prop, &$proposition_conservees, &$propositions_supprimees) {// On garde un exemple de chaque couple auteur/nom scientifique// Ca laisse des doublons en terme de nom mais au moins ça ne lèse pas les auteursif(!isset($proposition_conservees[$index])) {// première rencontre avec le couple nom_sel/auteur$proposition_conservees[$index] = $prop;} else { // Cas de la fusion// Fusion d'un nom valide : fusionner nom _sel_nn (et nom_ret_nn et nom_ret s'ils existent)if(!empty($prop['nom_sel_nn'])) {$proposition_conservees[$index]['nom_sel_nn'] = $prop['nom_sel_nn'];// infos complémentaires concernant le référentielif(!empty($prop['nom_referentiel'])) {$proposition_conservees[$index]['nom_referentiel'] = $prop['nom_referentiel'];}if(!empty($prop['famille'])) {$proposition_conservees[$index]['famille'] = $prop['famille'];}// Fusion du nom retenu s'il existeif($proposition_conservees[$index]['nom_ret_nn'] == 0) { // on admet que nom_ret existe aussi dans ce cas$proposition_conservees[$index]['nom_ret'] = $prop['nom_ret'];$proposition_conservees[$index]['nom_ret_nn'] = $prop['nom_ret_nn'];}}// Fusion du caractère retenu : fusioner le booleen, la date de retention, le validateurif($prop['proposition_retenue'] == "1") {$proposition_conservees[$index]['proposition_retenue'] = $prop['proposition_retenue'];if (empty($proposition_conservees[$index]['date_validation'])) {$proposition_conservees[$index]['date_validation'] = $prop['date_validation'];}if (empty($proposition_conservees[$index]['ce_validateur'])) {$proposition_conservees[$index]['ce_validateur'] = $prop['ce_validateur'];}}// Fusion du caractère initial : fusion du booleen, fusion des infos d'auteur et de la date la plus ancienneif($prop['proposition_initiale'] == "1") {$proposition_conservees[$index]['proposition_initiale'] = $prop['proposition_initiale'];if (empty($proposition_conservees[$index]['ce_utilisateur'])) {$proposition_conservees[$index]['ce_utilisateur'] = $prop['ce_utilisateur'];}if (empty($proposition_conservees[$index]['utilisateur_prenom'])) {$proposition_conservees[$index]['utilisateur_prenom'] = $prop['utilisateur_prenom'];}if (empty($proposition_conservees[$index]['utilisateur_nom'])) {$proposition_conservees[$index]['utilisateur_nom'] = $prop['utilisateur_nom'];}if (empty($proposition_conservees[$index]['utilisateur_courriel'])) {$proposition_conservees[$index]['utilisateur_courriel'] = $prop['utilisateur_courriel'];}// Test tout simple pour éviter les dates videsif (empty($proposition_conservees[$index]['date'])) {if(substr($prop['date'], 0, 4) != "0000") {$proposition_conservees[$index]['date'] = $prop['date'];}}}// Fusion du commentaire (concaténation du texte)if(trim($proposition_conservees[$index]['texte']) != "") {$prop['texte'] = trim($prop['texte']);// Suppression du texte fusionné, au cas où il existerait déjà (un peu barbare mais bon)$proposition_conservees[$index]['texte'] = str_replace($prop['texte'].';', '', $proposition_conservees[$index]['texte']);$proposition_conservees[$index]['texte'] .= $prop['texte'].';';}// À la fin, une proposition fusionnée doit être supprimée$propositions_supprimees[$prop['id_commentaire']] = $prop;}}private function mettreAJourPropositions(&$propositions_a_obs_a_nom) {$propositions_conservees = $propositions_a_obs_a_nom['propositions_conservees'];foreach($propositions_conservees as $index => $proposition_conservee) {$id_proposition_conservee = $proposition_conservee['id_commentaire'];// Pas besoin de mettre à jour une clé primaire !unset($proposition_conservee['id_commentaire']);// Suppression des champs qui n'existent pas dans la base de donnéesunset($proposition_conservee['votes']);unset($proposition_conservee['raison']);$maj_prop = array();// on prend les champs un par unforeach($proposition_conservee as $champ => $valeur) {$maj_prop[] = $champ.'='.$this->conteneur->getBdd()->proteger($valeur);}$requete_maj_prop = "UPDATE del_commentaire SET ".implode(',', $maj_prop)." "."WHERE id_commentaire = ".$id_proposition_conservee;// écriture de sinformations fusionnées dans la base$modif_prop = $this->conteneur->getBdd()->requeter($requete_maj_prop);if(isset($propositions_a_obs_a_nom['votes_propositions_doublons'][$index])) {$votes_a_proposition = $propositions_a_obs_a_nom['votes_propositions_doublons'][$index];foreach($votes_a_proposition as $vote_a_proposition) {$id_vote_conserve = $vote_a_proposition['id_vote'];// Pas besoin de mettre à jour un clé primaire !unset($vote_a_proposition['id_vote']);// Suppression des champs qui n'existent pas dans la base de donnéesunset($vote_a_proposition['raison']);$maj_vote = array();$vote_a_proposition['ce_proposition'] = $id_proposition_conservee;foreach($vote_a_proposition as $champ_v => $valeur_v) {$maj_vote[] = $champ_v.'='.$this->conteneur->getBdd()->proteger($valeur_v);}// tous les votes pertinents pointent maintenant vers la proposition fusionnée// certains votes voient leur valeur mise à jour (fusion de valeurs de votes)$requete_maj_vote = "UPDATE del_commentaire_vote SET ".implode(',', $maj_vote)." "."WHERE id_vote = ".$id_vote_conserve;$modif_vote = $this->conteneur->getBdd()->requeter($requete_maj_vote);}}}// Suppression des propositions devenues inutiles$propositions_supprimees = $propositions_a_obs_a_nom['propositions_supprimees'];if(!empty($propositions_supprimees)) {$ids_propositions_supprimees = array();foreach($propositions_supprimees as $index_prop_supprimee => $proposition_supprimee) {$ids_propositions_supprimees[] = $this->conteneur->getBdd()->proteger($proposition_supprimee['id_commentaire']);}$requete_supp_prop = "DELETE FROM del_commentaire "."WHERE id_commentaire IN (".implode(',', $ids_propositions_supprimees).")";$supp_prop = $this->conteneur->getBdd()->requeter($requete_supp_prop);}}private function affecterNnsAuxPropositionsViables() {$this->construireTableauReferentiels();echo "Affectation de nn aux propositions qui le permettent \n";$propositions = $this->obtenirPropositionsPotentiellementViables();$noms_ordonnes = array();$nb_propositions_traitees = 0;$nb_prop_orphelines = count($propositions);$nb_prop_augmentees = 0;$nb_noms_trouves = 0;$nb_prop_inchangees = 0;echo $nb_prop_orphelines.' propositions sont potentiellement améliorables'."\n";foreach($propositions as $prop) {$referentiel = in_array($prop['referentiel_proposition'], array_keys($this->tables_referentiel)) ?$prop['referentiel_proposition'] : $prop['referentiel_observation'];$referentiel = in_array($referentiel, array_keys($this->tables_referentiel)) ?$referentiel : 'tous';$referentiel = substr($referentiel, 0, 5);if($referentiel == 'tous') {$noms_trouves = 0;foreach(array_keys($this->tables_referentiel) as $ref) {$noms_possibles[$referentiel] = $this->rechercherNomsPossibles($ref, $prop['nom_sel']);$nb_noms_trouves += count($noms_possibles[$referentiel]);$noms_trouves += empty($noms_possibles[$referentiel]) ? 1 : 0;}$nb_prop_inchangees += $noms_trouves != 0 ? 1 : 0;// Un seul référentiel correspond (c'est déjà bon signe)if(count($noms_possibles) == 1) {$nom_dans_ref = reset($noms_possibles);$nom_referentiel = key($noms_possibles);// Un seul nom trouvé : OKif(count($nom_dans_ref) == 1) {if(isset($nom_dans_ref['num_nom'])) {$this->mettreAjourProposition($prop['id_commentaire'], $nom_referentiel, $nom_dans_ref);$nb_prop_augmentees ++;}}}} else {$noms_possibles = $this->rechercherNomsPossibles($referentiel, $prop['nom_sel']);$noms_ordonnes[$prop['id_commentaire']]['nom_trouves'] = $noms_possibles;$nb_noms_trouves += count($noms_possibles);$nb_prop_inchangees += empty($noms_possibles) ? 1 : 0;// On ne met à jour qu'en étant absolument sur (si l'on a trouvé un seul nom)if(count($noms_possibles) == 1) {$nom_dans_ref = array_pop($noms_possibles);if(isset($nom_dans_ref['num_nom'])) {$this->mettreAjourProposition($prop['id_commentaire'], $referentiel, $nom_dans_ref);$nb_prop_augmentees ++;}}}$this->afficherAvancement('propositions traitées ', 1);}$noms_ordonnes[$prop['id_commentaire']]['proposition'] = $prop;echo "\n";echo $nb_noms_trouves.' noms ont été trouvés'."\n";echo $nb_prop_augmentees.' propositions ont été améliorées'."\n";echo $nb_prop_inchangees.' propositions n\'ont pas pu être améliorées'."\n";}private function obtenirPropositionsPotentiellementViables() {$requete = 'SELECT DISTINCT dc.id_commentaire, dc.nom_sel, dc.nom_referentiel as referentiel_proposition, '.'do.nom_referentiel as referentiel_observation '.'FROM del_commentaire dc '.'INNER JOIN del_observation do '.' ON do.id_observation = dc.ce_observation '.'WHERE dc.nom_sel != "" AND (dc.nom_sel_nn = 0 OR dc.nom_sel_nn IS NULL)';$propositions = $this->conteneur->getBdd()->recupererTous($requete);return $propositions;}private function rechercherNomsPossibles($referentiel, $nom) {$nom = trim($nom);$requete = "SELECT num_nom, num_nom_retenu, nom_sci, CONCAT(nom_sci, ' ', auteur) as nom_sci_etendu FROM ".$this->tables_referentiel[$referentiel]." "."WHERE CONCAT(nom_sci, ' ', auteur) = ".$this->conteneur->getBdd()->proteger($nom)." "." OR nom_sci = ".$this->conteneur->getBdd()->proteger($nom)." "."ORDER BY CONCAT(nom_sci, ' ', auteur) ASC";$noms = $this->conteneur->getBdd()->recupererTous($requete);return $noms;}private function mettreAjourProposition($id_proposition, $referentiel, $infos) {$requete = "UPDATE del_commentaire "."SET nom_sel_nn = ".$this->conteneur->getBdd()->proteger($infos['num_nom']).", "." nom_referentiel = ".$this->conteneur->getBdd()->proteger($referentiel)." "."WHERE id_commentaire = ".$this->conteneur->getBdd()->proteger($id_proposition);return $this->conteneur->getBdd()->executer($requete);}private function construireTableauReferentiels() {$referentiels_dispos = explode(',', $this->conteneur->getParametre('referentiels'));foreach($referentiels_dispos as $ref) {$this->tables_referentiel[$ref] = $this->conteneur->getParametre('table_referentiel_'.$ref);}}}