Subversion Repositories eFlore/Projets.eflore-projets

Compare Revisions

Ignore whitespace Rev 881 → Rev 882

/trunk/scripts/modules/cel/A_LIRE.txt
1,7 → 1,7
Créer une base de données tb_cel avant de lancer les scripts
 
== Sommaire ==
1) à propos de la mise à jour de juillet 2013
1) à propos de la mise à jour de septembre 2013
2) à propos de la table cel_references
==============
 
13,23 → 13,27
 
3) maj-cleanup-201307.sql
uniformisation des données (lon/lat, date, ...)
et des NULL vs 0 (pour nom_sel_nn et nom_ret_nn)
 
4) fix-utilisateur-32.sql
 
5) dedup-ordre-201307.sql
 
6) maj-referentiel-201307.sql
fix le référentiel pour les observation ayant un nom_sel_nn sans nom_referentiel en se
basant sur une match exact de CONCAT(nom_sci, auteur) parmi bdtfx, bdtxa et isfan
 
7) referonosaure.sql
MAJ des observations (valides) avec les nouvelles données générées, à partir de bdtfx/bdtxa/isfan
 
=====
6) TODO: maj-nom-ret.sql
8) TODO: maj-nom-ret.sql
TODO (pas sûr) MAJ du référentiel pour les observation ayant un nom_ret sans nom_ret_nn mais dont le nom_ret
ne match pas le nom_sci en BDTFX (car en BDTFX nom_ret_nn peut être égal à 0 !)
 
7) maj-referentiel-201307.sql
fix le référentiel pour les observation ayant un nom_sel_nn sans nom_referentiel
 
8) maj-referentiel-und-201307.sql
9) maj-referentiel-und-201307.sql
MAJ du référentiel pour les observation n'ayant pas de nom_ret_nn (tentative de détermination par nom)
 
9) referonosaure.sql
MAJ des observations (valides) avec les nouvelles données générées, à partir de bdtfx/bdtxa
 
 
 
37,22 → 41,21
 
 
 
 
=== 2: À propos de la table cel_references ===
Celle-ci existe car:
* les projets doivent être indépendants (eflore, cel, projets nvjfl, ...)
* les données nécessaire à l'export et à l'import sont massif
* les données nécessaires à l'export et à l'import sont massives
* or les webservices s'appellent parfois récursivement, sont lents et inadaptés
 
La conséquence est que la construction d'une table dérivée de bdtfx/bdtxa contenant
La conséquence est que la construction d'une table dérivée de bdtfx/bdtxa/isfan contenant
les informations utiles pour CEL s'avère nécessaire.
cel_references.sql construit une telle table.
 
Suivent quelques éléments de compréhension et exemples de requêtes liés à cette initialisation:
 
1) Détermination des nom vernaculaires meilleurs et uniques:
1) Détermination des noms vernaculaires meilleurs et uniques:
 
Ce sont ceux qui ont le num_statut le plus élevés pour un num_taxon donné dans nvjfl_v2007.
Ce sont ceux qui ont le num_statut le plus élevé pour un num_taxon donné dans nvjfl_v2007.
Plusieurs méthodes sont exposées ci-dessous, sachant que le couple (référentiel, num_nom) est la clef
unique de cel_references.
Il existe à ce jour 16146 nom communs français distincts, 12312 num_taxon pour code_lang = fra et aucun num_statut NULL en français.
81,8 → 84,9
UNION \
SELECT "isfan", b.num_nom, b.num_nom_retenu, b.nom_sci, b.auteur, NULL FROM isfan_v2013 b;
 
Mais évidemment, les noms communs n'existe que pour bdtfx, de même que les données baseflor/baseveg. Plusieurs tables temporaires sont donc nécessaires en particulier puisque toutes les colonnes n'ont pas
des indexes adaptés pour effectuer des JOIN efficace dans le cadre de ce script d'intégration particulier.
Mais évidemment, les noms communs n'existent que pour bdtfx[nvjfl], bdtxa[nva], de même que les données baseflor/baseveg.
Plusieurs tables temporaires sont donc nécessaires en particulier puisque toutes les colonnes n'ont pas
des indexes adaptés pour effectuer des JOIN efficaces dans le cadre de ce script d'intégration particulier.
 
Une version plus aboutie, mais spécifique à bdtfx, après création préalable de T_nvjfl_v2007, était la suivante (présence des noms communs):
INSERT INTO @dst (`referentiel`, `num_nom`, `num_nom_retenu`, `num_taxon`, `nom_sci`, `auteur`, `nom_commun`) \