Subversion Repositories eFlore/Applications.del

Rev

Rev 1590 | Rev 1594 | Go to most recent revision | Blame | Compare with Previous | Last modification | View Log | RSS feed

<?php
/**
 * DEL (Détermination en ligne [Pictoflora/Identiplante]) Toolkit
 * Quelques fonctions utiles, utilisées et/ou utilisables aussi bien par images/*, observations/*
 * et probablement d'autres, comme determination/*.
 *
 * Les domaines des fonctions tournent autour de 4 aspects:
 * - gestions des paramètres d'entrée utilisateurs, valeurs par défaut et sanitization
 * - génération de SQL
 * - processing de tableau de pattern d'utilisation SQL assez commun
 * - formattage basique de sortie (JSON)
 * + quelques helpers basiques
 *
 * @category    php 5.2
 * @package             del
 * @author              Raphaël Droz <raphael@tela-botanica.org>
 * @copyright   Copyright (c) 2013 Tela Botanica (accueil@tela-botanica.org)
 * @license     http://www.cecill.info/licences/Licence_CeCILL_V2-fr.txt Licence CECILL
 * @license     http://www.gnu.org/licenses/gpl.html Licence GNU-GPL
 */


define('_LISTE_OBS_MAX_RESULT_LIMIT', 1000);
define('_LISTE_OBS_MAX_ID_OBS', 10e7);
// SELECT MAX(num_taxonomique) FROM bdtfx_v2_00;
define('_LISTE_OBS_MAX_BDTFX_NT', 1000000); // 44378 + 1000
// SELECT MAX(num_nom) FROM bdtfx_v2_00;
define('_LISTE_OBS_MAX_BDTFX_NN', 1000000); // 120816 + 10000

class DelTk {
        static $parametres_autorises = array(
                'masque', 'masque.famille', 'masque.nn', 'masque.referentiel', // taxon
                'masque.genre', 'masque.espece', 'masque.ns', // nom_sel
                'masque.commune', 'masque.departement', 'masque.id_zone_geo', // loc
                'masque.auteur', 'masque.date', 'masque.tag', 'masque.type', // autres
                // tri, offset
                'navigation.depart', 'navigation.limite',
                'tri', 'ordre', // TODO: 'total=[yes]', 'fields=[x,y,...]'
                // TODO: masque.annee, masque.insee (!= departement)
        );

        static $default_params = array(
                'navigation.depart' => 0, 'navigation.limite' => 10,
                'tri' => 'date_transmission', 'ordre' => 'desc');

        /**
         * Construit un (vulgaire) abstract syntax tree:
         * "AND" => [ "tag1", "tag2" ]
         * Idéalement (avec un parser simple comme proposé par http://hoa-project.net/Literature/Hack/Compiler.html#Langage_PP)
         * nous aurions:
         * "AND" => [ "tag1", "tag2", "OR" => [ "tag3", "tag4" ] ]
         *
         * Ici nous devons traiter les cas suivants:
         * tags séparés par des "ET/AND OU/OR", séparés par des espaces ou des virgules.
         * Mais la chaîne peut aussi avoir été issue du "masque général" (la barre de recherche générique).
         * ce qui implique des comportement par défaut différents afin de préserver la compatibilité.
         *
         * Théorie:
         * 1) tags passés par "champ tag":
         * - support du ET/OU, et explode par virgule.
         * - si pas d'opérande détectée: "OU"
         *
         * 2) tags passés par "recherche générale":
         * - support du ET/OU, et explode par whitespace.
         * - si pas d'opérande détectée: "ET"
         *
         * La présence de $additional_sep s'explique car ET/OU sous-entendent une séparation par des espaces.
         * Mais ce n'est pas toujours pertinent car: 1) la compatibilité suggère de considérer parfois
         * la virgule comme séparateur et 2) les tags *peuvent* contenir des espaces. Par conséquent:
         * * a,b,c => "a" $default_op "b" $default_op "c"
         * * a,b AND c => "a" AND "b" AND "c"
         * * a OR b AND c,d => "a" AND "b" AND "c" AND "d"
         * C'est à dire par ordre décroissant de priorité:
         * 1) opérande contenu dans la chaîne
         * 2) opérande par défaut
         * 3) les séparateurs présents sont substitués par l'opérande déterminée par 1) ou 2)
         *
         * // TODO: support des parenthèses, imbrications & co: "(", ")"
         * // http://codehackit.blogspot.fr/2011/08/expression-parser-in-php.html
         * // http://blog.angeloff.name/post/2012/08/05/php-recursive-patterns/
         *
         * @param $str: la chaîne à "parser"
         * @param $default_op: "AND" ou "OR"
         * @param $additional_sep: séparateur de mots:
         */
        static function buildTagsAST($str = NULL, $default_op, $additional_sep = ',') {
                if(!$str) return;
                $words = preg_split('/ (OR|AND|ET|OU) /', $str, -1, PREG_SPLIT_NO_EMPTY);

                if(preg_match('/\b(ET|AND)\b/', $str)) $op = 'AND';
                elseif(preg_match('/\b(OU|OR)\b/', $str)) $op = 'OR';
                else $op = $default_op;

                if ($additional_sep) {
                        array_walk($words,
                                create_function('&$v, $k, $sep', '$v = preg_split("/".$sep."/", $v, -1, PREG_SPLIT_NO_EMPTY);'),
                                $additional_sep);
                }
                $words = DelTk::array_flatten($words);
                $words = array_map('trim', $words);
                return array($op => array_filter($words));
        }


        static function array_flatten($arr) {
                $arr = array_values($arr);
                while (list($k,$v)=each($arr)) {
                        if (is_array($v)) {
                                array_splice($arr,$k,1,$v);
                                next($arr);
                        }
                }
                return $arr;
        }

        /**
         * Supprime l'index du tableau des paramètres si sa valeur ne correspond pas
         * au spectre passé par $values.
         */
        static function unsetIfInvalid(&$var, $index, $values) {
                if (array_key_exists($index, $var)) {
                        if (!in_array($var[$index], $values)) {
                                unset($var[$index]);
                        } else {
                                return $var[$index];
                        }
                }
                return null;
        }

        /**
         * Filtre et valide les paramètres reconnus. Effectue *toute* la sanitization *sauf* l'escape-string
         * Cette fonction est appelée:
         * - une fois sur les champs de recherche avancées
         * - une fois sur le masque général si celui-ci à été spécifié. Dans ce cas,
         * la chaîne générale saisie est utilisée comme valeur pour chacun des champs particuliers
         * avec les traitements particuliers qui s'imposent
         * Par exemple: si l'on cherche "Languedoc", cela impliquera:
         * WHERE (nom_sel like "Languedoc" OR nom_ret ... OR ...) mais pas masque.date ou masque.departement
         * qui s'assure d'un pattern particulier
         */
        static function requestFilterParams(Array $params, $parametres_autorises = null, Conteneur $c = null /* pour la récup des départements */ ) {
                if ($parametres_autorises) { // filtrage de toute clef inconnue
                        $params = array_intersect_key($params, array_flip($parametres_autorises));
                }

                $p['tri'] = DelTK::unsetIfInvalid($params, 'tri', array('date_observation'));
                $p['ordre'] = DelTK::unsetIfInvalid($params, 'ordre', array('asc','desc'));
                $p['masque.referentiel'] = DelTK::unsetIfInvalid($params, 'masque.referentiel', array('bdtfx','bdtxa','isfan'));

                // TODO: use filter_input(INPUT_GET);
                // renvoie FALSE ou NULL si absent ou invalide
                $p['navigation.limite'] = filter_var(@$params['navigation.limite'],
                        FILTER_VALIDATE_INT,
                        array('options' => array(
                                'default' => null,
                                'min_range' => 1,
                                'max_range' => _LISTE_OBS_MAX_RESULT_LIMIT)));
                $p['navigation.depart'] = filter_var(@$params['navigation.depart'],
                        FILTER_VALIDATE_INT,
                        array('options' => array(
                                'default' => null,
                                'min_range' => 0,
                                'max_range' => _LISTE_OBS_MAX_ID_OBS)));
                if (isset($params['masque.departement'])) {
                        // STRING: 0 -> 95, 971 -> 976, 2A + 2B (./services/configurations/config_departements_bruts.ini)
                        // accept leading 0 ?
                        // TODO; filter patterns like 555.
                        if (preg_match(';^(\d{2}|\d{3}|2a|2b)$;i', $params['masque.departement'])) {
                                $p['masque.departement'] = $params['masque.departement'];
                        } elseif( !is_null($c) && ( $x = $c->getParametre(strtolower(str_replace(' ','-',iconv("UTF-8", "ASCII//TRANSLIT", $params['masque.departement'])))))) {// cf configurations/config_departements_bruts.ini
                                $p['masque.departement'] = sprintf("INSEE-C:%02d___", $x);
                        }
                }

                if (isset($params['masque.date'])) {
                        // une année, TODO: masque.annee
                        if (is_numeric($params['masque.date'])) {
                                $p['masque.date'] = $params['masque.date'];
                        } elseif(strpos($params['masque.date'], '/' !== false) && ($x = strtotime(str_replace('/','-',$params['masque.date'])))) {
                                $p['masque.date'] = $x;
                        } elseif(strpos($params['masque.date'], '-' !== false) && ($x = strtotime($params['masque.date'])) ) {
                                $p['masque.date'] = $x;
                        }
                }

                $p['masque.nn'] = filter_var(@$params['masque.nn'],
                        FILTER_VALIDATE_INT,
                        array('options' => array(
                                'default' => null,
                                'min_range' => 0,
                                'max_range' => _LISTE_OBS_MAX_BDTFX_NN)));

                $p['masque.nt'] = filter_var(@$params['masque.nt'],
                        FILTER_VALIDATE_INT,
                        array('options' => array(
                                'default' => NULL,
                                'min_range' => 0,
                                'max_range' => _LISTE_OBS_MAX_BDTFX_NT)));

                if (isset($params['masque.ns'])) {
                        $p['masque.ns'] = trim($params['masque.ns']);
                }

                if (isset($params['masque.famille'])) {
                        // mysql -N<<<"SELECT DISTINCT famille FROM bdtfx_v1_02;"|sed -r "s/(.)/\1\n/g"|sort -u|tr -d "\n"
                        $familleTranslit = iconv("UTF-8", "ASCII//TRANSLIT",$params['masque.famille']);
                        $p['masque.famille'] = preg_replace('/[^a-zA-Z %_]/', '', $familleTranslit);
                }

                // masque.genre est un alias pour masque.ns (nom_sel), mais permet de rajouter une clause supplémentaire
                // sur nom_sel. Précédemment: WHERE nom_sel LIKE '%<masque.genre>% %'.
                // Désormais masque.genre doit être intégralement spécifié, les caractères '%' et '_' seront interprétés.
                // Attention toutefois car la table del_observation intègre des nom_sel contenant '_'
                if (isset($params['masque.genre'])) {
                        $p['masque.genre'] = trim($params['masque.genre']);
                }
                if (isset($params['masque.ns'])) {
                        $p['masque.ns'] = trim($params['masque.ns']);
                }
                // masque.espece n'était pas déclaré dans la "where" mais utilisé via config + switch//default
                if (isset($params['masque.espece'])) {
                        $p['masque.espece'] = trim($params['masque.espece']);
                }

                // idem pour id_zone_geo qui mappait à ce_zone_geo:
                if (isset($params['masque.id_zone_geo']) && preg_match(';^(INSEE-C:\d{5}|\d{2})$;', $params['masque.id_zone_geo'])) {
                        $p['masque.id_zone_geo'] = $params['masque.id_zone_geo'];
                }

                // masque.commune (zone_geo)
                // TODO: que faire avec des '%' en INPUT ?
                // Le masque doit *permettre* une regexp et non l'imposer. Charge au client de faire son travail
                if (isset($params['masque.commune'])) {
                        $p['masque.commune'] = str_replace(array('-',' '), '_', $params['masque.commune']);
                }

                // masque.auteur: peut-être un id, un courriel, ou un nom ou prénom, ...
                if (isset($params['masque.auteur'])) {
                        $p['masque.auteur'] = trim($params['masque.auteur']);
                }
                // sera trimmé plus tard, cf sqlAddConstraint
                if (isset($params['masque'])) {
                        $p['masque'] = trim($params['masque']);
                }

                // masque.tag, idem que pour masque.genre et masque.commune
                if (isset($params['masque.tag'])) {
                        $x = explode(',',$params['masque.tag']);
                        $x = array_map('trim', $x);
                        $p['masque.tag'] = implode('|', array_filter($x));
                }

                // masque.type: ['adeterminer', 'aconfirmer', 'endiscussion', 'validees']
                if(isset($params['masque.type'])) {
                        $p['masque.type'] = array_flip(array_intersect(array_filter(explode(';', $params['masque.type'])),
                                array('adeterminer', 'aconfirmer', 'endiscussion', 'validees')));
                }

                // TODO: masque (général)
                // on filtre les NULL, FALSE et '', mais pas les 0, d'où le callback()
                // TODO: PHP-5.3
                return array_filter($p, create_function('$a','return !in_array($a, array("",false,null),true);'));
        }

        // SQL helpers

        /**
         * Lorsque l'on concatène des champs, un seul NULL prend le dessus,
         * Il faut donc utiliser la syntaxe IFNULL(%s, "").
         * (Cette fonction effectue aussi l'implode() "final"
         */
        static function sqlAddIfNullPourConcat($tab) {
                // XXX: PHP-5.3
                return implode(',',array_map(create_function('$a', 'return "IFNULL($a, \"\")";'), $tab));
        }

        /**
         * Converti un tableau associatif et un préfix optionnel en une chaîne de champs adéquate
         * à un SELECT MySQL.
         * $select (optionnel) restreint les champs mappés aux valeurs de $select.
         * Si $select n'est pas fourni, toutes les clefs présentes dans $map seront présentes dans
         * le SELECT en sortie
         */
        static function sqlFieldsToAlias($map, $select = NULL, $prefix = NULL) {
                if ($select) {
                        $arr = array_intersect_key($map, array_flip($select));
                } else {
                        $arr = $map;
                }
                $keys = array_keys($arr);

                if ($prefix) {
                        array_walk($keys, create_function('&$val, $k, $prefix', '$val = sprintf("%s.`%s`", $prefix, $val);'), $prefix);
                } else {
                        array_walk($keys, create_function('&$val, $k', '$val = sprintf("`%s`", $val);'));
                }

                return implode(', ', array_map(create_function('$v, $k', 'return sprintf("%s AS `%s`", $k, $v);'), $arr, $keys));
        }

        /**
         * Retourne une clause where du style:
         * CONCAT(IF(du.prenom IS NULL, "", du.prenom), [...] vdi.i_nomutilisateur) REGEXP 'xxx'
         * Note; i_(nom|prenom_utilisateur), alias pour cel_images.(nom|prenom), n'est pas traité
         * car cette information est redondante dans cel_image et devrait être supprimée.
         */
        static function addAuteursConstraint($val, $db, &$where) {
                @list($a, $b) = explode(' ', $val, 2);
                // un seul terme
                $champs_n = array('du.prenom', // info user authentifié de l'obs depuis l'annuaire
                        'vdi.prenom_utilisateur', // info user anonyme de l'obs
                        /* 'vdi.i_prenom_utilisateur' */ ); // info user anonyme de l'image
                $champs_p = array('du.nom', // idem pour le nom
                        'vdi.nom_utilisateur',
                        /* 'vdi.i_nom_utilisateur' */ );

                /*
                  Note: pour l'heure, étant donnés:
                  - les CONVERT() de la VIEW del_utilisateur
                  - DEFAULT CHARSET=latin1 pour tela_prod_v4.annuaire_tela
                  - DEFAULT CHARSET=utf8 pour tb_cel.cel_obs
                  et l'âge du capitaine...
                  - REGEXP est case-sensitive, et collate les caractères accentués
                  - LIKE est case-insensitive, et collate les caractères accentués
                */
                if (! $b) {
                        $where[] = sprintf('CONCAT(%s,%s) LIKE %s',
                                DelTk::sqlAddIfNullPourConcat($champs_n),
                                DelTk::sqlAddIfNullPourConcat($champs_p),
                                $db->proteger("%".$val."%"));
                } else {
                        $where[] = sprintf('(CONCAT(%1$s,%2$s) LIKE %3$s AND CONCAT(%1$s,%2$s) LIKE %4$s)',
                                DelTk::sqlAddIfNullPourConcat($champs_n),
                                DelTk::sqlAddIfNullPourConcat($champs_p),
                                $db->proteger("%" . $a . "%"), $db->proteger("%" . $b . "%"));
                }
        }

        /**
         * - Rempli le tableau des contraintes "where" et "join" nécessaire
         * à la *recherche* des observations demandées ($req) utilisées par self::getIdObs()
         *
         * Attention, cela signifie que toutes les tables ne sont pas *forcément*
         * join'ées, par exemple si aucune contrainte ne le nécessite.
         * $req tel qu'il est rempli ici est utile pour récupéré la seule liste des
         * id d'observation qui match.
         * Pour la récupération effective de "toutes" les données correspondante, il faut
         * réinitialiser $req["join"] afin d'y ajouter toutes les autres tables.
         *
         * Note: toujours rajouter les préfixes de table (vdi,du,doi ou di), en fonction de ce que défini
         * les JOIN qui sont utilisés.
         * le préfix de v_del_image est "vdi" (cf: "FROM" de self::getIdObs())
         * le préfix de del_utilisateur sur id_utilisateur = vdi.ce_utilisateur est "du"
         *
         * @param $p les paramètres (notamment de masque) passés par l'URL et déjà traités/filtrés (sauf quotes)
         * @param $req le tableau, passé par référence représentant les composants de la requête à bâtir
         */
        static function sqlAddConstraint($p, $db, &$req) {
                if (!empty($p['masque.auteur'])) {
                        // id du poster de l'obs
                        $req['join'][] = 'LEFT JOIN del_utilisateur AS du ON du.id_utilisateur = vdi.ce_utilisateur';
                        // id du poster de l'image... NON, c'est le même que le posteur de l'obs
                        // Cette jointure de table est ignoré ci-dessous pour les recherches d'auteurs
                        // $req['join'][] = 'LEFT JOIN del_utilisateur AS dui ON dui.id_utilisateur = vdi.i_ce_utilisateur';

                        if (is_numeric($p['masque.auteur'])) {
                                $req['where'][] = sprintf('(du.id_utilisateur = %1$d OR vdi.id_utilisateur = %1$d)', $p['masque.auteur']);
                        } elseif(preg_match(';^.{5,}@[a-z0-9-.]{5,}$;i', $p['masque.auteur'])) {
                                $req['where'][] = sprintf('(du.courriel LIKE %1$s OR vdi.courriel LIKE %1$s )',
                                        $db->proteger($p['masque.auteur'] . '%'));
                        } else {
                                DelTk::addAuteursConstraint($p['masque.auteur'], $db, $req['where']);
                        }
                }

                if (!empty($p['masque.date'])) {
                        if(is_integer($p['masque.date']) && $p['masque.date'] < 2030 && $p['masque.date'] > 1600) {
                                $req['where'][] = sprintf("YEAR(vdi.date_observation) = %d", $p['masque.date']);
                        } else {
                                $req['where'][] = sprintf("DATE_FORMAT(vdi.date_observation, '%%Y-%%m-%%d') = %s",
                                        $db->proteger(strftime('%Y-%m-%d', $p['masque.date'])));
                        }
                }

                // TODO: avoir des champs d'entrée distinct
                if (!empty($p['masque.departement'])) {
                        $req['where'][] = sprintf("vdi.ce_zone_geo = %s", $db->proteger('INSEE-C:'.$p['masque.departement']));
                }
                if (!empty($p['masque.id_zone_geo'])) {
                        $req['where'][] = sprintf("vdi.ce_zone_geo = %s", $db->proteger($p['masque.id_zone_geo']));
                }
                if (!empty($p['masque.genre'])) {
                        $req['where'][] = 'vdi.nom_sel LIKE '.$db->proteger('%' . $p['masque.genre'].'% %');
                }
                if (!empty($p['masque.famille'])) {
                        $req['where'][] = 'vdi.famille = '.$db->proteger($p['masque.famille']);
                }
                if (!empty($p['masque.ns'])) {
                        $req['where'][] = 'vdi.nom_sel LIKE '.$db->proteger($p['masque.ns'].'%');
                }
                if (!empty($p['masque.nn'])) {
                        $req['where'][] = sprintf('(vdi.nom_sel_nn = %1$d OR vdi.nom_ret_nn = %1$d)', $p['masque.nn']);
                }
                if (!empty($p['masque.referentiel'])) {
                        $req['where'][] = sprintf('vdi.nom_referentiel LIKE %s', $db->proteger($p['masque.referentiel'].'%'));
                }
                if (!empty($p['masque.commune'])) {
                        $req['where'][] = 'vdi.zone_geo LIKE '.$db->proteger($p['masque.commune'].'%');
                }
        }



        // formatage de réponse HTTP
        static function makeJSONHeader($total, $params, $url_service) {
                $prev_url = $next_url = NULL;
                $url_service_sans_slash = (substr($url_service, -1) == '/') ? substr($url_service, 0, -1) : $url_service;

                // aplatissons les params! - une seule couche cela dit, après débrouillez-vous
                $params_a_plat = $params;
                foreach ($params_a_plat as $cle_plate => $pap) {
                        if (is_array($pap)) {
                                $params_a_plat[$cle_plate] = implode(array_keys($pap), ',');
                        }
                }

                $next_offset = $params['navigation.depart'] + $params['navigation.limite'];
                if ($next_offset < $total) {
                        $next_url = $url_service_sans_slash.'?'.
                                http_build_query(array_merge($params_a_plat, array('navigation.depart' => $next_offset)));
                }

                $prev_offset = $params['navigation.depart'] - $params['navigation.limite'];
                if ($prev_offset >= 0) {
                        $prev_url = $url_service_sans_slash.'?'.
                                http_build_query(array_merge($params_a_plat, array('navigation.depart' => $prev_offset)));
                }

                return array(
                        'masque' => http_build_query(array_diff_key($params, array_flip(array('navigation.depart', 'navigation.limite')))),
                        'total' => $total,
                        'depart' => $params['navigation.depart'],
                        'limite' => $params['navigation.limite'],
                        'href.precedent' => $prev_url,
                        'href.suivant' => $next_url
                );
        }
}