| 4 | 
           david | 
           1 | 
           <?php
  | 
        
        
            | 
            | 
           2 | 
              | 
        
        
            | 
            | 
           3 | 
           //
  | 
        
        
            | 
            | 
           4 | 
           // Lit un document 'pdf' et extrait son contenu en texte brut
  | 
        
        
            | 
            | 
           5 | 
           //
  | 
        
        
            | 
            | 
           6 | 
              | 
        
        
            | 
            | 
           7 | 
           // NOTE : l'extracteur n'est pas oblige de convertir le contenu dans
  | 
        
        
            | 
            | 
           8 | 
           // le charset du site, mais il *doit* signaler le charset dans lequel
  | 
        
        
            | 
            | 
           9 | 
           // il envoie le contenu, de facon a ce qu'il soit converti au moment
  | 
        
        
            | 
            | 
           10 | 
           // voulu ; dans le cas contraire le document sera lu comme s'il etait
  | 
        
        
            | 
            | 
           11 | 
           // dans le charset iso-8859-1
  | 
        
        
            | 
            | 
           12 | 
              | 
        
        
            | 
            | 
           13 | 
           function extracteur_pdf($fichier, &$charset) {
  | 
        
        
            | 
            | 
           14 | 
              | 
        
        
            | 
            | 
           15 | 
           	/* methode tout PHP
  | 
        
        
            | 
            | 
           16 | 
           		$pdf = new Format_PDF;
  | 
        
        
            | 
            | 
           17 | 
           		$texte = $pdf->extraire_texte($fichier);
  | 
        
        
            | 
            | 
           18 | 
           		echo $texte;
  | 
        
        
            | 
            | 
           19 | 
           		exit;
  | 
        
        
            | 
            | 
           20 | 
           	*/
  | 
        
        
            | 
            | 
           21 | 
              | 
        
        
            | 
            | 
           22 | 
           	$charset = 'iso-8859-1';
  | 
        
        
            | 
            | 
           23 | 
              | 
        
        
            | 
            | 
           24 | 
           	# metamail
  | 
        
        
            | 
            | 
           25 | 
           	exec('metamail -d -q -b -c application/pdf '.escapeshellarg($fichier), $r, $e);
  | 
        
        
            | 
            | 
           26 | 
           	if (!$e) return join(' ', $r);
  | 
        
        
            | 
            | 
           27 | 
              | 
        
        
            | 
            | 
           28 | 
           	# pdftotext
  | 
        
        
            | 
            | 
           29 | 
           	# http://www.glyphandcog.com/Xpdf.html
  | 
        
        
            | 
            | 
           30 | 
           	# l'option "-enc utf-8" peut echouer ... dommage !
  | 
        
        
            | 
            | 
           31 | 
           	exec('pdftotext '.escapeshellarg($fichier).' -', $r, $e);
  | 
        
        
            | 
            | 
           32 | 
           	if (!$e) return join(' ', $r);
  | 
        
        
            | 
            | 
           33 | 
           }
  | 
        
        
            | 
            | 
           34 | 
              | 
        
        
            | 
            | 
           35 | 
           // Sait-on extraire ce format ?
  | 
        
        
            | 
            | 
           36 | 
           // TODO: ici tester si les binaires fonctionnent
  | 
        
        
            | 
            | 
           37 | 
           $GLOBALS['extracteur']['pdf'] = 'extracteur_pdf';
  | 
        
        
            | 
            | 
           38 | 
              | 
        
        
            | 
            | 
           39 | 
              | 
        
        
            | 
            | 
           40 | 
              | 
        
        
            | 
            | 
           41 | 
              | 
        
        
            | 
            | 
           42 | 
              | 
        
        
            | 
            | 
           43 | 
              | 
        
        
            | 
            | 
           44 | 
           //
  | 
        
        
            | 
            | 
           45 | 
           // Methode tout PHP (a tester)
  | 
        
        
            | 
            | 
           46 | 
           //
  | 
        
        
            | 
            | 
           47 | 
              | 
        
        
            | 
            | 
           48 | 
           class Format_PDF {
  | 
        
        
            | 
            | 
           49 | 
           	var $trans_chars;
  | 
        
        
            | 
            | 
           50 | 
           	var $flag_mono, $flag_brut;
  | 
        
        
            | 
            | 
           51 | 
              | 
        
        
            | 
            | 
           52 | 
           	function convertir_caracteres($texte) {
  | 
        
        
            | 
            | 
           53 | 
           		if (!$this->trans_chars) {
  | 
        
        
            | 
            | 
           54 | 
           			// Caracteres speciaux
  | 
        
        
            | 
            | 
           55 | 
           			$this->trans_chars = array(
  | 
        
        
            | 
            | 
           56 | 
           				// ligatures typographiques (!)
  | 
        
        
            | 
            | 
           57 | 
           				chr(2) => 'fi',
  | 
        
        
            | 
            | 
           58 | 
           				chr(3) => 'fl',
  | 
        
        
            | 
            | 
           59 | 
           				chr(174) => 'fi',
  | 
        
        
            | 
            | 
           60 | 
           				chr(175) => 'fl',
  | 
        
        
            | 
            | 
           61 | 
           				// "e" accent aigu
  | 
        
        
            | 
            | 
           62 | 
           				chr(0) => chr(233)
  | 
        
        
            | 
            | 
           63 | 
           			);
  | 
        
        
            | 
            | 
           64 | 
           		}
  | 
        
        
            | 
            | 
           65 | 
           		$texte = strtr($texte, $this->trans_chars);
  | 
        
        
            | 
            | 
           66 | 
           		// Caracteres non-ascii codes en octal
  | 
        
        
            | 
            | 
           67 | 
           		while (preg_match(',\\\\([0-7][0-7][0-7]),', $texte, $regs)) {
  | 
        
        
            | 
            | 
           68 | 
           			$c = chr(octdec($regs[1]));
  | 
        
        
            | 
            | 
           69 | 
           			$texte = str_replace($regs[0], $c, $texte);
  | 
        
        
            | 
            | 
           70 | 
           			$this->trans_chars[$regs[0]] = $c;
  | 
        
        
            | 
            | 
           71 | 
           		}
  | 
        
        
            | 
            | 
           72 | 
           		return $texte;
  | 
        
        
            | 
            | 
           73 | 
           	}
  | 
        
        
            | 
            | 
           74 | 
              | 
        
        
            | 
            | 
           75 | 
           	function recoller_texte($stream) {
  | 
        
        
            | 
            | 
           76 | 
           		static $chars_voyelles, $chars_fusion, $chars_caps, $chars_nums, $bichars_fusion;
  | 
        
        
            | 
            | 
           77 | 
           		if (!$chars_voyelles) {
  | 
        
        
            | 
            | 
           78 | 
           			$chars_voyelles = array('a'=>1, 'e'=>1, 'i'=>1, 'o'=>1, 'u'=>1, 'y'=>1);
  | 
        
        
            | 
            | 
           79 | 
           			$chars_fusion = array('v'=>1, 'w'=>1, 'x'=>1, 'V'=>1, 'W'=>1, 'T'=>1);
  | 
        
        
            | 
            | 
           80 | 
           			$chars_caps = array('A'=>1, 'B'=>1, 'C'=>1, 'D'=>1, 'E'=>1, 'F'=>1, 'G'=>1,
  | 
        
        
            | 
            | 
           81 | 
           					'H'=>1, 'I'=>1, 'J'=>1, 'K'=>1, 'L'=>1, 'M'=>1, 'N'=>1,
  | 
        
        
            | 
            | 
           82 | 
           					'O'=>1, 'P'=>1, 'Q'=>1, 'R'=>1, 'S'=>1, 'T'=>1, 'U'=>1,
  | 
        
        
            | 
            | 
           83 | 
           					'V'=>1, 'W'=>1, 'X'=>1, 'Y'=>1, 'Z'=>1);
  | 
        
        
            | 
            | 
           84 | 
           			$chars_nums = array('0'=>1, '1'=>1, '2'=>1, '3'=>1, '4'=>1, '5'=>1, '6'=>1, '7'=>1, '8'=>1, '9'=>1);
  | 
        
        
            | 
            | 
           85 | 
           			$bichars_fusion = array('ve'=>1, 'vo'=>1, 'ev'=>1, 'ov'=>1,
  | 
        
        
            | 
            | 
           86 | 
           						'xe'=>1, 'xo'=>1, 'ox'=>1, 'ex'=>1,
  | 
        
        
            | 
            | 
           87 | 
           						'we'=>1, 'wo'=>1, 'ow'=>1, 'ew'=>1, 'ff'=>1);
  | 
        
        
            | 
            | 
           88 | 
           		}
  | 
        
        
            | 
            | 
           89 | 
           		// Longueur max pour limiter les erreurs d'extraction
  | 
        
        
            | 
            | 
           90 | 
           		$chaine_len = 140;
  | 
        
        
            | 
            | 
           91 | 
              | 
        
        
            | 
            | 
           92 | 
           		$stream = preg_split(",\)[^(]*\(,", $stream);
  | 
        
        
            | 
            | 
           93 | 
           		$extrait = '';
  | 
        
        
            | 
            | 
           94 | 
           		$fini = false;
  | 
        
        
            | 
            | 
           95 | 
           		$this->flag_brut = false;
  | 
        
        
            | 
            | 
           96 | 
           		// Cette boucle est capable de basculer entre deux trois d'execution :
  | 
        
        
            | 
            | 
           97 | 
           		// - normal (plusieurs caracteres par chaine avec fusion)
  | 
        
        
            | 
            | 
           98 | 
           		// - brut (plusieurs caracteres par chaine sans fusion)
  | 
        
        
            | 
            | 
           99 | 
           		// - mono (un caractere par chaine)
  | 
        
        
            | 
            | 
           100 | 
           		while (1) {
  | 
        
        
            | 
            | 
           101 | 
           			if ($this->flag_mono) {
  | 
        
        
            | 
            | 
           102 | 
           				// Un caractere par chaine : fusion rapide
  | 
        
        
            | 
            | 
           103 | 
           				while (list(, $s) = each($stream)) {
  | 
        
        
            | 
            | 
           104 | 
           					if (strlen($s) != 1) {
  | 
        
        
            | 
            | 
           105 | 
           						if (strlen($s) < $chaine_len) $extrait .= $s;
  | 
        
        
            | 
            | 
           106 | 
           						$this->flag_mono = false;
  | 
        
        
            | 
            | 
           107 | 
           						break;
  | 
        
        
            | 
            | 
           108 | 
           					}
  | 
        
        
            | 
            | 
           109 | 
           					$extrait .= $s;
  | 
        
        
            | 
            | 
           110 | 
           				}
  | 
        
        
            | 
            | 
           111 | 
           				if ($this->flag_mono) break;
  | 
        
        
            | 
            | 
           112 | 
           			}
  | 
        
        
            | 
            | 
           113 | 
           			else if ($this->flag_brut) {
  | 
        
        
            | 
            | 
           114 | 
           				// Concatenation sans fusion
  | 
        
        
            | 
            | 
           115 | 
           				while (list(, $s) = each($stream)) $extrait .= $s;
  | 
        
        
            | 
            | 
           116 | 
           				break;
  | 
        
        
            | 
            | 
           117 | 
           			}
  | 
        
        
            | 
            | 
           118 | 
           			$prev_s = '';
  | 
        
        
            | 
            | 
           119 | 
           			$prev_c = '';
  | 
        
        
            | 
            | 
           120 | 
           			$prev_l = 0;
  | 
        
        
            | 
            | 
           121 | 
           			$nb_mono = 0;
  | 
        
        
            | 
            | 
           122 | 
           			$nb_brut = 0;
  | 
        
        
            | 
            | 
           123 | 
           			// Cas general : appliquer les regles de fusion
  | 
        
        
            | 
            | 
           124 | 
           			while (list(, $s) = each($stream)) {
  | 
        
        
            | 
            | 
           125 | 
           				$l = strlen($s);
  | 
        
        
            | 
            | 
           126 | 
           				if ($l >= $chaine_len) continue;
  | 
        
        
            | 
            | 
           127 | 
           				$c = $s{0};
  | 
        
        
            | 
            | 
           128 | 
           				// Annulation de la cesure
  | 
        
        
            | 
            | 
           129 | 
           				if ($prev_c == '-') {
  | 
        
        
            | 
            | 
           130 | 
           					$extrait .= substr($prev_s, 0, -1);
  | 
        
        
            | 
            | 
           131 | 
           				}
  | 
        
        
            | 
            | 
           132 | 
           				else {
  | 
        
        
            | 
            | 
           133 | 
           					$extrait .= $prev_s;
  | 
        
        
            | 
            | 
           134 | 
           					$len_w = strpos($s.' ', ' ');
  | 
        
        
            | 
            | 
           135 | 
           					$prev_len_w = $prev_l - strrpos($prev_s, ' ');
  | 
        
        
            | 
            | 
           136 | 
           					$court = ($prev_len_w < 3 OR $len_w < 3);
  | 
        
        
            | 
            | 
           137 | 
           					// Heuristique pour separation des mots
  | 
        
        
            | 
            | 
           138 | 
           					if (/*$len_w == 1 OR $prev_len_w == 1
  | 
        
        
            | 
            | 
           139 | 
           						OR */($court AND ($chars_fusion[$prev_c] OR $chars_fusion[$c]
  | 
        
        
            | 
            | 
           140 | 
           							OR ($chars_caps[$prev_c] AND ($chars_caps[$c] OR $chars_nums[$c]))))
  | 
        
        
            | 
            | 
           141 | 
           						OR ($prev_c == 'f' AND $chars_voyelles[$c])
  | 
        
        
            | 
            | 
           142 | 
           						OR $bichars_fusion[$prev_c.$c]) {
  | 
        
        
            | 
            | 
           143 | 
           					}
  | 
        
        
            | 
            | 
           144 | 
           					else $extrait .= ' ';
  | 
        
        
            | 
            | 
           145 | 
           				}
  | 
        
        
            | 
            | 
           146 | 
           				$prev_c = $s{$l - 1};
  | 
        
        
            | 
            | 
           147 | 
           				$prev_s = $s;
  | 
        
        
            | 
            | 
           148 | 
           				$prev_l = $l;
  | 
        
        
            | 
            | 
           149 | 
           				// Detection du format mono-caractere
  | 
        
        
            | 
            | 
           150 | 
           				if ($l == 1) {
  | 
        
        
            | 
            | 
           151 | 
           					if (++$nb_mono >= 3) {
  | 
        
        
            | 
            | 
           152 | 
           						$this->flag_mono = true;
  | 
        
        
            | 
            | 
           153 | 
           						break;
  | 
        
        
            | 
            | 
           154 | 
           					}
  | 
        
        
            | 
            | 
           155 | 
           				}
  | 
        
        
            | 
            | 
           156 | 
           				else {
  | 
        
        
            | 
            | 
           157 | 
           					$nb_mono = 0;
  | 
        
        
            | 
            | 
           158 | 
           					if ($c == ' ' OR $prev_c == ' ') {
  | 
        
        
            | 
            | 
           159 | 
           						$this->flag_brut = true;
  | 
        
        
            | 
            | 
           160 | 
           						break;
  | 
        
        
            | 
            | 
           161 | 
           					}
  | 
        
        
            | 
            | 
           162 | 
           				}
  | 
        
        
            | 
            | 
           163 | 
           			}
  | 
        
        
            | 
            | 
           164 | 
           			$extrait .= $prev_s;
  | 
        
        
            | 
            | 
           165 | 
           			if (!$this->flag_mono && !$this->flag_brut) break;
  | 
        
        
            | 
            | 
           166 | 
           		}
  | 
        
        
            | 
            | 
           167 | 
           		return $extrait;
  | 
        
        
            | 
            | 
           168 | 
           	}
  | 
        
        
            | 
            | 
           169 | 
              | 
        
        
            | 
            | 
           170 | 
           	function extraire_texte($fichier) {
  | 
        
        
            | 
            | 
           171 | 
              | 
        
        
            | 
            | 
           172 | 
           		$source_len = 1024*1024;
  | 
        
        
            | 
            | 
           173 | 
           		$stream_len = 20*1024;
  | 
        
        
            | 
            | 
           174 | 
           		$texte_len = 40*1024;
  | 
        
        
            | 
            | 
           175 | 
              | 
        
        
            | 
            | 
           176 | 
           		$f = fopen($fichier, "rb");
  | 
        
        
            | 
            | 
           177 | 
           		if (!$f) die ("Fichier $fichier impossible a ouvrir");
  | 
        
        
            | 
            | 
           178 | 
              | 
        
        
            | 
            | 
           179 | 
           		$in_stream = false;
  | 
        
        
            | 
            | 
           180 | 
              | 
        
        
            | 
            | 
           181 | 
           		// Decouper le fichier en objets
  | 
        
        
            | 
            | 
           182 | 
           		unset($objs);
  | 
        
        
            | 
            | 
           183 | 
           		$objs = fread($f, $source_len);
  | 
        
        
            | 
            | 
           184 | 
           		$objs = preg_split('/[\s>]endobj\s+/', $objs);
  | 
        
        
            | 
            | 
           185 | 
           #		echo "<h3>".count($objs)." objets présents dans le buffer</h3>";
  | 
        
        
            | 
            | 
           186 | 
              | 
        
        
            | 
            | 
           187 | 
           		// Parcourir le fichier pour trouver les streams
  | 
        
        
            | 
            | 
           188 | 
           		reset($objs);
  | 
        
        
            | 
            | 
           189 | 
           		$n = count($objs);
  | 
        
        
            | 
            | 
           190 | 
           		for ($i = 0; $i < $n; $i++) {
  | 
        
        
            | 
            | 
           191 | 
           			$obj = $objs[$i];
  | 
        
        
            | 
            | 
           192 | 
              | 
        
        
            | 
            | 
           193 | 
           			if (!$in_stream) {
  | 
        
        
            | 
            | 
           194 | 
           				// Stream (eviter les commentaires)
  | 
        
        
            | 
            | 
           195 | 
           				$ok = preg_match("/stream(\r\n?|\n)/", $obj); // version rapide d'abord
  | 
        
        
            | 
            | 
           196 | 
           				if ($ok) $ok = preg_match("/[\r\n](([^\r\n%]*[ \t>])*stream(\r\n?|\n))/", $obj, $regs);
  | 
        
        
            | 
            | 
           197 | 
           				if (!$ok) continue;
  | 
        
        
            | 
            | 
           198 | 
           				$p = strpos($obj, $regs[1]);
  | 
        
        
            | 
            | 
           199 | 
           				$t = substr($obj, $p + strlen($regs[1]));
  | 
        
        
            | 
            | 
           200 | 
           				$stream = "";
  | 
        
        
            | 
            | 
           201 | 
           				$in_stream = true;
  | 
        
        
            | 
            | 
           202 | 
              | 
        
        
            | 
            | 
           203 | 
           				$obj_text = substr($obj, 0, $p + strlen($regs[1]));
  | 
        
        
            | 
            | 
           204 | 
              | 
        
        
            | 
            | 
           205 | 
           				// Parasites avant et apres
  | 
        
        
            | 
            | 
           206 | 
           				//$obj_text = preg_replace("/^\s+obj\s+/", "", $obj_text);
  | 
        
        
            | 
            | 
           207 | 
           				//$obj_text = preg_replace("/(\s+endobj)\s+.*$/", "\\1", $obj_text);
  | 
        
        
            | 
            | 
           208 | 
              | 
        
        
            | 
            | 
           209 | 
           				// Commentaires
  | 
        
        
            | 
            | 
           210 | 
           				$obj_text = preg_replace("/\\\\%/", ' ', $obj_text);
  | 
        
        
            | 
            | 
           211 | 
           				$obj_text = preg_replace("/%[^\r\n]*[\r\n]+/", '', $obj_text);
  | 
        
        
            | 
            | 
           212 | 
              | 
        
        
            | 
            | 
           213 | 
           				// Dictionnaire
  | 
        
        
            | 
            | 
           214 | 
           				$obj_dict = "";
  | 
        
        
            | 
            | 
           215 | 
           				//if (ereg("<<(.*)>>", $obj_text, $regs))
  | 
        
        
            | 
            | 
           216 | 
           				if (preg_match("/<<(.*)>>/s", $obj_text, $regs)) // bug ?!
  | 
        
        
            | 
            | 
           217 | 
           					$obj_dict = $regs[1];
  | 
        
        
            | 
            | 
           218 | 
              | 
        
        
            | 
            | 
           219 | 
           #				echo "<hr>";
  | 
        
        
            | 
            | 
           220 | 
           #				echo "Objet numéro $i<p>";
  | 
        
        
            | 
            | 
           221 | 
           #				echo "<pre>".htmlspecialchars($obj_text)."</pre>";
  | 
        
        
            | 
            | 
           222 | 
           			}
  | 
        
        
            | 
            | 
           223 | 
           			else {
  | 
        
        
            | 
            | 
           224 | 
           				$t = " endobj ".$obj; // approximation
  | 
        
        
            | 
            | 
           225 | 
           			}
  | 
        
        
            | 
            | 
           226 | 
           			unset($obj);
  | 
        
        
            | 
            | 
           227 | 
              | 
        
        
            | 
            | 
           228 | 
           			// Recoller les morceaux du stream (au cas ou un "obj" se trouvait en clair dans un stream)
  | 
        
        
            | 
            | 
           229 | 
           			if ($in_stream) {
  | 
        
        
            | 
            | 
           230 | 
           				if (!($p = strpos($t, "endstream")) && !($q = strpos($t, "endobj"))) {
  | 
        
        
            | 
            | 
           231 | 
           					$stream .= $t;
  | 
        
        
            | 
            | 
           232 | 
           #					echo "<font color='red'>Stream continué</font><p>";
  | 
        
        
            | 
            | 
           233 | 
           					continue;
  | 
        
        
            | 
            | 
           234 | 
           				}
  | 
        
        
            | 
            | 
           235 | 
           				$in_stream = false;
  | 
        
        
            | 
            | 
           236 | 
           				if ($p) $stream .= substr($t, 0, $p);
  | 
        
        
            | 
            | 
           237 | 
           				else $stream .= substr($t, 0, $q);
  | 
        
        
            | 
            | 
           238 | 
           				unset($t);
  | 
        
        
            | 
            | 
           239 | 
              | 
        
        
            | 
            | 
           240 | 
           				// Decoder le contenu du stream
  | 
        
        
            | 
            | 
           241 | 
           				$encoding = '';
  | 
        
        
            | 
            | 
           242 | 
           				if (preg_match(",/Filter\s*/([A-Za-z]+),", $obj_dict, $regs))
  | 
        
        
            | 
            | 
           243 | 
           					$encoding = $regs[1];
  | 
        
        
            | 
            | 
           244 | 
           				switch($encoding) {
  | 
        
        
            | 
            | 
           245 | 
           				case 'FlateDecode':
  | 
        
        
            | 
            | 
           246 | 
           					$stream = gzuncompress($stream); // pb avec certains PDFs !?
  | 
        
        
            | 
            | 
           247 | 
           					break;
  | 
        
        
            | 
            | 
           248 | 
           				case '':
  | 
        
        
            | 
            | 
           249 | 
           					break;
  | 
        
        
            | 
            | 
           250 | 
           				default:
  | 
        
        
            | 
            | 
           251 | 
           					$stream = '';
  | 
        
        
            | 
            | 
           252 | 
           				}
  | 
        
        
            | 
            | 
           253 | 
           				/*if (preg_match("/\(d.marrage:\)/", $stream, $regs)) {
  | 
        
        
            | 
            | 
           254 | 
           					$fs = fopen("demarrage.txt", "w");
  | 
        
        
            | 
            | 
           255 | 
           					fwrite($fs, $regs[0]);
  | 
        
        
            | 
            | 
           256 | 
           					fclose($fs);
  | 
        
        
            | 
            | 
           257 | 
           					exit;
  | 
        
        
            | 
            | 
           258 | 
           				}*/
  | 
        
        
            | 
            | 
           259 | 
           			}
  | 
        
        
            | 
            | 
           260 | 
              | 
        
        
            | 
            | 
           261 | 
           			if (!$stream) continue;
  | 
        
        
            | 
            | 
           262 | 
              | 
        
        
            | 
            | 
           263 | 
           #			echo "Stream : ".strlen($stream)." octets<p>";
  | 
        
        
            | 
            | 
           264 | 
              | 
        
        
            | 
            | 
           265 | 
           			// Eviter les fontes embarquees, etc.
  | 
        
        
            | 
            | 
           266 | 
           			if (preg_match(',^%!,', $stream)) {
  | 
        
        
            | 
            | 
           267 | 
           				unset($stream);
  | 
        
        
            | 
            | 
           268 | 
           				continue;
  | 
        
        
            | 
            | 
           269 | 
           			}
  | 
        
        
            | 
            | 
           270 | 
           			// Detection texte / binaire
  | 
        
        
            | 
            | 
           271 | 
           			$stream = substr($stream, 0, $stream_len);
  | 
        
        
            | 
            | 
           272 | 
           			$stream = str_replace('\\(', ",", $stream);
  | 
        
        
            | 
            | 
           273 | 
           			$stream = str_replace('\\)', ",", $stream);
  | 
        
        
            | 
            | 
           274 | 
           			$n1 = substr_count($stream, '(');
  | 
        
        
            | 
            | 
           275 | 
           			$n2 = substr_count($stream, ')');
  | 
        
        
            | 
            | 
           276 | 
           			$freq = (substr_count($stream, ' ') + $n1 + $n2) / strlen($stream);
  | 
        
        
            | 
            | 
           277 | 
           			if ($freq < 0.04 || (!$n1 && !$n2)) {
  | 
        
        
            | 
            | 
           278 | 
           #				echo "no text (1)<p>";
  | 
        
        
            | 
            | 
           279 | 
           				//echo htmlspecialchars($stream);
  | 
        
        
            | 
            | 
           280 | 
           				unset($stream);
  | 
        
        
            | 
            | 
           281 | 
           				continue;
  | 
        
        
            | 
            | 
           282 | 
           			}
  | 
        
        
            | 
            | 
           283 | 
           			$dev = abs($n1 - $n2) / ($n1 + $n2);
  | 
        
        
            | 
            | 
           284 | 
           			if ($dev > 0.05) {
  | 
        
        
            | 
            | 
           285 | 
           #				echo "no text (2)<p>";
  | 
        
        
            | 
            | 
           286 | 
           				unset($stream);
  | 
        
        
            | 
            | 
           287 | 
           				continue;
  | 
        
        
            | 
            | 
           288 | 
           			}
  | 
        
        
            | 
            | 
           289 | 
           			// Extraction des chaines
  | 
        
        
            | 
            | 
           290 | 
           			if (strpos($stream, '<<') && strpos($stream, '>>'))
  | 
        
        
            | 
            | 
           291 | 
           				$stream = preg_replace(',<<.*?'.'>>,s', '', $stream); // bug avec preg
  | 
        
        
            | 
            | 
           292 | 
           			$stream = substr($stream, strpos($stream, '(') + 1);
  | 
        
        
            | 
            | 
           293 | 
           			$stream = substr($stream, 0, strrpos($stream, ')')); // ici un bug occasionnel...
  | 
        
        
            | 
            | 
           294 | 
           			$stream = $this->convertir_caracteres($stream);
  | 
        
        
            | 
            | 
           295 | 
           			$extrait = $this->recoller_texte($stream);
  | 
        
        
            | 
            | 
           296 | 
           			unset($stream);
  | 
        
        
            | 
            | 
           297 | 
           			$texte .= $extrait;
  | 
        
        
            | 
            | 
           298 | 
              | 
        
        
            | 
            | 
           299 | 
           			// Se limiter a une certaine taille de texte en sortie
  | 
        
        
            | 
            | 
           300 | 
           			if (strlen($texte) > $texte_len) {
  | 
        
        
            | 
            | 
           301 | 
           				$texte = substr($texte, 0, strrpos(substr($texte, 0, $texte_len), ' '));
  | 
        
        
            | 
            | 
           302 | 
           				break;
  | 
        
        
            | 
            | 
           303 | 
           			}
  | 
        
        
            | 
            | 
           304 | 
           		}
  | 
        
        
            | 
            | 
           305 | 
              | 
        
        
            | 
            | 
           306 | 
           		fclose($f);
  | 
        
        
            | 
            | 
           307 | 
              | 
        
        
            | 
            | 
           308 | 
           		return $texte;
  | 
        
        
            | 
            | 
           309 | 
           	}
  | 
        
        
            | 
            | 
           310 | 
              | 
        
        
            | 
            | 
           311 | 
           } // class
  | 
        
        
            | 
            | 
           312 | 
              | 
        
        
            | 
            | 
           313 | 
              | 
        
        
            | 
            | 
           314 | 
           ?>
  |