WebSVN – Sites.tela-botanica.org – Blame – /trunk/actu/extract

Rev	Author	Line No.	Line
4	david	1	`<?php`
		2
		3	`//`
		4	`// Lit un document 'pdf' et extrait son contenu en texte brut`
		5	`//`
		6
		7	`// NOTE : l'extracteur n'est pas oblige de convertir le contenu dans`
		8	`// le charset du site, mais il doit signaler le charset dans lequel`
		9	`// il envoie le contenu, de facon a ce qu'il soit converti au moment`
		10	`// voulu ; dans le cas contraire le document sera lu comme s'il etait`
		11	`// dans le charset iso-8859-1`
		12
		13	`function extracteur_pdf($fichier, &$charset) {`
		14
		15	`/* methode tout PHP`
		16	`$pdf = new Format_PDF;`
		17	`$texte = $pdf->extraire_texte($fichier);`
		18	`echo $texte;`
		19	`exit;`
		20	`*/`
		21
		22	`$charset = 'iso-8859-1';`
		23
		24	`# metamail`
		25	`exec('metamail -d -q -b -c application/pdf '.escapeshellarg($fichier), $r, $e);`
		26	`if (!$e) return join(' ', $r);`
		27
		28	`# pdftotext`
		29	`# http://www.glyphandcog.com/Xpdf.html`
		30	`# l'option "-enc utf-8" peut echouer ... dommage !`
		31	`exec('pdftotext '.escapeshellarg($fichier).' -', $r, $e);`
		32	`if (!$e) return join(' ', $r);`
		33	`}`
		34
		35	`// Sait-on extraire ce format ?`
		36	`// TODO: ici tester si les binaires fonctionnent`
		37	`$GLOBALS['extracteur']['pdf'] = 'extracteur_pdf';`
		38
		39
		40
		41
		42
		43
		44	`//`
		45	`// Methode tout PHP (a tester)`
		46	`//`
		47
		48	`class Format_PDF {`
		49	`var $trans_chars;`
		50	`var $flag_mono, $flag_brut;`
		51
		52	`function convertir_caracteres($texte) {`
		53	`if (!$this->trans_chars) {`
		54	`// Caracteres speciaux`
		55	`$this->trans_chars = array(`
		56	`// ligatures typographiques (!)`
		57	`chr(2) => 'fi',`
		58	`chr(3) => 'fl',`
		59	`chr(174) => 'fi',`
		60	`chr(175) => 'fl',`
		61	`// "e" accent aigu`
		62	`chr(0) => chr(233)`
		63	`);`
		64	`}`
		65	`$texte = strtr($texte, $this->trans_chars);`
		66	`// Caracteres non-ascii codes en octal`
		67	`while (preg_match(',\\\\([0-7][0-7][0-7]),', $texte, $regs)) {`
		68	`$c = chr(octdec($regs[1]));`
		69	`$texte = str_replace($regs[0], $c, $texte);`
		70	`$this->trans_chars[$regs[0]] = $c;`
		71	`}`
		72	`return $texte;`
		73	`}`
		74
		75	`function recoller_texte($stream) {`
		76	`static $chars_voyelles, $chars_fusion, $chars_caps, $chars_nums, $bichars_fusion;`
		77	`if (!$chars_voyelles) {`
		78	`$chars_voyelles = array('a'=>1, 'e'=>1, 'i'=>1, 'o'=>1, 'u'=>1, 'y'=>1);`
		79	`$chars_fusion = array('v'=>1, 'w'=>1, 'x'=>1, 'V'=>1, 'W'=>1, 'T'=>1);`
		80	`$chars_caps = array('A'=>1, 'B'=>1, 'C'=>1, 'D'=>1, 'E'=>1, 'F'=>1, 'G'=>1,`
		81	`'H'=>1, 'I'=>1, 'J'=>1, 'K'=>1, 'L'=>1, 'M'=>1, 'N'=>1,`
		82	`'O'=>1, 'P'=>1, 'Q'=>1, 'R'=>1, 'S'=>1, 'T'=>1, 'U'=>1,`
		83	`'V'=>1, 'W'=>1, 'X'=>1, 'Y'=>1, 'Z'=>1);`
		84	`$chars_nums = array('0'=>1, '1'=>1, '2'=>1, '3'=>1, '4'=>1, '5'=>1, '6'=>1, '7'=>1, '8'=>1, '9'=>1);`
		85	`$bichars_fusion = array('ve'=>1, 'vo'=>1, 'ev'=>1, 'ov'=>1,`
		86	`'xe'=>1, 'xo'=>1, 'ox'=>1, 'ex'=>1,`
		87	`'we'=>1, 'wo'=>1, 'ow'=>1, 'ew'=>1, 'ff'=>1);`
		88	`}`
		89	`// Longueur max pour limiter les erreurs d'extraction`
		90	`$chaine_len = 140;`
		91
		92	`$stream = preg_split(",\)[^(]*\(,", $stream);`
		93	`$extrait = '';`
		94	`$fini = false;`
		95	`$this->flag_brut = false;`
		96	`// Cette boucle est capable de basculer entre deux trois d'execution :`
		97	`// - normal (plusieurs caracteres par chaine avec fusion)`
		98	`// - brut (plusieurs caracteres par chaine sans fusion)`
		99	`// - mono (un caractere par chaine)`
		100	`while (1) {`
		101	`if ($this->flag_mono) {`
		102	`// Un caractere par chaine : fusion rapide`
		103	`while (list(, $s) = each($stream)) {`
		104	`if (strlen($s) != 1) {`
		105	`if (strlen($s) < $chaine_len) $extrait .= $s;`
		106	`$this->flag_mono = false;`
		107	`break;`
		108	`}`
		109	`$extrait .= $s;`
		110	`}`
		111	`if ($this->flag_mono) break;`
		112	`}`
		113	`else if ($this->flag_brut) {`
		114	`// Concatenation sans fusion`
		115	`while (list(, $s) = each($stream)) $extrait .= $s;`
		116	`break;`
		117	`}`
		118	`$prev_s = '';`
		119	`$prev_c = '';`
		120	`$prev_l = 0;`
		121	`$nb_mono = 0;`
		122	`$nb_brut = 0;`
		123	`// Cas general : appliquer les regles de fusion`
		124	`while (list(, $s) = each($stream)) {`
		125	`$l = strlen($s);`
		126	`if ($l >= $chaine_len) continue;`
		127	`$c = $s{0};`
		128	`// Annulation de la cesure`
		129	`if ($prev_c == '-') {`
		130	`$extrait .= substr($prev_s, 0, -1);`
		131	`}`
		132	`else {`
		133	`$extrait .= $prev_s;`
		134	`$len_w = strpos($s.' ', ' ');`
		135	`$prev_len_w = $prev_l - strrpos($prev_s, ' ');`
		136	`$court = ($prev_len_w < 3 OR $len_w < 3);`
		137	`// Heuristique pour separation des mots`
		138	`if (/*$len_w == 1 OR $prev_len_w == 1`
		139	`OR */($court AND ($chars_fusion[$prev_c] OR $chars_fusion[$c]`
		140	`OR ($chars_caps[$prev_c] AND ($chars_caps[$c] OR $chars_nums[$c]))))`
		141	`OR ($prev_c == 'f' AND $chars_voyelles[$c])`
		142	`OR $bichars_fusion[$prev_c.$c]) {`
		143	`}`
		144	`else $extrait .= ' ';`
		145	`}`
		146	`$prev_c = $s{$l - 1};`
		147	`$prev_s = $s;`
		148	`$prev_l = $l;`
		149	`// Detection du format mono-caractere`
		150	`if ($l == 1) {`
		151	`if (++$nb_mono >= 3) {`
		152	`$this->flag_mono = true;`
		153	`break;`
		154	`}`
		155	`}`
		156	`else {`
		157	`$nb_mono = 0;`
		158	`if ($c == ' ' OR $prev_c == ' ') {`
		159	`$this->flag_brut = true;`
		160	`break;`
		161	`}`
		162	`}`
		163	`}`
		164	`$extrait .= $prev_s;`
		165	`if (!$this->flag_mono && !$this->flag_brut) break;`
		166	`}`
		167	`return $extrait;`
		168	`}`
		169
		170	`function extraire_texte($fichier) {`
		171
		172	`$source_len = 1024*1024;`
		173	`$stream_len = 20*1024;`
		174	`$texte_len = 40*1024;`
		175
		176	`$f = fopen($fichier, "rb");`
		177	`if (!$f) die ("Fichier $fichier impossible a ouvrir");`
		178
		179	`$in_stream = false;`
		180
		181	`// Decouper le fichier en objets`
		182	`unset($objs);`
		183	`$objs = fread($f, $source_len);`
		184	`$objs = preg_split('/[\s>]endobj\s+/', $objs);`
		185	`# echo "<h3>".count($objs)." objets présents dans le buffer</h3>";`
		186
		187	`// Parcourir le fichier pour trouver les streams`
		188	`reset($objs);`
		189	`$n = count($objs);`
		190	`for ($i = 0; $i < $n; $i++) {`
		191	`$obj = $objs[$i];`
		192
		193	`if (!$in_stream) {`
		194	`// Stream (eviter les commentaires)`
		195	`$ok = preg_match("/stream(\r\n?\|\n)/", $obj); // version rapide d'abord`
		196	`if ($ok) $ok = preg_match("/[\r\n](([^\r\n%][ \t>])stream(\r\n?\|\n))/", $obj, $regs);`
		197	`if (!$ok) continue;`
		198	`$p = strpos($obj, $regs[1]);`
		199	`$t = substr($obj, $p + strlen($regs[1]));`
		200	`$stream = "";`
		201	`$in_stream = true;`
		202
		203	`$obj_text = substr($obj, 0, $p + strlen($regs[1]));`
		204
		205	`// Parasites avant et apres`
		206	`//$obj_text = preg_replace("/^\s+obj\s+/", "", $obj_text);`
		207	`//$obj_text = preg_replace("/(\s+endobj)\s+.*$/", "\\1", $obj_text);`
		208
		209	`// Commentaires`
		210	`$obj_text = preg_replace("/\\\\%/", ' ', $obj_text);`
		211	`$obj_text = preg_replace("/%[^\r\n]*[\r\n]+/", '', $obj_text);`
		212
		213	`// Dictionnaire`
		214	`$obj_dict = "";`
		215	`//if (ereg("<<(.*)>>", $obj_text, $regs))`
		216	`if (preg_match("/<<(.*)>>/s", $obj_text, $regs)) // bug ?!`
		217	`$obj_dict = $regs[1];`
		218
		219	`# echo "<hr>";`
		220	`# echo "Objet numéro $i<p>";`
		221	`# echo "<pre>".htmlspecialchars($obj_text)."</pre>";`
		222	`}`
		223	`else {`
		224	`$t = " endobj ".$obj; // approximation`
		225	`}`
		226	`unset($obj);`
		227
		228	`// Recoller les morceaux du stream (au cas ou un "obj" se trouvait en clair dans un stream)`
		229	`if ($in_stream) {`
		230	`if (!($p = strpos($t, "endstream")) && !($q = strpos($t, "endobj"))) {`
		231	`$stream .= $t;`
		232	`# echo "<font color='red'>Stream continué</font><p>";`
		233	`continue;`
		234	`}`
		235	`$in_stream = false;`
		236	`if ($p) $stream .= substr($t, 0, $p);`
		237	`else $stream .= substr($t, 0, $q);`
		238	`unset($t);`
		239
		240	`// Decoder le contenu du stream`
		241	`$encoding = '';`
		242	`if (preg_match(",/Filter\s*/([A-Za-z]+),", $obj_dict, $regs))`
		243	`$encoding = $regs[1];`
		244	`switch($encoding) {`
		245	`case 'FlateDecode':`
		246	`$stream = gzuncompress($stream); // pb avec certains PDFs !?`
		247	`break;`
		248	`case '':`
		249	`break;`
		250	`default:`
		251	`$stream = '';`
		252	`}`
		253	`/*if (preg_match("/$d.marrage:$/", $stream, $regs)) {`
		254	`$fs = fopen("demarrage.txt", "w");`
		255	`fwrite($fs, $regs[0]);`
		256	`fclose($fs);`
		257	`exit;`
		258	`}*/`
		259	`}`
		260
		261	`if (!$stream) continue;`
		262
		263	`# echo "Stream : ".strlen($stream)." octets<p>";`
		264
		265	`// Eviter les fontes embarquees, etc.`
		266	`if (preg_match(',^%!,', $stream)) {`
		267	`unset($stream);`
		268	`continue;`
		269	`}`
		270	`// Detection texte / binaire`
		271	`$stream = substr($stream, 0, $stream_len);`
		272	`$stream = str_replace('\\(', ",", $stream);`
		273	`$stream = str_replace('\\)', ",", $stream);`
		274	`$n1 = substr_count($stream, '(');`
		275	`$n2 = substr_count($stream, ')');`
		276	`$freq = (substr_count($stream, ' ') + $n1 + $n2) / strlen($stream);`
		277	`if ($freq < 0.04 \|\| (!$n1 && !$n2)) {`
		278	`# echo "no text (1)<p>";`
		279	`//echo htmlspecialchars($stream);`
		280	`unset($stream);`
		281	`continue;`
		282	`}`
		283	`$dev = abs($n1 - $n2) / ($n1 + $n2);`
		284	`if ($dev > 0.05) {`
		285	`# echo "no text (2)<p>";`
		286	`unset($stream);`
		287	`continue;`
		288	`}`
		289	`// Extraction des chaines`
		290	`if (strpos($stream, '<<') && strpos($stream, '>>'))`
		291	`$stream = preg_replace(',<<.*?'.'>>,s', '', $stream); // bug avec preg`
		292	`$stream = substr($stream, strpos($stream, '(') + 1);`
		293	`$stream = substr($stream, 0, strrpos($stream, ')')); // ici un bug occasionnel...`
		294	`$stream = $this->convertir_caracteres($stream);`
		295	`$extrait = $this->recoller_texte($stream);`
		296	`unset($stream);`
		297	`$texte .= $extrait;`
		298
		299	`// Se limiter a une certaine taille de texte en sortie`
		300	`if (strlen($texte) > $texte_len) {`
		301	`$texte = substr($texte, 0, strrpos(substr($texte, 0, $texte_len), ' '));`
		302	`break;`
		303	`}`
		304	`}`
		305
		306	`fclose($f);`
		307
		308	`return $texte;`
		309	`}`
		310
		311	`} // class`
		312
		313
		314	`?>`

Subversion Repositories Sites.tela-botanica.org

(root)/trunk/actu/extract_pdf.php @ 711 – Rev