textos en documento postscript scaneados...

Victor Hugo dos Santos victorhugops en infolandserena.cl
Jue Abr 1 15:27:52 CLT 2004


Historiadores creen que en la fecha Fri, 19 Mar 2004 16:34:12 -0400
<JLAGOS en mercurio.cl> escribio:

>> Hola.
>> 
>> Me parece que al escasearlos las páginas las tienes como imagen. Ósea tu postscript en vez de tener el texto adentro solo tiene una imagen.
>> 
>> Para recuperar el texto tendrías que aplicar un programa de OCR.

mmm... despues de probar varios programas OCR (clara, ocre, gocr, kognition, Pattern-lab), resulto que:

1 - Son pocos los softwares existentes.
2 - Los softwares que funcionan en consola (ocre, gocr)
	2.1 - reconocen unos 30% de las palabras correctamente... 
	2.1 - Unos 55% de las palabras, lo reconoce bien, mas con espacio (1,2,3 y hasta 6) entre medios, quedando mas o menos asi:
			Texto OCR	:	 es t  a   e s   un a  l   in e a , donde s e tie  _ e v a rias  pala b_as.
			Texto Normal: 		 esta es una linea, donde se tiene varias palabras.

3 - Los front-end para estes aplicativos, arreglan el problema del iten # 2.1....  
Con algun mecanismo que se basa en un dicionario, o manualmente por el usuario...  
Llegando hasta a unos 80% de reconocimento correcto...

No tuvo mucha influencia la calidad de la image.... realize las pruebas con imagens a 150/300/600 dpi  y las diferencia fue minima ( <2% ) entre 150 dpi y 600 dpi.

El scanner Canon D646U (que fue el utilizado), no era de muy buena cualidad esto, segun estuve leeyendo en alguna parte.. ... 

Por ultimo, en orden yo recomendaria

X:  clara, pattern-lab, kognition
consola:  gocr, ocre

Bien, esto era..  Bye

=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
Victor Hugo dos Santos
Linux Counter #224399
La Serena - IV Región - Chile



Más información sobre la lista de distribución Linux