textos en documento postscript scaneados...
Victor Hugo dos Santos
victorhugops en infolandserena.cl
Jue Abr 1 15:27:52 CLT 2004
Historiadores creen que en la fecha Fri, 19 Mar 2004 16:34:12 -0400
<JLAGOS en mercurio.cl> escribio:
>> Hola.
>>
>> Me parece que al escasearlos las páginas las tienes como imagen. Ósea tu postscript en vez de tener el texto adentro solo tiene una imagen.
>>
>> Para recuperar el texto tendrías que aplicar un programa de OCR.
mmm... despues de probar varios programas OCR (clara, ocre, gocr, kognition, Pattern-lab), resulto que:
1 - Son pocos los softwares existentes.
2 - Los softwares que funcionan en consola (ocre, gocr)
2.1 - reconocen unos 30% de las palabras correctamente...
2.1 - Unos 55% de las palabras, lo reconoce bien, mas con espacio (1,2,3 y hasta 6) entre medios, quedando mas o menos asi:
Texto OCR : es t a e s un a l in e a , donde s e tie _ e v a rias pala b_as.
Texto Normal: esta es una linea, donde se tiene varias palabras.
3 - Los front-end para estes aplicativos, arreglan el problema del iten # 2.1....
Con algun mecanismo que se basa en un dicionario, o manualmente por el usuario...
Llegando hasta a unos 80% de reconocimento correcto...
No tuvo mucha influencia la calidad de la image.... realize las pruebas con imagens a 150/300/600 dpi y las diferencia fue minima ( <2% ) entre 150 dpi y 600 dpi.
El scanner Canon D646U (que fue el utilizado), no era de muy buena cualidad esto, segun estuve leeyendo en alguna parte.. ...
Por ultimo, en orden yo recomendaria
X: clara, pattern-lab, kognition
consola: gocr, ocre
Bien, esto era.. Bye
=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
Victor Hugo dos Santos
Linux Counter #224399
La Serena - IV Región - Chile
Más información sobre la lista de distribución Linux