Scanner y OCR

José Miguel Vidal Lavin jmvidal en sertotal.cl
Mar Oct 14 14:52:40 CLST 2008


On Tue, 14 Oct 2008 12:45:54 -0400, Asdtaker wrote
> 2008/10/1 linux <linux en sertotal.cl>
> 
> > Señores
> >
> >   Necesito crear una rutina que scannee una serie de documentos que serán
> > publicados por web, para ese tema debemos poner como nombre de la imagen un
> > valor que se encuentra en cierta coordenada del documento, debemos generar
> > una
> > rutina que lea esa coordenada y que haga un proceso de OCR y nos de con el
> > mayor grado de exactitud posible el valor capturado.
> >
> >   La pregunta es, que es lo mas recomendable, librerías, software libre  y
> > experiencias sobre ese tema para este desarrollo.
> >
> >  Obviamente estoy en proceso de busqueda de información y pruebas, he
> > utilizado algunas clases de php5 pero son muy básicas ya que hay que estar
> > enseñando a la librería para que reconozca caracteres.
> 
> Has visto esto [1]? Existen unos scanner que son bastante rápidos, 
> una pps o más incluso (mantienen esa velocidad aun escaneando por 
> ambos lados). Podrías escanear por volumen y luego que una rutina te 
> cambie los nombres de las imagenes en forma masiva.
> 
> [1] http://code.google.com/p/pytesser/
> 

si los he visto, en si tenemos un scanner fujitsu fi-6140 que escanea a 80 pag
por minuto a 250 dpi, justo la resolucion que necesito, pude hacer toda la
rutina con las siguientes herramientas:

- scanadf para manipular el scanner
- convert para girar la imagen 180º
- mogrify para transformar la imagen a .tif
- tesseract para realizar OCR a la imagen
- bash + php para parsear el texto extraido y sacar el dato que necesitaba (rut)

tengo un acierto del 90% a 100% en tandas de scaneo de 50 unidades, creo que
es muy buen resultado y todo con software libre.

TODO: que hacer un front end en glade+gtk para que sea mas profesional el tema

alguna recomendacion a lo ya realizado?

saludos

> >
> >
> > Saludos
> >
> > --
> > Jose Miguel Vidal Lavin
> > Sub Gerencia de Informática
> > Cobranzas y Servicios Afines Limitada
> > www.sertotal.cl
> > info en sertotal.cl
> > 02-6764610
> > Santiago
> > -------------------------------------
> >
> >
> 
> -- 
> Saludos, LSM.
> Existen 10 tipos de personas:
> los que entienden binarios y los que no


--
José Miguel Vidal Lavin



Más información sobre la lista de distribución Linux