Busqueda en texto

Cristian Gutierrez crgutier en dcc.uchile.cl
Mie Nov 3 02:39:06 CLST 2004


Ayer en la noche, Alejandro Barros dijo:
> Sen~ores,

Señor!

> Estoy buscando alguna herramienta para indexar (keywords) un archivo de texto
> (cada registro tiene dos campos número de registro y texto) y luego realizar
> búsquedas eficientes en el, alguna recomendación?

Aun un poco amplia la pregunta. Algunas posibilidades no del todo
descartables:

* Usar un indexador de "texto completo", como namazu, swish (hay swish++
  y swish-e), glimpse, etc. Esto no considera la estructura que tengas
  en el archivo, "todo vale" (aunque puedes deberias poder especificar
  que es un stopword y que no). Alguno de esos trae (o existe para el)
  una fachada WWW.

* Escribir un scripticillo (en Perl o lo que sea) que te genere un
  indice invertido con entradas del tipo

    <token> <archivo:linea> <archivo:linea> ...

  y escribir otro scripticillo para consultar (o hacerlo a punta de
  grep's...).

* Usar `ctags' para generar el indice anterior (--language=none, y dar
  una regexp para el caso).

* Meterlo todo a una BD, agregar indices, y hacer las consultas en
  SQL. Supongo que no es ni 1/2 optimo si los textos tienen cierto
  largo, pero vale la pena considerarlo si las busquedas son solo por
  prefijos de largo definido (por ejemplo).

Ojala te sirva alguna idea. Yo probaria con la primera :)

Saludos,

-- 
Cristian Gutierrez			http://www.dcc.uchile.cl/~crgutier
crgutier[@]dcc.uchile.cl                        Jabber:crgutier en jabber.org

I'd rather write programs to write programs than write programs.
-- Dick  Sites, Digital Equipment Corporation




Más información sobre la lista de distribución Linux