Busqueda en texto
Cristian Gutierrez
crgutier en dcc.uchile.cl
Mie Nov 3 02:39:06 CLST 2004
Ayer en la noche, Alejandro Barros dijo:
> Sen~ores,
Señor!
> Estoy buscando alguna herramienta para indexar (keywords) un archivo de texto
> (cada registro tiene dos campos número de registro y texto) y luego realizar
> búsquedas eficientes en el, alguna recomendación?
Aun un poco amplia la pregunta. Algunas posibilidades no del todo
descartables:
* Usar un indexador de "texto completo", como namazu, swish (hay swish++
y swish-e), glimpse, etc. Esto no considera la estructura que tengas
en el archivo, "todo vale" (aunque puedes deberias poder especificar
que es un stopword y que no). Alguno de esos trae (o existe para el)
una fachada WWW.
* Escribir un scripticillo (en Perl o lo que sea) que te genere un
indice invertido con entradas del tipo
<token> <archivo:linea> <archivo:linea> ...
y escribir otro scripticillo para consultar (o hacerlo a punta de
grep's...).
* Usar `ctags' para generar el indice anterior (--language=none, y dar
una regexp para el caso).
* Meterlo todo a una BD, agregar indices, y hacer las consultas en
SQL. Supongo que no es ni 1/2 optimo si los textos tienen cierto
largo, pero vale la pena considerarlo si las busquedas son solo por
prefijos de largo definido (por ejemplo).
Ojala te sirva alguna idea. Yo probaria con la primera :)
Saludos,
--
Cristian Gutierrez http://www.dcc.uchile.cl/~crgutier
crgutier[@]dcc.uchile.cl Jabber:crgutier en jabber.org
I'd rather write programs to write programs than write programs.
-- Dick Sites, Digital Equipment Corporation
Más información sobre la lista de distribución Linux