Busqueda en backups DVD

Dom Jul 27 23:43:58 CLT 2008

On Fri, 2008-07-25 at 19:57 -0400, Rodrigo Fuentealba wrote:
> El 25/07/08, Aldrin Martoq <amartoq en dcc.uchile.cl> escribió:
> > Necesito hacer un backup de varios gigas en varios DVD's y el problema
> > de siempre es encontrar si en un DVD's estan los archivos...
> Con un programa que te los parsee?
> > Me gustaria agregar una "simple" pagina HTML al inicio del DVD que tenga
> > el indice de todos los archivos
> Bacula? algun script usando sed, xargs, etc?
> > y mediante "ajax" pueda buscar
> > dinamicamente algun archivo o string (ej: si un .odt tiene la palabra
> > "pepe") dentro de el en particular.
> !!!
> 1.- AJAX (Asynchronous Javascript And Xml) tiene su gracia en
> Internet, que puedes recuperar datos desde un cliente a un servidor.
> No sé a qué le llamas "AJAX", si no tienes servidor XML...

Bueno, asincronismo javascript dhtml y todas esas cosas que el buzzword
resume en AJAX. Estoy seguro que se puede hacer algo como lo que pido,
multiplataforma (asincronismo javascript dhtml etc) y localmente. La
parte XML la quiero obviar! ;)

Aqui una prueba, que estoy estudiando como usar:
http://www.ecosmear.com/relay/

Parece que lo top en esto es Prototype y Script.aculo.us.

> 2.- Tener un índice de los archivos implicaría (ambas):
> 2.a.- Que tengas algo así como PostgreSQL embebido usando TSearch2
> 2.b.- Que tu backup sea de 2Gb + 2Gb de datos de la PostgreSQL + el resto.

> 3.- En el mejor de los casos, a medida que vas agregando archivos al
> respaldo, puedes ir generando un índice y antes de "Burn" agregar
> también este archivo;
> algo ilógico y difícil.

Es un indice de "palabras", no tienes que hacer scan del contenido.
Basicamente una lista de palabras y cada palabra tiene una lista de
archivos que contienen dicha palabra. Luego ante una busqueda haces un
scan sobre la lista de palabras y tienes todos los archivos. Es muy
eficiente, ya tengo una aplicacion pygtk que lo esta haciendo bastante
bien y rapido sobre 70.000 archivos, por ahora solo con los nombres de
archivo, falta programar que agregue mas palabras al indice escanenado
el contenido de los documentos, pero ya con lo que tengo es bastante.

No necesitas base de datos ni nada muy complejo, la busqueda no es tan
extensa y de todas formas hay que hacer un scan de todas las palabras
(recorrer todas las filas). A menos que busques de otra forma (similitud
de palabras por ejemplo?)

Tampoco tienes el problema de las actualizaciones del indice, pues lo
regeneras de nuevo; el indice no se actualizara en un DVD o respaldo.

> Juntando todo este razonamiento, que por lo demás me parece fuera de
> lógica, puedes generar un archivo XML con el índice de datos (aún así
> es difícil) y hacer un script con algo como libxml2 para parsear
> eso... o algo así.

> > La parte del indice es facil, la parte de buscar "en linea" es la que
> > ando buscando. Alguien conoce algun software para hacer esto?
> Siempre puedes cocinar algo con find, grep, sed, awk, xargs, locate;
> en una de esas te conviene hacerte utilidades que busquen en el disco
> entero y agregar esas utilidades a cada uno de los backups.

Ya he hecho eso, y a mi no me funciona... De hecho, no encuentro el
ultimo catalogo que hice de esta forma (a punta de find's y rotulado de
discos a manopla)

-- 
Aldrin Martoq <amartoq en dcc.uchile.cl>
http://aldrinvideopodcast.podshow.com/