Re: partición en el storage se cambia de RW a RO (largo - para variar)

Victor Hugo dos Santos listas.vhs en gmail.com
Mar Ago 3 12:21:39 CLT 2010


2010/8/2 Alvaro Herrera <alvherre en alvh.no-ip.org>:
> Excerpts from Victor Hugo dos Santos's message of lun ago 02 17:49:09 -0400 2010:
>> Hola a todos, como vamo ???
>>
>> tengo un problema que ha estado dejando loco los tecnicos de
>> DELL/EMC/RedHat por mas de 2 meses.
>> el ambiente:
>>
>> Servidor DELL PE6950 con RedHat 4.8 conectado "directamente" con dos
>> controladoras HBA a un storage EMC AX150 que tiene como función ser el
>> standby de un otro servidor "idéntico" que se encuentra en producción.
>
> ¿Has reconstruido el filesystem desde 0, o has seguido siempre con el
> mismo?  Por ej. se me ocurre que puede ser que un bug de algún kernel o
> del firmware haya dejado el filesystem en un estado inconsistente que
> vuelve loco a todo lo que hay por encima y que no se puede reparar por
> medios normales.

mmm... luego después de la perdida de la estructura del filesystem..
hicimos borrón y cuenta nueva:

- creamos las particiones
fdisk /dev/sdb

- luego los volúmenes
pvcreate
vgcreate
lvcreate

- y finalmente formateamos
mkfs.ext3 -T largefile4 /dev/VG_AX150/oradata
mkfs.ext3  /dev/VG_AX150/oraappl

entonces, se procedio a sincronizar los datos desde el servidor
principal hacia este que esta con problemas y "funcionaba bien hasta
que fallo" algunas horas despues de estar operando !!! :D


también había leído por la net que había una versión del kernel que
hacia que el filesystem se cambiaba a modo solo-lectura en RedHat,
creo que era este bug
https://bugzilla.redhat.com/show_bug.cgi?id=476533
infelizmente no me permite ver el bug relacionado
(https://bugzilla.redhat.com/show_bug.cgi?id=460179)

pero ahora, que estaba buscando este bug/enlace para enviar a vos.. me
encontré con este otro bug
https://bugzilla.redhat.com/show_bug.cgi?id=494927

que afecta en principio a kernels de la rama 2.6.18-128  (el nuestro
es 2.6.9-89.0.15.ELsmp)..
pero lo que hay de interesante en este bug son los comentarios:

#12 - reporta el problema en el mismo kernel que el nuestro.
#24 - donde comenta que el problema ocurre con una controladora PERC6
(nosotros tenemos una PERC5) cuando se utiliza RMAN para hacer
restauraciones y se obtiene harto I/O !!!
#35 - acá menciona que luego de cambiar la controladora PERC6, el
problema desapareció !!!

y ahora encontré una otra herramienta interesante en el mismo reporte
de bug, que es "fsstress" !!!
una vez que DELL indique que esta OK.. ya se como realizar mejores pruebas !!!

salu2, atento y gracias

-- 
--
Victor Hugo dos Santos
Linux Counter #224399


Más información sobre la lista de distribución Linux