partición en el storage se cambia de RW a RO (largo - para variar)

Victor Hugo dos Santos listas.vhs en gmail.com
Lun Ago 2 17:49:09 CLT 2010


Hola a todos, como vamo ???

tengo un problema que ha estado dejando loco los tecnicos de
DELL/EMC/RedHat por mas de 2 meses.
el ambiente:

Servidor DELL PE6950 con RedHat 4.8 conectado "directamente" con dos
controladoras HBA a un storage EMC AX150 que tiene como función ser el
standby de un otro servidor "idéntico" que se encuentra en producción.

Problema:

Hace 2 meses, la BD reporto problemas de escrituras en el disco. Al
revisar el servidor, se encontró los siguientes logs:

============================================
Jul  6 19:13:34 masou kernel: attempt to access beyond end of device
Jul  6 19:13:34 masou kernel: dm-6: rw=0, want=7016163992, limit=83886080
Jul  6 19:13:34 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 877020498,
count = 1
Jul  6 19:13:34 masou kernel: Aborting journal on device dm-6.
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6) in
ext3_free_blocks_sb: Journal has aborted
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 1296237605,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 3238156357,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 1111884837,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 3254998096,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 3271833858,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 204671517,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 877020498,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 774905904,
count = 1
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_free_blocks: Freeing blocks not in datazone - block = 808726064,
count = 1
Jul  6 19:13:37 masou kernel: ext3_abort called.
Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
ext3_journal_start_sb: Detected aborted journal
Jul  6 19:13:37 masou kernel: Remounting filesystem read-only

[....]

Jul  7 05:00:02 masou kernel: EXT3-fs error (device dm-7):
ext3_readdir: bad entry in directory #38109186: rec_len is smaller
than minimal - offset=0, inode=0, rec_len=0, name_len=0
Jul  7 05:00:02 masou kernel: Aborting journal on device dm-7.
Jul  7 05:00:02 masou kernel: ext3_abort called.
Jul  7 05:00:02 masou kernel: EXT3-fs error (device dm-7):
ext3_journal_start_sb: Detected aborted journal
Jul  7 05:00:02 masou kernel: Remounting filesystem read-only
============================================

que mostraba que la particion habia cambiaod desde "lectura-escritura"
a modo "solo-lectura" y al ejecutar el comando "scli" para obtener un
diagnostico de las controladoras qlogic (que al final provoco una
nueva caída del sistema, dejando inaccesible los datos en la AX150),
obtuvimos estes logs:

========================
Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): entered
Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): exiting - ind=651, status=1.
Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): entered
Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): exiting - ind=1024, status=0.
Jun 10 10:57:23 masou udevd[1782]: udev done!
========================

a principio, al reiniciar el servidor se volvía la partición a modo RW
y se podía trabajar en el servidor..
en los siguientes eventos (después de los reinicio brusco), era
necesario ejecutar el e2fsck
y finalmente (las dos ultimas veces), se elimina las particiones que
existían luego del fallo y reinicio !!! :-(

El servidor/storage están completamente actualizado (firmwares)...
El SO (Redhat) se encuentra en la version 4.8 y existen algunas
actualizaciones pendientes !!! pero tenemos otros 3
servidores/storages con las "mismas, mismissimas" versiones de
firmware, SO, discos, memorias, etc, etc.. y solo en este se presenta
el problema.

Nota.2: Tenemos 4 servidores/storages idénticos, por que cuanto
armaron el sistema, la idea era que 2 serian para producción y 2 para
standby !!! y cuando aplicamos cambios en uno (SO, firmware, BD, etc,
etc)... se replica en los demás !!!


Bueno... Lógicamente esto es molesto y costoso para nosotros y mismo
teniendo soporte "gold" con DELL aun no logran encontrar el problema
(pasado 2 meses) !!!
Los de Dell, ejecutaron varios diagnósticos sin resultados negativos y
hicieron varios cambios en las configuraciones y enviaron una controla
HBA y después un cable de fibra como reemplazo (mismo sin detectar el
origen del problema)... pero el problema continua !!!

por acá, ya he probado la memoria (memtest) y disco (badblock).. pesar
que estas maquinas tiene un sistema que "teóricamente" detectan fallos
en el hardware.

el mas cercano que encontré en algún momento fue este link:
http://solutions.qlogic.com/KanisaSupportSite/viewthread.do?kcId=Post-195178042
que los de DELL rechazaron completamente !!!


Asi, que ahora les pregunto a alguno de ustedes se tienen alguna idea
de donde puede estar el problema

las controladoras HBA es una: "QLogic Corp. ISP2432-based 4Gb Fibre
Channel to PCI Express HBA (rev 03)"
los modulos cargados son:
=================
lsmod  | egrep '(scsi|qla)'
ide_scsi               20425  0 [permanent]
qla2400               232769  0
qla2xxx               196385  3 qla2400
scsi_transport_fc      12097  1 qla2xxx
mptscsih                2625  0
mptsas                 26977  1 mptscsih
mptspi                 13521  1 mptscsih
mptscsi                50513  2 mptsas,mptspi
mptbase                78625  4 mptctl,mptsas,mptspi,mptscsi
scsi_mod              145297  13
sr_mod,ide_scsi,emcp,libata,sg,qla2xxx,scsi_transport_fc,megaraid_mbox,mptsas,mptspi,mptscsi,megaraid_sas,sd_mod
=================

el kernel actual es:  2.6.9-89.0.15.ELsmp #1 SMP Sat Oct 10 05:55:45
EDT 2009 x86_64 x86_64 x86_64 GNU/Linux

salu2 y atento a comentarios





-- 
--
Victor Hugo dos Santos
Linux Counter #224399


Más información sobre la lista de distribución Linux