Re: partición en el storage se cambia de RW a RO (largo - para variar)

Jorge Palma jpalmae en gmail.com
Lun Ago 2 21:44:57 CLT 2010


Preguntas

Ocupas Multipath ,  si es así, que software ?

Estas ocupando lvm, si es así manda un sosreport -a

Que drivers de Qlogic estas ocupando? Los del fabricante o los de redhat

Alguna opción para el Driver qlogic?

Eso se me ocurre para ver por ahora...zo

El 02/08/10, Victor Hugo dos Santos <listas.vhs en gmail.com> escribió:
> Hola a todos, como vamo ???
>
> tengo un problema que ha estado dejando loco los tecnicos de
> DELL/EMC/RedHat por mas de 2 meses.
> el ambiente:
>
> Servidor DELL PE6950 con RedHat 4.8 conectado "directamente" con dos
> controladoras HBA a un storage EMC AX150 que tiene como función ser el
> standby de un otro servidor "idéntico" que se encuentra en producción.
>
> Problema:
>
> Hace 2 meses, la BD reporto problemas de escrituras en el disco. Al
> revisar el servidor, se encontró los siguientes logs:
>
> ============================================
> Jul  6 19:13:34 masou kernel: attempt to access beyond end of device
> Jul  6 19:13:34 masou kernel: dm-6: rw=0, want=7016163992, limit=83886080
> Jul  6 19:13:34 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 877020498,
> count = 1
> Jul  6 19:13:34 masou kernel: Aborting journal on device dm-6.
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6) in
> ext3_free_blocks_sb: Journal has aborted
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 1296237605,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 3238156357,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 1111884837,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 3254998096,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 3271833858,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 204671517,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 877020498,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 774905904,
> count = 1
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_free_blocks: Freeing blocks not in datazone - block = 808726064,
> count = 1
> Jul  6 19:13:37 masou kernel: ext3_abort called.
> Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
> ext3_journal_start_sb: Detected aborted journal
> Jul  6 19:13:37 masou kernel: Remounting filesystem read-only
>
> [....]
>
> Jul  7 05:00:02 masou kernel: EXT3-fs error (device dm-7):
> ext3_readdir: bad entry in directory #38109186: rec_len is smaller
> than minimal - offset=0, inode=0, rec_len=0, name_len=0
> Jul  7 05:00:02 masou kernel: Aborting journal on device dm-7.
> Jul  7 05:00:02 masou kernel: ext3_abort called.
> Jul  7 05:00:02 masou kernel: EXT3-fs error (device dm-7):
> ext3_journal_start_sb: Detected aborted journal
> Jul  7 05:00:02 masou kernel: Remounting filesystem read-only
> ============================================
>
> que mostraba que la particion habia cambiaod desde "lectura-escritura"
> a modo "solo-lectura" y al ejecutar el comando "scli" para obtener un
> diagnostico de las controladoras qlogic (que al final provoco una
> nueva caída del sistema, dejando inaccesible los datos en la AX150),
> obtuvimos estes logs:
>
> ========================
> Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): entered
> Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): exiting - ind=651, status=1.
> Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): entered
> Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): exiting - ind=1024, status=0.
> Jun 10 10:57:23 masou udevd[1782]: udev done!
> ========================
>
> a principio, al reiniciar el servidor se volvía la partición a modo RW
> y se podía trabajar en el servidor..
> en los siguientes eventos (después de los reinicio brusco), era
> necesario ejecutar el e2fsck
> y finalmente (las dos ultimas veces), se elimina las particiones que
> existían luego del fallo y reinicio !!! :-(
>
> El servidor/storage están completamente actualizado (firmwares)...
> El SO (Redhat) se encuentra en la version 4.8 y existen algunas
> actualizaciones pendientes !!! pero tenemos otros 3
> servidores/storages con las "mismas, mismissimas" versiones de
> firmware, SO, discos, memorias, etc, etc.. y solo en este se presenta
> el problema.
>
> Nota.2: Tenemos 4 servidores/storages idénticos, por que cuanto
> armaron el sistema, la idea era que 2 serian para producción y 2 para
> standby !!! y cuando aplicamos cambios en uno (SO, firmware, BD, etc,
> etc)... se replica en los demás !!!
>
>
> Bueno... Lógicamente esto es molesto y costoso para nosotros y mismo
> teniendo soporte "gold" con DELL aun no logran encontrar el problema
> (pasado 2 meses) !!!
> Los de Dell, ejecutaron varios diagnósticos sin resultados negativos y
> hicieron varios cambios en las configuraciones y enviaron una controla
> HBA y después un cable de fibra como reemplazo (mismo sin detectar el
> origen del problema)... pero el problema continua !!!
>
> por acá, ya he probado la memoria (memtest) y disco (badblock).. pesar
> que estas maquinas tiene un sistema que "teóricamente" detectan fallos
> en el hardware.
>
> el mas cercano que encontré en algún momento fue este link:
> http://solutions.qlogic.com/KanisaSupportSite/viewthread.do?kcId=Post-195178042
> que los de DELL rechazaron completamente !!!
>
>
> Asi, que ahora les pregunto a alguno de ustedes se tienen alguna idea
> de donde puede estar el problema
>
> las controladoras HBA es una: "QLogic Corp. ISP2432-based 4Gb Fibre
> Channel to PCI Express HBA (rev 03)"
> los modulos cargados son:
> =================
> lsmod  | egrep '(scsi|qla)'
> ide_scsi               20425  0 [permanent]
> qla2400               232769  0
> qla2xxx               196385  3 qla2400
> scsi_transport_fc      12097  1 qla2xxx
> mptscsih                2625  0
> mptsas                 26977  1 mptscsih
> mptspi                 13521  1 mptscsih
> mptscsi                50513  2 mptsas,mptspi
> mptbase                78625  4 mptctl,mptsas,mptspi,mptscsi
> scsi_mod              145297  13
> sr_mod,ide_scsi,emcp,libata,sg,qla2xxx,scsi_transport_fc,megaraid_mbox,mptsas,mptspi,mptscsi,megaraid_sas,sd_mod
> =================
>
> el kernel actual es:  2.6.9-89.0.15.ELsmp #1 SMP Sat Oct 10 05:55:45
> EDT 2009 x86_64 x86_64 x86_64 GNU/Linux
>
> salu2 y atento a comentarios
>
>
>
>
>
> --
> --
> Victor Hugo dos Santos
> Linux Counter #224399
>


-- 
Jorge Palma Escobar
Ingeniero de Sistemas
Red Hat Linux Certified Engineer
Certificate Nº 804005089418233


Más información sobre la lista de distribución Linux