EDAC mensajes de alerta

Christian Montero Hernández cmontero_cl en yahoo.com
Jue Jul 10 11:05:29 CLT 2008


----- Mensaje original ----

De: Victor Hugo dos Santos <listas.vhs en gmail.com>
Para: Discusion de Linux en Castellano <linux en listas.inf.utfsm.cl>
Enviado: jueves, 10 de julio, 2008 9:58:16
Asunto: EDAC mensajes de alerta

Estimados,

hace unas 2  semanas se mostraba en los logs algunas lineas sobre "EDAC e752x"..
busque en google y "aparentemente" era algo referente a la memoria...
reinicie el servidor y ejecute memtest durante unas 18 horas y no
presento ninguna variación/error.

hoy, revisando los logs, me encuentro con las mismas lineas en los registros:

=========================
Jul 10 08:59:22 bacula kernel: [828050.517836] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:22 bacula kernel: [828050.517844] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:22 bacula kernel: [828050.517849] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:22 bacula kernel: [828050.517855] EDAC e752x: Test computed row 8
Jul 10 08:59:22 bacula kernel: [828050.517857] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:22 bacula kernel: [828050.517863] EDAC MC0: CE page
0x3272, offset 0xd40, grain 0, syndrome 0x400, row 1, channel 1, label
"": e752x CE
Jul 10 08:59:22 bacula kernel: [828050.517868] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:22 bacula kernel: [828050.517871] EDAC e752x: Test computed row 8
Jul 10 08:59:22 bacula kernel: [828050.517876] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:22 bacula kernel: [828050.517880] EDAC MC0: CE page
0x3272, offset 0xd40, grain 0, syndrome 0x500, row 1, channel 1, label
"": e752x CE
Jul 10 08:59:45 bacula kernel: [828073.499505] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:45 bacula kernel: [828073.499513] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:45 bacula kernel: [828073.499519] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:45 bacula kernel: [828073.499524] EDAC e752x: Test computed row 8
Jul 10 08:59:45 bacula kernel: [828073.499527] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:45 bacula kernel: [828073.499533] EDAC MC0: CE page
0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1,
label "": e752x CE
Jul 10 08:59:45 bacula kernel: [828073.499538] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:45 bacula kernel: [828073.499541] EDAC e752x: Test computed row 8
Jul 10 08:59:45 bacula kernel: [828073.499545] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:45 bacula kernel: [828073.499549] EDAC MC0: CE page
0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1,
label "": e752x CE
=========================

mmmm... alguna idea ??? la parte del "Non-Fatal" me tranquiliza un
poco, pero no me gusta para nada que aparezcan estes mensajes asi de
la nada.

el servidor es un SuperMicro (SUPER SERVER SYS-7044H-TRB 4U) con 8G de
RAM y este es el estado actual:

=========================
$ free
             total       used       free     shared    buffers     cached
Mem:       8311148    8018752     292396          0      64544    7779780
-/+ buffers/cache:     174428    8136720
Swap:      1048568        360    1048208

=========================
top - 09:27:21 up 9 days, 14:44,  2 users,  load average: 0.00, 0.01, 0.00
Tasks:  72 total,   1 running,  71 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.2%sy,  0.0%ni, 99.8%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8311148k total,  8018776k used,   292372k free,    64524k buffers
Swap:  1048568k total,      360k used,  1048208k free,  7779776k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
4862 postgres  20   0 38760  25m  25m S    0  0.3   0:30.05 postgres:
writer process
  505 root      20   0 11136 4696 2932 S    0  0.1   0:00.14 sshd:
victor [priv]
3825 root      20   0 11136 4696 2932 S    0  0.1   0:00.14 sshd:
victor [priv]
4859 postgres  20   0 38632 4496 3964 S    0  0.1   0:03.06
/usr/lib/postgresql/8.2/bin/postgres -D /var/lib/postgresql/8.2/main
-c config_file=/etc/postgr
5006 bacula    20   0 51784 4436 2680 S    0  0.1   1:07.06
/usr/sbin/bacula-dir -c /etc/bacula/bacula-dir.conf -u bacula -g
bacula
4879 snmp      20   0  8788 4124 2440 S    0  0.0   2:06.51
/usr/sbin/snmpd -Lsd -Lf /dev/null -u snmp -I -smux -p
/var/run/snmpd.pid 0.0.0.0
4744 root      20   0  109m 3548 1820 S    0  0.0   0:01.64 /usr/sbin/nscd
[...]

=========================
$ uname -a
Linux bacula 2.6.24-18-server #1 SMP Wed May 28 21:25:52 UTC 2008 i686 GNU/Linux

=========================

y el sistema tiene todos los parches al dia .. bueno.. bueno.. hoy
acabo de instalar la version 2.6.24.19 del kernel !!!
pero estuve mirando los cambios de versión y ninguno hace referencia a
memoria o algo relacioando !!!
--------------

Estimado 

No soy muy entendido en estos temas de hardware, pero de lo que haz puesto me parece que el error se esta dando a nivel de verificacion de paridad en las memorias.
que tipo de test hiciste? se verifico o es posible que el test haga chequeo de paridad y de correccion de errores?
Como comente no soy muy entendido en estos temas, pero entre todos algo podremos sacar de esto, no?

Saludos


 Christian Montero H.
Red Hat Certified Engineer (RHCE) 805008759430301

__________________________________________________
Correo Yahoo!
Espacio para todos tus mensajes, antivirus y antispam ¡gratis! 
Regístrate ya - http://correo.espanol.yahoo.com/ 



Más información sobre la lista de distribución Linux