EDAC mensajes de alerta

Victor Hugo dos Santos listas.vhs en gmail.com
Jue Jul 10 09:58:16 CLT 2008


Estimados,

hace unas 2  semanas se mostraba en los logs algunas lineas sobre "EDAC e752x"..
busque en google y "aparentemente" era algo referente a la memoria...
reinicie el servidor y ejecute memtest durante unas 18 horas y no
presento ninguna variación/error.

hoy, revisando los logs, me encuentro con las mismas lineas en los registros:

=========================
Jul 10 08:59:22 bacula kernel: [828050.517836] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:22 bacula kernel: [828050.517844] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:22 bacula kernel: [828050.517849] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:22 bacula kernel: [828050.517855] EDAC e752x: Test computed row 8
Jul 10 08:59:22 bacula kernel: [828050.517857] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:22 bacula kernel: [828050.517863] EDAC MC0: CE page
0x3272, offset 0xd40, grain 0, syndrome 0x400, row 1, channel 1, label
"": e752x CE
Jul 10 08:59:22 bacula kernel: [828050.517868] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:22 bacula kernel: [828050.517871] EDAC e752x: Test computed row 8
Jul 10 08:59:22 bacula kernel: [828050.517876] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:22 bacula kernel: [828050.517880] EDAC MC0: CE page
0x3272, offset 0xd40, grain 0, syndrome 0x500, row 1, channel 1, label
"": e752x CE
Jul 10 08:59:45 bacula kernel: [828073.499505] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:45 bacula kernel: [828073.499513] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:45 bacula kernel: [828073.499519] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:45 bacula kernel: [828073.499524] EDAC e752x: Test computed row 8
Jul 10 08:59:45 bacula kernel: [828073.499527] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:45 bacula kernel: [828073.499533] EDAC MC0: CE page
0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1,
label "": e752x CE
Jul 10 08:59:45 bacula kernel: [828073.499538] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:45 bacula kernel: [828073.499541] EDAC e752x: Test computed row 8
Jul 10 08:59:45 bacula kernel: [828073.499545] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:45 bacula kernel: [828073.499549] EDAC MC0: CE page
0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1,
label "": e752x CE
=========================

mmmm... alguna idea ??? la parte del "Non-Fatal" me tranquiliza un
poco, pero no me gusta para nada que aparezcan estes mensajes asi de
la nada.

el servidor es un SuperMicro (SUPER SERVER SYS-7044H-TRB 4U) con 8G de
RAM y este es el estado actual:

=========================
$ free
             total       used       free     shared    buffers     cached
Mem:       8311148    8018752     292396          0      64544    7779780
-/+ buffers/cache:     174428    8136720
Swap:      1048568        360    1048208

=========================
top - 09:27:21 up 9 days, 14:44,  2 users,  load average: 0.00, 0.01, 0.00
Tasks:  72 total,   1 running,  71 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.2%sy,  0.0%ni, 99.8%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8311148k total,  8018776k used,   292372k free,    64524k buffers
Swap:  1048568k total,      360k used,  1048208k free,  7779776k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
 4862 postgres  20   0 38760  25m  25m S    0  0.3   0:30.05 postgres:
writer process
  505 root      20   0 11136 4696 2932 S    0  0.1   0:00.14 sshd:
victor [priv]
 3825 root      20   0 11136 4696 2932 S    0  0.1   0:00.14 sshd:
victor [priv]
 4859 postgres  20   0 38632 4496 3964 S    0  0.1   0:03.06
/usr/lib/postgresql/8.2/bin/postgres -D /var/lib/postgresql/8.2/main
-c config_file=/etc/postgr
 5006 bacula    20   0 51784 4436 2680 S    0  0.1   1:07.06
/usr/sbin/bacula-dir -c /etc/bacula/bacula-dir.conf -u bacula -g
bacula
 4879 snmp      20   0  8788 4124 2440 S    0  0.0   2:06.51
/usr/sbin/snmpd -Lsd -Lf /dev/null -u snmp -I -smux -p
/var/run/snmpd.pid 0.0.0.0
 4744 root      20   0  109m 3548 1820 S    0  0.0   0:01.64 /usr/sbin/nscd
[...]

=========================
$ uname -a
Linux bacula 2.6.24-18-server #1 SMP Wed May 28 21:25:52 UTC 2008 i686 GNU/Linux

=========================

y el sistema tiene todos los parches al dia .. bueno.. bueno.. hoy
acabo de instalar la version 2.6.24.19 del kernel !!!
pero estuve mirando los cambios de versión y ninguno hace referencia a
memoria o algo relacioando !!!

en este enlace, hay un problema semejante y aparentemente con la misma
configuracion que tengo..
http://readlist.com/lists/vger.kernel.org/linux-kernel/56/282465.html
pero no hay respuestas.. y en mi caso (como no uso swap) no se reinicia !!! ;-)

la distro es ubuntu-server y en la maquina (como se muestra en la
salida de top) correr simplemente bacula (director+storage) + postgres
y unas cositas mas basicas (snmp, ssh, etc,etc).
la maquina tiene sus anos.. pero lleva operando bien hace mucho tiempo !!!!

En la dirección
http://fcp.surfsite.org/modules/smartfaq/faq.php?faqid=2721, se
muestra algunas recomendaciones para deshabilitar el log.. pero sera
sano ?? debo de preocuparme ???

mmm.. que se puede hacer ???

salu2 a todos.

-- 
-- 
Victor Hugo dos Santos
Linux Counter #224399



Más información sobre la lista de distribución Linux