EDAC mensajes de alerta
Christian Montero Hernández
cmontero_cl en yahoo.com
Jue Jul 10 11:05:29 CLT 2008
----- Mensaje original ----
De: Victor Hugo dos Santos <listas.vhs en gmail.com>
Para: Discusion de Linux en Castellano <linux en listas.inf.utfsm.cl>
Enviado: jueves, 10 de julio, 2008 9:58:16
Asunto: EDAC mensajes de alerta
Estimados,
hace unas 2 semanas se mostraba en los logs algunas lineas sobre "EDAC e752x"..
busque en google y "aparentemente" era algo referente a la memoria...
reinicie el servidor y ejecute memtest durante unas 18 horas y no
presento ninguna variación/error.
hoy, revisando los logs, me encuentro con las mismas lineas en los registros:
=========================
Jul 10 08:59:22 bacula kernel: [828050.517836] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:22 bacula kernel: [828050.517844] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:22 bacula kernel: [828050.517849] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:22 bacula kernel: [828050.517855] EDAC e752x: Test computed row 8
Jul 10 08:59:22 bacula kernel: [828050.517857] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:22 bacula kernel: [828050.517863] EDAC MC0: CE page
0x3272, offset 0xd40, grain 0, syndrome 0x400, row 1, channel 1, label
"": e752x CE
Jul 10 08:59:22 bacula kernel: [828050.517868] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:22 bacula kernel: [828050.517871] EDAC e752x: Test computed row 8
Jul 10 08:59:22 bacula kernel: [828050.517876] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:22 bacula kernel: [828050.517880] EDAC MC0: CE page
0x3272, offset 0xd40, grain 0, syndrome 0x500, row 1, channel 1, label
"": e752x CE
Jul 10 08:59:45 bacula kernel: [828073.499505] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:45 bacula kernel: [828073.499513] EDAC e752x: Non-Fatal
Error DRAM Controler
Jul 10 08:59:45 bacula kernel: [828073.499519] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:45 bacula kernel: [828073.499524] EDAC e752x: Test computed row 8
Jul 10 08:59:45 bacula kernel: [828073.499527] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:45 bacula kernel: [828073.499533] EDAC MC0: CE page
0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1,
label "": e752x CE
Jul 10 08:59:45 bacula kernel: [828073.499538] EDAC e752x: Test row 1
Table 0 255 2 255 4 255 6 255
Jul 10 08:59:45 bacula kernel: [828073.499541] EDAC e752x: Test computed row 8
Jul 10 08:59:45 bacula kernel: [828073.499545] EDAC e752x MC0: row 1
not found in remap table
Jul 10 08:59:45 bacula kernel: [828073.499549] EDAC MC0: CE page
0x103f92, offset 0x100, grain 0, syndrome 0x500, row 1, channel 1,
label "": e752x CE
=========================
mmmm... alguna idea ??? la parte del "Non-Fatal" me tranquiliza un
poco, pero no me gusta para nada que aparezcan estes mensajes asi de
la nada.
el servidor es un SuperMicro (SUPER SERVER SYS-7044H-TRB 4U) con 8G de
RAM y este es el estado actual:
=========================
$ free
total used free shared buffers cached
Mem: 8311148 8018752 292396 0 64544 7779780
-/+ buffers/cache: 174428 8136720
Swap: 1048568 360 1048208
=========================
top - 09:27:21 up 9 days, 14:44, 2 users, load average: 0.00, 0.01, 0.00
Tasks: 72 total, 1 running, 71 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.2%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 8311148k total, 8018776k used, 292372k free, 64524k buffers
Swap: 1048568k total, 360k used, 1048208k free, 7779776k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
4862 postgres 20 0 38760 25m 25m S 0 0.3 0:30.05 postgres:
writer process
505 root 20 0 11136 4696 2932 S 0 0.1 0:00.14 sshd:
victor [priv]
3825 root 20 0 11136 4696 2932 S 0 0.1 0:00.14 sshd:
victor [priv]
4859 postgres 20 0 38632 4496 3964 S 0 0.1 0:03.06
/usr/lib/postgresql/8.2/bin/postgres -D /var/lib/postgresql/8.2/main
-c config_file=/etc/postgr
5006 bacula 20 0 51784 4436 2680 S 0 0.1 1:07.06
/usr/sbin/bacula-dir -c /etc/bacula/bacula-dir.conf -u bacula -g
bacula
4879 snmp 20 0 8788 4124 2440 S 0 0.0 2:06.51
/usr/sbin/snmpd -Lsd -Lf /dev/null -u snmp -I -smux -p
/var/run/snmpd.pid 0.0.0.0
4744 root 20 0 109m 3548 1820 S 0 0.0 0:01.64 /usr/sbin/nscd
[...]
=========================
$ uname -a
Linux bacula 2.6.24-18-server #1 SMP Wed May 28 21:25:52 UTC 2008 i686 GNU/Linux
=========================
y el sistema tiene todos los parches al dia .. bueno.. bueno.. hoy
acabo de instalar la version 2.6.24.19 del kernel !!!
pero estuve mirando los cambios de versión y ninguno hace referencia a
memoria o algo relacioando !!!
--------------
Estimado
No soy muy entendido en estos temas de hardware, pero de lo que haz puesto me parece que el error se esta dando a nivel de verificacion de paridad en las memorias.
que tipo de test hiciste? se verifico o es posible que el test haga chequeo de paridad y de correccion de errores?
Como comente no soy muy entendido en estos temas, pero entre todos algo podremos sacar de esto, no?
Saludos
Christian Montero H.
Red Hat Certified Engineer (RHCE) 805008759430301
__________________________________________________
Correo Yahoo!
Espacio para todos tus mensajes, antivirus y antispam ¡gratis!
Regístrate ya - http://correo.espanol.yahoo.com/
Más información sobre la lista de distribución Linux