Problema Boot local Cluster en compute nodes con LinuxBIOS y Etherboot

Sebastian Lara slara en udec.cl
Jue Jun 4 22:40:50 CLT 2009


Estimados,

Antes que nada, disculpen lo extenso del correo pero voy a tratar de
ser lo más claro posible.

Les cuento que estoy tratando de revivir un cluster de Linux Networx
de 10 nodos eVelocity E2 del año 2005 aprox. Este cluster utilizaba
Clusterworx, un sistema propietario para la configuración y el
mantenimiento. Linux Networx desapareció y con ellos el soporte.
Ahora, estamos tratando de instalar Rocks Clusters[1] para poder
seguir usando el hardware.

Hasta ahí todo bien... La instalación en el nodo principal (frontend)
funciona sin problemas y luego de unos cuantos ajustes, Rocks se
instala en los compute nodes. Una vez instalado el sistema en los
nodos empieza el problema.

Estos nodos usan como BIOS una versión antigua de LinuxBIOS sin
soporte para VGA, sin floppy y sin posibilidad de hacer el boot a
través de una unidad óptica. La única forma de ver los mensajes de
depuración de la BIOS es a través de un dispositivo al que me puedo
conectar por Telnet y que permite encender, apagar, ver la temperatura
y conectarme a la puerta serial de los nodos.

LinuxBIOS utiliza Etherboot para hacer el booteo del sistema.
Etherboot carga una imagen ELF del kernel la cual se puede generar con
el programa mkelfImage. Para el boot por red no hay problemas, pues es
el servidor DHCP del frontend el que se encarga de proveer la imagen
especifica para la instalación. Una vez termina la instalación, los
nodos tienen que bootear desde el disco duro local.  A continuación
copio la salida de etherboot,


Boot from (N)etwork (D)isk or (Q)uit? D
Probing pci disk...
[IDE]LBA48 mode
disk-1 78150744k cap: 2f00
Searching for image...
................................<abort>
Probing pci disk...
[IDE]
Probing isa disk...
<sleep>
Boot from (N)etwork (D)isk or (Q)uit?
Probing pci nic...
[tg3-5702X]Ethernet addr: 00:50:45:5C:34:1A
Tigon3 [partno(BCM95702A20) rev 1002 PHY(5703)] (PCI:66MHz:32-bit)
Link is up at 100 Mbps, full duplex.
Searching for server (DHCP)...

En este caso, selecciono que haga el boot por el disco duro. Etherboot
busca un header elf de la imagen del kernel en los primeros 8k del
disco, según su "documentación" escondida en listas de correo
abandonadas. Como no hay nada, aborta. Lo bueno es que hay una luz de
esperanza en el LED del disco duro, ya que prende al hacer el scan.

Ahora, mi duda está en como copiar los datos de la imagen a los
primeros 8k del disco sin destruir la información que ya esté en
estos. No tengo claro si estos 8k están en el MBR o en la primera
partición.

Agradezco de antemano cualquier ayuda. Saludos,

[1]: http://www.rocksclusters.org
--
Sebastián Lara Menares
Ingeniería Civil Electrónica
Universidad de Concepción



Más información sobre la lista de distribución Linux