cluster suse bueno

Labels: (None)

FRAMEWORK AMEAMEInfra

Guía de Operaciones con HeartBeat

Dashboard > AMEInfra > ... > Manual de Operaciones > Guía de Operaciones con HeartBeat

Home Log In

View

Added by Fernando Parrilla, last edited by Fernando Parrilla on Dec 11, 2007 (view change)

Introducción

Ésta guía presupone que se dispone de un Cluster HeartBeat configurado con dos Nodos y formado por un Servicio Activo - Pasivo. Si dispone de otra configuración y noestá seguro de que estos procedimientos sean compatibles con ella consúltenos y le asesoraremos para adaptar estos procedimientos a su escenario.

Todos los comandos se podrán ejecutar desde un terminal remoto y se tendrá que estar logado como root

Arranque de HeartBeat en ambos nodos simultáneamente después de una parada no controlada

Situación: HeartBeat debe pararse siempre de forma controlada, pero si por cualquier motivo no se hubiera realizado así, este es el procedimiento que se debe seguirpara volver a arrancar el Cluster

Si HeartBeat está parado en ambos nodos y queremos levantarlo en los dos junto con su servicio tendremos que hacer lo siguiente:

Desde el nodo Master ejecutaremos el script de arranque de HeartBeat:

mdvha1:~ # rcheartbeat startStarting High-Availability services2007/12/10_18:07:33 INFO: Resource is stoppedheartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: onheartbeat[14959]: 2007/12/10_18:07:34 info: **************************heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 donemdvha1:~ #

Una vez nos devuelva el promt ejecutaremos el script de monitorización del Cluster para ver el progreso de arranque:

mdvha1:~ # crm_mon -i5

Esto nos actualizará el estado del Cluster cada 5 segundos, de modo que iremos viendo las siguientes pantallas

Refresh in 3s...no connect

Refresh in 2s...============Last updated: Mon Dec 10 18:10:10 2007Current DC:2 Nodes configured.1 Resources configured.============

Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): offlineNode: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): offline

Refresh in 5s...

============Last updated: Mon Dec 10 18:11:36 2007Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)2 Nodes configured.1 Resources configured.============

Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): onlineNode: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): offlineResource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1

Una vez que veamos que los recursos se han levantado correctamente en el Nodo Master podemos ejecutar el script de arranque de HeartBeat en el nodo Esclavo

mdvha2:~ # rcheartbeat startStarting High-Availability services2007/12/10_18:07:33 INFO: Resource is stoppedheartbeat[14959]: 2007/12/10_18:07:33 info: Version 2 support: onheartbeat[14959]: 2007/12/10_18:07:34 info: **************************heartbeat[14959]: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8 donemdvha2:~ #

Y volvemos al terminal donde se está ejecutando el script de monitorización hasta que veamos que el Nodo Esclavo aparece como online:

Refresh in 5s...


Guía de Operaciones con HeartBeat - AMEInfra - Confluence https://ame.endesa.es/confluence/pages/viewpage.action?pageId=19393

1 de 5 20/11/2009 11:22

Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): onlineNode: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): onlineResource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1

Para salir de esta pantalla basta con pulsar Ctrl+c

Parada controlada de HeartBeat ambos Nodos

Situación: Labores de mantemiento en ambos nodos simultaneamente, incidencia que obligue a la parada de HeartBeat, etc Para realizar una parada controlada deHeartBeat en ambos nodos se tendrán que ralizar los siguientes pasos: Primero habrá que ver el estado en que se encuentra el cluster antes de realizar la parada. Paraello ejecutaremos el script de monitorización de HeartBeat


que nos mostrará lo siguiente

Refresh in 5s...


Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): onlineNode: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): onlineResource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha1 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha1 aplicAME_5 (lsb:aplicAME): Started mdvha1 vsftpd_6 (lsb:vsftpd): Started mdvha1

Si no tenemos claro cuántos servicios están configurados en el Cluster prodemos ejecutar esto:

mdvha2:~ # crm_resource -L | grep GroupResource Group: group_1

Una vez comprobados que el servicio está activo en el nodo Master y los servidores están online pararemos el servicio ejecutando lo siguiente desde cualquiera de losdos nodos:

mdvha2:~ # crm_resource -r group_1 -t group -p target_role -v stopped

Después volveremos a ejecutar crm_mon para comprobar que el servicio ya no se está ejecutando:

Refresh in 3s...

============

Last updated: Mon Dec 10 18:24:45 2007

Current DC: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171)

2 Nodes configured.

1 Resources configured.

============

Node: mdvha2 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): online

Node: mdvha1 (05d6cab0-018a-4450-bdb4-8500352f6171): online

También se podría ejecutar este otro comando para asegurarnos de que el servicio está en estado de parada:

mdvha2:~ # crm_resource -W -r group_1 -t group

resource group_1 is NOT running

Una vez que el servicio está parado ya podemos ejecutar los script de parada de heartbeat en ambos nodos:

mdvha1:~ # rcheartbeat stop

Stopping High-Availability services done

mdvha2:~ # rcheartbeat stop

Stopping High-Availability services done

Arranque de HeartBeat en ambos nodos simultáneamente después de una parada controlada

Situación: Reanudación del servicio después de alguna situación que obligue una parada controlada. Arranqueremos en ambos nodos HeartBeat con su script dearranque:

mdvha1:~ # rcheartbeat start


2 de 5 20/11/2009 11:22

Starting High-Availability services2007/12/10_18:45:45 INFO: Resource is stopped

heartbeat15939: 2007/12/10_18:07:33 info: Version 2 support: on

heartbeat15939: 2007/12/10_18:07:34 info: **************************

heartbeat15939: 2007/12/10_18:07:34 info: Configuration validated. Starting heartbeat 2.0.8

done

mdvha1:~ #

mdvha2:~ # rcheartbeat start

Starting High-Availability services2007/12/10_18:53:45 INFO: Resource is stopped

heartbeat14322: 2007/12/10_18:46:53 info: Version 2 support: on

heartbeat14322: 2007/12/10_18:46:54 info: **************************

heartbeat14322: 2007/12/10_18:46:54 info: Configuration validated. Starting heartbeat 2.0.8

done

mdvha2:~ #

Monitorizar con crm_mon hasta que el aparezcan los dos nodos online


Refresh in 5s...


Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): onlineNode: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online

Una vez verificado que los nodos están online arrancar el servicio con el siguiente comando:

mdvha2:~ # crm_resource -r group_1-t group -p target_role -v started

Después comprobar con crm_mon y crm_resource que el servició arranco correctamente:

Refresh in 5s...

============



2 Nodes configured.


============



Resource Group: group_1

IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha1

Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha1



aplicAME_5 (lsb:aplicAME): Started mdvha1

vsftpd_6 (lsb:vsftpd): Started mdvha1

mdvha1:/ # crm_resource -W -r group_1 -t group

resource group_1 is running on: mdvha1

Intervención en los Nodos que forman el cluster de forma secuencial

Situación: Tareas de mantemiento en uno de los nodos que impliquen la parada del mismos o alguna situación en la que no pueden mantener un Servicio activo

Primero deberemos comprobar qué servicios forman el Cluster y dónde están levantados actualmente:

mdvha2:~ # crm_resource -L | grep Group



Refresh in 5s...============


3 de 5 20/11/2009 11:22



2 Nodes configured.


============


Node: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online Resource Group: group_1







Si el nodo donde vamos a intervenir es dónde está ubicado el Servicio (Nodo Master) deberemos migrar el servicio al otro nodo ejecutando esto: mdvha1:/ #

crm_resource -M -r group_1 -t group -H mdvha2

Comprobamos que el servicio se ha migrado al nodo esclavo ejecutando:



Por último dejaremos el HeartBeat del Nodo en estado standby para aseguranos que un posible reboot de la máquina no hace que el servicio vuelva situarse en estonodo

crm_standby -U mdvha1 -v on

Si el nodo donde queramos intervenir no fuera donde están situado el servicio podemos saltarnos el paso de migrar este a otro nodo y ejecutar directamente elcomando de stanby. Para verificar que el nodo ha cambiado su estado a stadby ejecutaremos crm_mon:

Refresh in 13s...

============Last updated: Tue Dec 11 09:04:27 2007Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)2 Nodes configured.1 Resources configured.============

Node: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771): standbyNode: mdvha2 (05d6cab0-018a-4450-bdb4-8500352f6171): online

Resource Group: group_1 IPaddr_192_168_215_44 (heartbeat::ocf:IPaddr): Started mdvha2 Filesystem_2 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_3 (heartbeat::ocf:Filesystem): Started mdvha2 Filesystem_4 (heartbeat::ocf:Filesystem): Started mdvha2 aplicAME_5 (lsb:aplicAME): Started mdvha2 vsftpd_6 (lsb:vsftpd): Started mdvha2

Una vez que el Nodo pueda volver a estar operativo simplemente lo tendremos que poner es estado online ejecutando este comando:

mdvha2:~ # crm_standby -U mdvha1 -v off

Y comprobar su estado actual con crm_mon

Refresh in 13s...

============

Last updated: Tue Dec 11 09:06:57 2007

Current DC: mdvha1 (65be362f-7d5c-4ebe-8989-dd7e6a18f771)

2 Nodes configured.


============





4 de 5 20/11/2009 11:22







Y por último para volver a pasar el servicio al Nodo primario (si es ese sobre el que hemos intervenido) ejecutar este comando:

mdvha2:~ # crm_resource -U -r group_1 -t group

Y comprobar que el cambio se ha producido satisfactoriamente:



DETERMINAR LA CAUSA DE UN FAILOVER O PARADA DEL SERVICIO

Las causas más comunes de un failover o de que un servicio se llegue a parar en todos los Nodos que forman el Cluster es la propia parada o reboot del Nodo donde seestá ejecutando el Servicio, un fallo en la red o un fallo a la hora de levantar uno de los recursos del Servicio.

Por ello cuando se detecte un failover se deberá seguir el siguiente procedimiento:

Comprobar que el Nodo Master está arriba, si lo está comprobar cuándo fue la última vez que se reinició con el comando:

mdvha1:~ # who -r run-level 3 Oct 29 09:16 last=Smdvha1:~ #

Si el reboot se ha producido hace poco monitorizar el Cluster con crm_mon para ver si el Servicio se está migrando en esos momento al Nodo Master. Si no se migrará ola máquina no se hubiera reiniciado recientemente buscar en el log de HeartBeat si ha habido algún fallo de conectividad con el Nodo:

mdvha1:~ # grep dead /var/log/heartbeat/ha-log crmd[6015]: 2007/12/10_16:56:02 info: crmd_ha_status_callback: Ping node 172.29.87.1 is dead

Si se ha producido un error de conectividad recientemente comprobar que este error ha desaparecido y monitorizar el Cluster para verificar que el Servicio vuelve arealocarse en el Nodo Master. Si no es así o no se ha producido un error de conectividad recientemente habrá que comprobar que ninguno de los recursos del Serviciohan fallado al iniciarse. Para ello ejecutar lo siguiente:

mdvha1:~ # grep FAILED /var/log/heartbeat/ha-logpengine[25459]: 2007/11/09_09:08:39 info: native_print: aplicAME_5 (lsb:aplicAME): Started mdvha1 FAILED

Si se hubiera producido algún error comprobar en los logs de ese agente, si los hubiera, cuál ha sido el fallo y verificar que vuelve a funcionar correctamente. Una vezsolucionado reiniciar HeartBeat y monitorizar el Cluster para comprobar que el Servicio vuelve a realocarse en el Nodo Master.

Powered by Atlassian Confluence, the Enterprise Wiki. (Version: 2.2 Build:#512 Apr 26, 2006) - Bug/feature request - Contact Administrators


5 de 5 20/11/2009 11:22

cluster suse bueno

Documents