Cluster en Windows 2012 R2: componentes básicos
Para seguir con la alta disponibilidad en HV, es importante conocer, primero, la tecnología del Cluster, como una de las características presentes en Server 2012.
Disponibilidad, en términos relativos, sería el % de tiempo en el que un servicio esta disponible. En términos absolutos, dentro de la gestión del servicio, sería el asegurar que los servicios TI estén disponibles y funcionen correctamente siempre que los clientes y usuarios deseen hacer uso de ellos en el marco de los SLAs en vigor.
Para poder llegar a ese punto analizamos:
- La actividades clave del negocio
- Cuantificar los intervalos razonables de interrupción de los diferentes servicios dependiendo de sus respectivos impactos.
- Establecer los protocolos de mantenimiento y revisión de los servicios TI
- Determinar las franjas horaria de disponibilidad de los servicios TI (24/7, 12/5, etc.).
Tecnología
La disponibilidad del negocio depende de la disponibilidad del servicio y, este último, de la disponibilidad de los componentes de la infraestructura.
En análisis de esa disponibilidad será el encontrar los puntos de fallo, los únicos puntos de fallo, y proveer de la redundancia necesaria. Pero sólo en los componentes necesarios y sólo en aquellos en los que la tecnología no posea suficiente resistencia por diseño. Esta resilencia del sistema se puede analizar a parte. En lo que respecta a la disponibilidad podemos contar con estas herramientas o técnicas:
CFIA
Que son las siglas de Component Failure Impact Analysis (Análisis del Impacto de Fallo de Componentes).
Mediante esté metodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuración involucrado. Es evidente que este método requiere una CMDB correctamente actualizada.
FTA
Que son las siglas de Failure Tree Analysis (Análisis del Árbol de Fallos). Su objetivo es estudiar como se «propagan» los fallos a través de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.
CRAMM
Que son las siglas de CCTA Risk Analysis and Management Method (Método de Gestión y Análisis de Riesgos de la CCTA). Su objetivo es identificar los riesgos y vulnerabilidades a los que se haya expuesta la infraestructura TI con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rápidamente el servicio en caso de interrupción del mismo.
SOA
Que son las siglas de Service Outage Analysis (Análisis de Interrupción del Servicio). Ésta técnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos. Se diferencia de los anteriores métodos en que realiza el análisis desde el punto de vista del cliente haciendo especial énfasis en aspectos no exclusivamente técnicos ligados directamente a la infraestructura TI.
(Estas definiciones las hemos extraído de la pagina de Osiatis)
Componentes del Cluster
Supongamos que hemos establecido que nuestro servicio IT, dentro de las necesidades del negocio, necesita de la implementación de un servicio de Cluster. Veamos sus componentes para reconocer lo que nos ofrece esta solución a la hora de elegirla.
Nodos. Son los servidores miembros del cluster. En ellos se ejecutan servicios de cluster, recursos y las aplicaciones asociadas con el cluster.
Red. Son las redes que tendremos que establecer para que los nodos se comuniquen y los clientes con ellos.
Recurso. Es la entidad que se aloja en un cluster y puede ser arrancado, parado o movido a otro nodo del cluster.
Almacenamiento del cluster. Es un sistema de almacenamiento que normalmente se comparte entre los nodos. En algunos escenarios no será necesario.
Clientes. Son las maquinas o usuarios que usan el servicio de cluster.
Servicio o aplicación. Es lo que se le presenta a los clientes del cluster y se usa por ellos.
Testigo. Es el disco, carpeta o archivo que nos servirá para organizar el quorum.
¿Que es el CSV?
Veamos el pasado. Sólo un nodo podía tener el control de una LUN o volumen en el almacenamiento compartido. Esto era hasta que un nodo cambiaba a activo. Con el CSV varios nodos pueden tener acceso a diferentes archivos en el mismo volumen o LUN. Así los nodos tenían una sistema distribuido de almacenamiento con acceso simultaneo al mismo sistema NTFS.
Esto se implemento para Hyper-V. Así las maquinas virtuales podían estar en el mismo almacenamiento pero gobernadas por distintos nodos. Si fallaba un nodo, otro podía tomar el control de sus maquinas virtuales.
Con Windows 2012 se puede usar CSV para otros servicios que no sean los de Hyper-V.
Failover y Failback
El failover traslada la responsabilidad del cluster de un nodo a otro proporcionando el acceso a los recursos.
Pasos del failover
1. El servicio de cluster pone en parada los recursos siguiendo el orden de dependencia de los recursos.
2. Cuanto todos los recursos se han parado, el servicio de Cluster pasa todos los recursos al nodo siguiendo el orden de preferencia entre nodos.
3. Se levantan los recursos en el orden, otra vez, de su dependencia.
El faliback sería el proceso de volver al nodo caído los recursos una vez levantado ese nodo.
Quorum
Es el número de elementos del cluster que tienen que estar vivos para poder seguir el cluster levantado.
Cada elemento tiene un voto. Prevenimos que, ante una falta de comunicación de red, varios nodos se hagan con los mismos servicios creyendo que hay una caída.
Los elementos son los nodos y podemos elegir un testigo que puede ser un disco o una carpeta compartida. Se usa para los desempates o para poder decir que el cluster prosiga con sus servicios aunque sólo quede un nodo mientras el disco o carpeta testigo sigan vivas.
Posibilidades de quorum
Mayoría de nodos: Cada nodo que está disponible y en comunicación puede votar. Sólo sigue el cluster con la mayoría, la mitad más uno.
Mayoría de nodos con disco: Cada nodo tiene un voto y además un disco designado en el almacenamiento del clúster («disco testigo») pueden votar, siempre que estén disponibles y en comunicación. Funciona el clúster sólo con una mayoría de los votos, es decir, más de la mitad, contando con el disco.
Mayoría de nodos y carpeta compartida: Cada nodo además de un recurso compartido de archivos designado creado por el administrador (el «testigo de recurso compartido de archivos«) pueden votar, siempre que estén disponibles y en comunicación. Funciona el clúster sólo con una mayoría de los votos, es decir, más de la mitad.
No Mayoría: Disk Only: El clúster tiene quórum si un nodo está disponible y en comunicación con un disco específico en el almacenamiento del clúster. Sólo los nodos que están también en comunicación con ese disco pueden unirse al clúster. Basta con que el disco este comunicándose con el nodo.
Se introduce en Windows 2012 R2 el Dynamic Quorum que es un Dynamic Wittness. Según el número de nodos que estén levantados, el que hace de wittness puede contarse para el voto o no. Si es impar, el wittnes no vota y si es par, los vivos, vota.
Forzar la Resilencia del Quorum
Es para los cluster multisitio que pueden presentar nodos levantados pero no con suficientes mayorías y podemos forzar el lanzar el quorum a pesar de no tener la mayoría.
Podemos usar la función del Quorum dinámico para que, en caso de perdida de la carpeta compartida y, entrando en nodos pares, uno de ellos valga la mitad del voto para que siempre se mantenga el cluster con mayorías apropiadas.
Redes en el cluster
En otro orden de cosas, tenemos que adentrarnos en las redes presentes en un cluster.
La primera es la privada entre nodos. Se reconocen y se entienden como nodos vivos. Heartbeats ahora en UDP unicast por el puerto 3343. Se pueden crear cluster en diferentes subnets para cluster multi sitio.
Cada nodo tiene una tarjeta virtual de Failover Cluster oculta para una MAC que es la misma de la tarjeta física primera del nodo.
La segunda es la red publica. Se provee a los clientes el poder llegar al cluster, a la aplicación o servicio del cluster.
Puede compartirse en la misma red la privada y la pública.
Es necesario también tener una red dedicada al almacenamiento.
Almacenamiento
Tres tipos.
SCSI. La de más bajo coste. Los nodos tienen que estar físicamente cerca.
iSCSI. Es un tipo de almacenamiento de red (SAN) sobre IP. Con Windows 2012 podemos tener todo lo necesario para conectar el almacenamiento sin necesidad de hardware dedicado.
Fibra. Más rendimiento que iSCSI pero más caro. Depende del hardware dedicado a este tipo de SAN.
Shared .vhdx, para clusters de las maquinas virtuales que tienen un servicio de cluster en su Sistema Operativo.