Lo primero es generar un par de claves pública-privada para el acceso SSH en el nodo administrador:
 

A continuación distribuimos la clave pública a cada nodo del futuro clúster:
 
Y comprobamos que el acceso ssh mediante clave funciona:
 

El nodo administrador tendrá, entre otras, la función de ejecutar un servidor Ambari para el despliegue y posterior gestión del clúster. Por lo tanto hemos de instalar y configurar dicho servidor Ambari. La instalación se realiza de la siguiente forma:

Nótese que al realizar esta instalación se ha instalado un servidor postgresql.

Una vez realizada la instalación realizaremos la configuración del servidor con el comando ambari-server setup:

Nótese las respuestas dadas a las diferentes preguntas del proceso de configuración.

Finalmente, para instalar el stack BigTop 3.1.1 y que esté disponible al desplegar el clúster, hemos de instalar el “management pack” de BigTop:

El paso más laborioso de la instalación de los sistemas operativos sobre los servidores es la configuración de los discos, particiones y sistemas de archivo. La configuración se ha realizado de  acuerdo a lo especificado en la configuración del almacenamiento de nodos master y workers.

A continuación puede observarse como han quedado las particiones, sistemas de archivo y su montaje después de la instalación en el nodo master:

A continuación puede observarse lo propio en los nodos worker:

Deshabilitar Transparent Huge Pages (THP) reduce el uso elevado de CPU que causa. Se realiza mediante la gestión del servicio asociado.

Si dicho servicio no existe, habrá que crear previamente su archivo de definición de servicio para poder manejarlo:

Se recomienda la reducción del swapping en todos los nodos, así como la deshabilitación del protocolo IP versión 6.

La configuración por defecto del firewall es demasiado restrictiva para cualquier despliegue de Hadoop. Si el clúster de Big Data dispone de una red propia, asegurada y aislada no hay necesidad de un cortafuegos adicional en cada sistema.

Ajustar el parámetro tcp_retries para la red del sistema permite una detección más rápida de nodos que fallan. En cada nodo, establecer el valor de este parámetro a 5 puede ayudar a detectar nodos inaccesibles con menos latencia. La configuración se realiza en el archivo /etc/sysctl.conf.

AppArmor debe estar deshabilitado durante la instalación y configuración del clúster. Puede habilitarse posteriormente, después de la instalación y mientras el clúster está corriendo.

En cada nodo, ulimit -n especifica el número de i-nodos que pueden abrirse simultáneamente. Con el valor por defecto de 1024, el sistema parece que no dispone de espacio en disco y muestra que no tiene i-nodos disponibles. Este valor debería establecerse a 64000 en cada nodo. El archivo a configurar es /etc/security/limits.conf.

Syslog debe estar habilitado en cada nodo del clúster para preservar los archivos de log referidos a procesos y trabajos finalizados de firma abrupta o que han fallado.