El nodo administrador tendrá, entre otras, la función de ejecutar un servidor Ambari para el despliegue y posterior gestión del clúster. Por lo tanto hemos de instalar y configurar dicho servidor Ambari. La instalación se realiza de la siguiente forma:

Nótese que al realizar esta instalación se ha instalado un servidor postgresql.

Una vez realizada la instalación realizaremos la configuración del servidor con el comando ambari-server setup:

Nótese las respuestas dadas a las diferentes preguntas del proceso de configuración.

Finalmente, para instalar el stack BigTop 3.1.1 y que esté disponible al desplegar el clúster, hemos de instalar el “management pack” de BigTop:

El paso más laborioso de la instalación de los sistemas operativos sobre los servidores es la configuración de los discos, particiones y sistemas de archivo. La configuración se ha realizado de  acuerdo a lo especificado en la configuración del almacenamiento de nodos master y workers.

A continuación puede observarse como han quedado las particiones, sistemas de archivo y su montaje después de la instalación en el nodo master:

A continuación puede observarse lo propio en los nodos worker:

Deshabilitar Transparent Huge Pages (THP) reduce el uso elevado de CPU que causa. Se realiza mediante la gestión del servicio asociado.

Si dicho servicio no existe, habrá que crear previamente su archivo de definición de servicio para poder manejarlo:

Se recomienda la reducción del swapping en todos los nodos, así como la deshabilitación del protocolo IP versión 6.

La configuración por defecto del firewall es demasiado restrictiva para cualquier despliegue de Hadoop. Si el clúster de Big Data dispone de una red propia, asegurada y aislada no hay necesidad de un cortafuegos adicional en cada sistema.

Ajustar el parámetro tcp_retries para la red del sistema permite una detección más rápida de nodos que fallan. En cada nodo, establecer el valor de este parámetro a 5 puede ayudar a detectar nodos inaccesibles con menos latencia. La configuración se realiza en el archivo /etc/sysctl.conf.

AppArmor debe estar deshabilitado durante la instalación y configuración del clúster. Puede habilitarse posteriormente, después de la instalación y mientras el clúster está corriendo.

En cada nodo, ulimit -n especifica el número de i-nodos que pueden abrirse simultáneamente. Con el valor por defecto de 1024, el sistema parece que no dispone de espacio en disco y muestra que no tiene i-nodos disponibles. Este valor debería establecerse a 64000 en cada nodo. El archivo a configurar es /etc/security/limits.conf.

Syslog debe estar habilitado en cada nodo del clúster para preservar los archivos de log referidos a procesos y trabajos finalizados de firma abrupta o que han fallado.

El protocolo Network Time Protocol (NTP) se utiliza para sincronizar la hora y fecha de todos los nodos dentro del clúster. La configuración de NTP es crítica para cualquier clúster de Hadoop. Cualquier falta de sincronismo en los servidores puede desembocar en serios problemas con HBase y otros servicios.

En nuestro caso vamos a instalar chrony  en todos los nodos y a configurarlo para que utilice el servidor NTP del centro.

El archivo de configuración de chrony, /etc/chrony/chrony.conf, queda:

 

Una vez editado el archivo de configuración se gestiona el servicio y se comprueba su estado de sincronización: