Los servicios a ejecutar en el clúster necesitan Java. Por ello se instala el kit de desarrollo de Java en todos los nodos del clúster. El stack de Hadoop que se va a instalar requiere Java 8.

Una vez instalado se configuran las variables de entorno necesarias en el sistema:

 

La resolución de nombres local del clúster es sumamente importante (tiene, por ejemplo, implicaciones en el correcto despliegue de los agentes de ambari a los nodos del clúster). Los nombres de cada nodo deben ser nombres FQDN y debe además comprobarse que el comando hostname -f devuelve el nombre FQDN de cada hosts.

En el código anterior podemos ver como ejemplo el /etc/hosts del nodo máster y un worker. Nótese que la seccioón Hadoop cluster nodes de este archivo será común a todas las versiones de este archivo en los diferentes nodos del clúster, y que se comenta la línea con IP 127.0.1.1 para evitar problemas en la resolución del FQDN y con HBase/Zookeeper.