Comprender y diseñar una política de planificación de recursos de ejecución es una tarea que habrá que afrontar una vez realizado el despliegue del clúster. El objetivo final de esta tarea es prestar a los usuarios finales los recursos de ejecución necesarios para sus trabajos, de acuerdo a la capacidad de nuestro clúster. Como sabemos,… Continue reading

El primer paso es instalar los paquetes binarios de PostgreSQL:

A continuación, configuramos las direcciones en la que escucha PostgreSQL. Hacemos que escuche en todas las direcciones del host:

Ahora hemos de permitir los accesos de los nodos del clúster a este todas las BDs del servidor (nótese la línea referida al clúster… Continue reading

El nodo administrador tendrá la función fundamental de alojar el servidor Ambari que es la herramienta que vamos a utilizar para desplegar y, posteriormente, administrar y monitorizar el clúster. Tendrá menos requisitos de hardware ya que no ejecutará los servicios que forman parte de Hadoop. Lo utilizaremos también como nodo “frontera” para dar servicios adicionales… Continue reading

Una vez realizada la personalización de los servicios a desplegar, se revisa un resumen del despliegue a realizar:   Podemos almacenar esta configuración en forma de “blueprint” pulsando en el botón correspondiente. Ahora es el momento de desplegar pulsando en el botón “Deploy”. Veremos entonces una interfaz en la que se muestra el progreso del… Continue reading

Una vez iniciado el servidor ambari podemos entrar a la UI web que es la herramienta que utilizaremos para definir y realizar el despliegue del clúster. Esta aplicación web está disponible en el puerto 8080 del nodo administrador: http://hadoop-admin1.tartangalh.eus:8080/ Una vez dentro, iniciamos un proceso de configuración paso a paso mediante asistente del despliegue a… Continue reading

Durante el despliegue del clúster, los nodos deben acceder a algún repositorio de software del que obtener los paquetes que se van a instalar para cada servicio que va a ejecutar. Este repositorio contiene los paquetes que forman parte del “stack” de aplicaciones/servicios Hadoop elegidos para el clúster. Existen diversos stacks de Hadoop pero la… Continue reading

Lo primero es generar un par de claves pública-privada para el acceso SSH en el nodo administrador:  

A continuación distribuimos la clave pública a cada nodo del futuro clúster:  

Y comprobamos que el acceso ssh mediante clave funciona:  

El nodo administrador tendrá, entre otras, la función de ejecutar un servidor Ambari para el despliegue y posterior gestión del clúster. Por lo tanto hemos de instalar y configurar dicho servidor Ambari. La instalación se realiza de la siguiente forma:

Nótese que al realizar esta instalación se ha instalado un servidor postgresql. Una vez… Continue reading

El paso más laborioso de la instalación de los sistemas operativos sobre los servidores es la configuración de los discos, particiones y sistemas de archivo. La configuración se ha realizado de  acuerdo a lo especificado en la configuración del almacenamiento de nodos master y workers. A continuación puede observarse como han quedado las particiones, sistemas… Continue reading