Comprender y diseñar una política de planificación de recursos de ejecución es una tarea que habrá que afrontar una vez realizado el despliegue del clúster. El objetivo final de esta tarea es prestar a los usuarios finales los recursos de ejecución necesarios para sus trabajos, de acuerdo a la capacidad de nuestro clúster. Como sabemos,… Continue reading
Category Archives: Documentación despliegue
Configuración Red de Alta Velocidad
Configuración de red La red de datos que conecta los nodos del clúster es una red de alta velocidad en la que cada nodo dispone de dos NIC Ethernet agregadas (“bonded”) mediante LACP. Este enlace agregado proporciona el doble de ancho de banda y tolerancia a fallos, en caso de que uno de los enlaces… Continue reading
Procedimiento de instalación y configuración de PostgreSQL en nodo máster
El primer paso es instalar los paquetes binarios de PostgreSQL:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
# apt install postgresql Reading package lists... Done Building dependency tree Reading state information... Done The following packages were automatically installed and are no longer required: bigtop-groovy bigtop-jsvc bigtop-utils hadoop hadoop-hdfs libevent-core-2.1-7 libevent-pthreads -2.1-7 libopts25 libssl-dev sntp zookeeper Use 'apt autoremove' to remove them. The following additional packages will be installed: libllvm10 libpq5 postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat Suggested packages: postgresql-doc postgresql-doc-12 libjson-perl openssl-blacklist isag The following NEW packages will be installed: libllvm10 libpq5 postgresql postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat Ø upgraded, 9 newly installed, to remove and 60 not upgraded. Need to get 30.7 MB of archives. After this operation, 122 MB of additional disk space will be used. Do you want to continue? [Y/n] |
A continuación, configuramos las direcciones en la que escucha PostgreSQL. Hacemos que escuche en todas las direcciones del host:
1 2 3 |
# vim /etc/postgresql/12/main/postgresql.conf # grep listen_addresses /etc/postgresql/12/main/postgresql.conf listen_addresses = '*' # what IP address(es) to listen on; |
Ahora hemos de permitir los accesos de los nodos del clúster a este todas las BDs del servidor (nótese la línea referida al clúster… Continue reading
Tarea B: Selección de servidor para nodo administrador
El nodo administrador tendrá la función fundamental de alojar el servidor Ambari que es la herramienta que vamos a utilizar para desplegar y, posteriormente, administrar y monitorizar el clúster. Tendrá menos requisitos de hardware ya que no ejecutará los servicios que forman parte de Hadoop. Lo utilizaremos también como nodo “frontera” para dar servicios adicionales… Continue reading
Tarea O: Desplegar el clúster
Una vez realizada la personalización de los servicios a desplegar, se revisa un resumen del despliegue a realizar: Podemos almacenar esta configuración en forma de “blueprint” pulsando en el botón correspondiente. Ahora es el momento de desplegar pulsando en el botón “Deploy”. Veremos entonces una interfaz en la que se muestra el progreso del… Continue reading
Tarea N: Abrir Ambari web UI y ejecutar asistente de configuración de despliegue
Una vez iniciado el servidor ambari podemos entrar a la UI web que es la herramienta que utilizaremos para definir y realizar el despliegue del clúster. Esta aplicación web está disponible en el puerto 8080 del nodo administrador: http://hadoop-admin1.tartangalh.eus:8080/ Una vez dentro, iniciamos un proceso de configuración paso a paso mediante asistente del despliegue a… Continue reading
Tarea L: Configurar fuente de software para repositorio del stack de Hadoop
Durante el despliegue del clúster, los nodos deben acceder a algún repositorio de software del que obtener los paquetes que se van a instalar para cada servicio que va a ejecutar. Este repositorio contiene los paquetes que forman parte del “stack” de aplicaciones/servicios Hadoop elegidos para el clúster. Existen diversos stacks de Hadoop pero la… Continue reading
Tarea D: Configurar acceso SSH sin contraseña
Lo primero es generar un par de claves pública-privada para el acceso SSH en el nodo administrador:
1 2 3 4 |
# ssh-keygen -t rsa -N '' -f .ssh/id_rsa Generating public/private rsa key pair. Your identification has been saved in .ssh/id_rsa Your public key has been saved in .ssh/id_rsa.pub |
A continuación distribuimos la clave pública a cada nodo del futuro clúster:
1 2 3 4 5 6 7 8 |
# ssh-copy-id -f -i .ssh/id_rsa.pub root@hadoop-master1 /usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: ".ssh/id_rsa.pub" root@hadoop-master1's password: Number of key(s) added: 1 Now try logging into the machine, with: "ssh 'root@hadoop-master1'" and check to make sure that only the key(s) you wanted were added. |
Y comprobamos que el acceso ssh mediante clave funciona:
1 |
# ssh root@hadoop-master1 |
Tarea M: Instalar y configurar servidor Ambari
El nodo administrador tendrá, entre otras, la función de ejecutar un servidor Ambari para el despliegue y posterior gestión del clúster. Por lo tanto hemos de instalar y configurar dicho servidor Ambari. La instalación se realiza de la siguiente forma:
1 2 |
# apt update # apt install ambari-server |
Nótese que al realizar esta instalación se ha instalado un servidor postgresql. Una vez… Continue reading
Tarea A.1: Instalación, discos y sistemas de archivo (incluye tareas J y K)
El paso más laborioso de la instalación de los sistemas operativos sobre los servidores es la configuración de los discos, particiones y sistemas de archivo. La configuración se ha realizado de acuerdo a lo especificado en la configuración del almacenamiento de nodos master y workers. A continuación puede observarse como han quedado las particiones, sistemas… Continue reading