Documentación despliegue « Clúster Big Data

Comprender y diseñar una política de planificación de recursos de ejecución es una tarea que habrá que afrontar una vez realizado el despliegue del clúster. El objetivo final de esta tarea es prestar a los usuarios finales los recursos de ejecución necesarios para sus trabajos, de acuerdo a la capacidad de nuestro clúster. Como sabemos,… Continue reading →

Configuración de red La red de datos que conecta los nodos del clúster es una red de alta velocidad en la que cada nodo dispone de dos NIC Ethernet agregadas (“bonded”) mediante LACP. Este enlace agregado proporciona el doble de ancho de banda y tolerancia a fallos, en caso de que uno de los enlaces… Continue reading →

El primer paso es instalar los paquetes binarios de PostgreSQL:

# apt install postgresql
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following packages were automatically installed and are no longer required:
bigtop-groovy bigtop-jsvc bigtop-utils hadoop hadoop-hdfs libevent-core-2.1-7 libevent-pthreads -2.1-7 
libopts25 libssl-dev sntp zookeeper Use 'apt autoremove' to remove them.
The following additional packages will be installed:
libllvm10 libpq5 postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat
Suggested packages:
postgresql-doc postgresql-doc-12 libjson-perl openssl-blacklist isag
The following NEW packages will be installed:
libllvm10 libpq5 postgresql postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat
Ø upgraded, 9 newly installed, to remove and 60 not upgraded.
Need to get 30.7 MB of archives.
After this operation, 122 MB of additional disk space will be used.
Do you want to continue? [Y/n]

# apt install postgresql

Reading package lists... Done

Building dependency tree

Reading state information... Done

The following packages were automatically installed and are no longer required:

bigtop-groovy bigtop-jsvc bigtop-utils hadoop hadoop-hdfs libevent-core-2.1-7 libevent-pthreads -2.1-7

libopts25 libssl-dev sntp zookeeper Use 'apt autoremove' to remove them.

The following additional packages will be installed:

libllvm10 libpq5 postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat

Suggested packages:

postgresql-doc postgresql-doc-12 libjson-perl openssl-blacklist isag

The following NEW packages will be installed:

libllvm10 libpq5 postgresql postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat

Ø upgraded, 9 newly installed, to remove and 60 not upgraded.

Need to get 30.7 MB of archives.

After this operation, 122 MB of additional disk space will be used.

Do you want to continue? [Y/n]

A continuación, configuramos las direcciones en la que escucha PostgreSQL. Hacemos que escuche en todas las direcciones del host:

# vim /etc/postgresql/12/main/postgresql.conf
# grep listen_addresses /etc/postgresql/12/main/postgresql.conf 
listen_addresses = '*' # what IP address(es) to listen on;

# vim /etc/postgresql/12/main/postgresql.conf

# grep listen_addresses /etc/postgresql/12/main/postgresql.conf

listen_addresses = '*' # what IP address(es) to listen on;

Ahora hemos de permitir los accesos de los nodos del clúster a este todas las BDs del servidor (nótese la línea referida al clúster… Continue reading →

El nodo administrador tendrá la función fundamental de alojar el servidor Ambari que es la herramienta que vamos a utilizar para desplegar y, posteriormente, administrar y monitorizar el clúster. Tendrá menos requisitos de hardware ya que no ejecutará los servicios que forman parte de Hadoop. Lo utilizaremos también como nodo “frontera” para dar servicios adicionales… Continue reading →

Una vez realizada la personalización de los servicios a desplegar, se revisa un resumen del despliegue a realizar: Podemos almacenar esta configuración en forma de “blueprint” pulsando en el botón correspondiente. Ahora es el momento de desplegar pulsando en el botón “Deploy”. Veremos entonces una interfaz en la que se muestra el progreso del… Continue reading →

Una vez iniciado el servidor ambari podemos entrar a la UI web que es la herramienta que utilizaremos para definir y realizar el despliegue del clúster. Esta aplicación web está disponible en el puerto 8080 del nodo administrador: http://hadoop-admin1.tartangalh.eus:8080/ Una vez dentro, iniciamos un proceso de configuración paso a paso mediante asistente del despliegue a… Continue reading →

Durante el despliegue del clúster, los nodos deben acceder a algún repositorio de software del que obtener los paquetes que se van a instalar para cada servicio que va a ejecutar. Este repositorio contiene los paquetes que forman parte del “stack” de aplicaciones/servicios Hadoop elegidos para el clúster. Existen diversos stacks de Hadoop pero la… Continue reading →

Lo primero es generar un par de claves pública-privada para el acceso SSH en el nodo administrador:

# ssh-keygen -t rsa -N '' -f .ssh/id_rsa
Generating public/private rsa key pair.
Your identification has been saved in .ssh/id_rsa
Your public key has been saved in .ssh/id_rsa.pub

# ssh-keygen -t rsa -N '' -f .ssh/id_rsa

Generating public/private rsa key pair.

Your identification has been saved in .ssh/id_rsa

Your public key has been saved in .ssh/id_rsa.pub

A continuación distribuimos la clave pública a cada nodo del futuro clúster:

# ssh-copy-id -f -i .ssh/id_rsa.pub root@hadoop-master1
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: ".ssh/id_rsa.pub"
root@hadoop-master1's password:

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'root@hadoop-master1'"
and check to make sure that only the key(s) you wanted were added.

# ssh-copy-id -f -i .ssh/id_rsa.pub root@hadoop-master1

/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: ".ssh/id_rsa.pub"

root@hadoop-master1's password:

Number of key(s) added: 1

Now try logging into the machine, with: "ssh 'root@hadoop-master1'"

and check to make sure that only the key(s) you wanted were added.

Y comprobamos que el acceso ssh mediante clave funciona:

# ssh root@hadoop-master1

1	# ssh root@hadoop-master1

El nodo administrador tendrá, entre otras, la función de ejecutar un servidor Ambari para el despliegue y posterior gestión del clúster. Por lo tanto hemos de instalar y configurar dicho servidor Ambari. La instalación se realiza de la siguiente forma:

# apt update
# apt install ambari-server

1 2	# apt update # apt install ambari-server

Nótese que al realizar esta instalación se ha instalado un servidor postgresql. Una vez… Continue reading →

El paso más laborioso de la instalación de los sistemas operativos sobre los servidores es la configuración de los discos, particiones y sistemas de archivo. La configuración se ha realizado de acuerdo a lo especificado en la configuración del almacenamiento de nodos master y workers. A continuación puede observarse como han quedado las particiones, sistemas… Continue reading →

Clúster Big Data

Conoce y accede a toda la información sobre el clúster Hadoop de Tartanga

Category Archives: Documentación despliegue

Planificación de recursos de ejecución en el clúster: YARN Capacity Scheduling

Configuración Red de Alta Velocidad

Procedimiento de instalación y configuración de PostgreSQL en nodo máster

Tarea B: Selección de servidor para nodo administrador

Tarea O: Desplegar el clúster

Tarea N: Abrir Ambari web UI y ejecutar asistente de configuración de despliegue

Tarea L: Configurar fuente de software para repositorio del stack de Hadoop

Tarea D: Configurar acceso SSH sin contraseña

Tarea M: Instalar y configurar servidor Ambari

Tarea A.1: Instalación, discos y sistemas de archivo (incluye tareas J y K)