Documentación despliegue « Clúster Big Data

Configuración de red

La red de datos que conecta los nodos del clúster es una red de alta velocidad en la que cada nodo dispone de dos NIC Ethernet agregadas (“bonded”) mediante LACP. Este enlace agregado proporciona el doble de ancho de banda y tolerancia a fallos, en caso de que uno de los enlaces individuales falle. Cada enlace individual estará conectado a sendos switches CISCO Nexus de la serie 5000 que componen un dominio vPC (virtual PortChannel). En la siguiente figura puede observarse esta estructura, destacada en azul, entre varias configuraciones típicas de conexionado vPC:

Para implementar el Host Port Channel en los servers se han de agregar mediante “bonding” las dos NIC estableciendo los siguientes parámetros:

MODE= 802.3ad
XMIT Hash Policy= layer2 (default)
LACP rate= fast

Configuración switches vPC (virtual PortChannel)

Vamos a configurar la agregación de switches para nuestra red de alta velocidad. Tenga en cuenta que hay que realizar las configuraciones en los dos switches agregados (agg1 y agg2)

Los pasos a realizar son:

Configuraciónes iniciales

agg1#configure terminal
agg1#write erase 
agg1#reload
agg1#skip

agg1#configure terminal

agg1#write erase

agg1#reload

agg1#skip

agg1#username admin password
agg1#hostname agg1
agg1#exit
agg1#copy run start

agg1#username admin password

agg1#hostname agg1

agg1#exit

agg1#copy run start

Configurar la IP del puerto mgmt0, para gestión remota del switch (la IP que se observa es para el switch agg1):

agg1#interface mgmt0
agg1#ip address 10.22.87.221/24
agg1#no shut
agg1#copy run start

agg1#interface mgmt0

agg1#ip address 10.22.87.221/24

agg1#no shut

agg1#copy run start

Habilitar características

agg1#feature vpc 
agg1#feature lacp

1 2	agg1#feature vpc agg1#feature lacp

Configurar keep-alive en el puerto mgmt0

agg1#interface mgmt0
agg1#vrf member management
agg1#exit
agg1#ping 10.22.87.221 vrf management

agg1#interface mgmt0

agg1#vrf member management

agg1#exit

agg1#ping 10.22.87.221 vrf management

Dominio vPC

agg1#vpc domain 10 
agg1#role priority 100 
agg1#peer-keepalive destination 10.22.87.222 source 10.22.87.221 vrf management
agg1#peer-gateway
agg1#auto-recovery
agg1#ip arp synchronize
agg1#ipv6 nd synchronize
agg1#exit

agg1#vpc domain 10

agg1#role priority 100

agg1#peer-keepalive destination 10.22.87.222 source 10.22.87.221 vrf management

agg1#peer-gateway

agg1#auto-recovery

agg1#ip arp synchronize

agg1#ipv6 nd synchronize

agg1#exit

Las IPs que se observan en la definición de peer-keepalive han de intercambiarse para el switch agg2.

Peer-link (el port-channel 15 será el peer link)

agg1#interface eth1/47-48
agg1#description **vPC Peer-link**
agg1#channel-group 15 mode active
agg1#no shut
agg1#exit
agg1#int port-channel 15
agg1#description **vPC Peer-link**
agg1#no shut
agg1#switchport
agg1#switchport mode trunk
agg1#vpc peer-link

agg1#interface eth1/47-48

agg1#description **vPC Peer-link**

agg1#channel-group 15 mode active

agg1#no shut

agg1#exit

agg1#int port-channel 15

agg1#description **vPC Peer-link**

agg1#no shut

agg1#switchport

agg1#switchport mode trunk

agg1#vpc peer-link

Member ports

agg1# interface ethernet1/4
agg1# channel-group 4 mode active
agg1# no shut
agg1# interface port-channel 4
agg1# switchport
agg1# vpc 4
agg1# no shut

agg1# interface ethernet1/4

agg1# channel-group 4 mode active

agg1# no shut

agg1# interface port-channel 4

agg1# switchport

agg1# vpc 4

agg1# no shut

Mostrar el resumen de configuración

agg1# show vpc brief
Legend:
                (*) - local vPC is down, forwarding via vPC peer-link

vPC domain id                     : 10
Peer status                       : peer adjacency formed ok
vPC keep-alive status             : peer is alive
Configuration consistency status  : success
Per-vlan consistency status       : success
Type-2 consistency status         : success
vPC role                          : primary
Number of vPCs configured         : 5
Peer Gateway                      : Enabled
Dual-active excluded VLANs        : -
Graceful Consistency Check        : Enabled
Auto-recovery status              : Enabled, timer is off.(timeout = 240s)
Delay-restore status              : Timer is off.(timeout = 30s)
Delay-restore SVI status          : Timer is off.(timeout = 10s)
Operational Layer3 Peer-router    : Disabled
Virtual-peerlink mode             : Disabled

vPC Peer-link status
---------------------------------------------------------------------
id    Port   Status Active vlans
--    ----   ------ -------------------------------------------------
1     Po15   up     1

vPC status
----------------------------------------------------------------------------
Id    Port          Status Consistency Reason                Active vlans
--    ------------  ------ ----------- ------                ---------------
1     Po1           up     success     success               1

2     Po2           up     success     success               1

3     Po3           up     success     success               1

4     Po4           up     success     success               1

5     Po5           up     success     success               1

agg1# show vpc brief

Legend:

(*) - local vPC is down, forwarding via vPC peer-link

vPC domain id : 10

Peer status : peer adjacency formed ok

vPC keep-alive status : peer is alive

Configuration consistency status : success

Per-vlan consistency status : success

Type-2 consistency status : success

vPC role : primary

Number of vPCs configured : 5

Peer Gateway : Enabled

Dual-active excluded VLANs : -

Graceful Consistency Check : Enabled

Auto-recovery status : Enabled, timer is off.(timeout = 240s)

Delay-restore status : Timer is off.(timeout = 30s)

Delay-restore SVI status : Timer is off.(timeout = 10s)

Operational Layer3 Peer-router : Disabled

Virtual-peerlink mode : Disabled

vPC Peer-link status

---------------------------------------------------------------------

id Port Status Active vlans

-- ---- ------ -------------------------------------------------

1 Po15 up 1

vPC status

----------------------------------------------------------------------------

Id Port Status Consistency Reason Active vlans

-- ------------ ------ ----------- ------ ---------------

1 Po1 up success success 1

2 Po2 up success success 1

3 Po3 up success success 1

4 Po4 up success success 1

5 Po5 up success success 1

agg2# show vpc brief
Legend:
                (*) - local vPC is down, forwarding via vPC peer-link

vPC domain id                     : 10
Peer status                       : peer adjacency formed ok
vPC keep-alive status             : peer is alive
Configuration consistency status  : success
Per-vlan consistency status       : success
Type-2 consistency status         : success
vPC role                          : secondary
Number of vPCs configured         : 5
Peer Gateway                      : Enabled
Dual-active excluded VLANs        : -
Graceful Consistency Check        : Enabled
Auto-recovery status              : Enabled, timer is off.(timeout = 240s)
Delay-restore status              : Timer is off.(timeout = 30s)
Delay-restore SVI status          : Timer is off.(timeout = 10s)
Operational Layer3 Peer-router    : Disabled
Virtual-peerlink mode             : Disabled

vPC Peer-link status
---------------------------------------------------------------------
id    Port   Status Active vlans
--    ----   ------ -------------------------------------------------
1     Po15   up     1

vPC status
----------------------------------------------------------------------------
Id    Port          Status Consistency Reason                Active vlans
--    ------------  ------ ----------- ------                ---------------
1     Po1           up     success     success               1

2     Po2           up     success     success               1

3     Po3           up     success     success               1

4     Po4           up     success     success               1

5     Po5           up     success     success               1

agg2# show vpc brief

Legend:

(*) - local vPC is down, forwarding via vPC peer-link

vPC domain id : 10

Peer status : peer adjacency formed ok

vPC keep-alive status : peer is alive

Configuration consistency status : success

Per-vlan consistency status : success

Type-2 consistency status : success

vPC role : secondary

Number of vPCs configured : 5

Peer Gateway : Enabled

Dual-active excluded VLANs : -

Graceful Consistency Check : Enabled

Auto-recovery status : Enabled, timer is off.(timeout = 240s)

Delay-restore status : Timer is off.(timeout = 30s)

Delay-restore SVI status : Timer is off.(timeout = 10s)

Operational Layer3 Peer-router : Disabled

Virtual-peerlink mode : Disabled

vPC Peer-link status

---------------------------------------------------------------------

id Port Status Active vlans

-- ---- ------ -------------------------------------------------

1 Po15 up 1

vPC status

----------------------------------------------------------------------------

Id Port Status Consistency Reason Active vlans

-- ------------ ------ ----------- ------ ---------------

1 Po1 up success success 1

2 Po2 up success success 1

3 Po3 up success success 1

4 Po4 up success success 1

5 Po5 up success success 1

El primer paso es instalar los paquetes binarios de PostgreSQL:

# apt install postgresql
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following packages were automatically installed and are no longer required:
bigtop-groovy bigtop-jsvc bigtop-utils hadoop hadoop-hdfs libevent-core-2.1-7 libevent-pthreads -2.1-7 
libopts25 libssl-dev sntp zookeeper Use 'apt autoremove' to remove them.
The following additional packages will be installed:
libllvm10 libpq5 postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat
Suggested packages:
postgresql-doc postgresql-doc-12 libjson-perl openssl-blacklist isag
The following NEW packages will be installed:
libllvm10 libpq5 postgresql postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat
Ø upgraded, 9 newly installed, to remove and 60 not upgraded.
Need to get 30.7 MB of archives.
After this operation, 122 MB of additional disk space will be used.
Do you want to continue? [Y/n]

# apt install postgresql

Reading package lists... Done

Building dependency tree

Reading state information... Done

The following packages were automatically installed and are no longer required:

bigtop-groovy bigtop-jsvc bigtop-utils hadoop hadoop-hdfs libevent-core-2.1-7 libevent-pthreads -2.1-7

libopts25 libssl-dev sntp zookeeper Use 'apt autoremove' to remove them.

The following additional packages will be installed:

libllvm10 libpq5 postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat

Suggested packages:

postgresql-doc postgresql-doc-12 libjson-perl openssl-blacklist isag

The following NEW packages will be installed:

libllvm10 libpq5 postgresql postgresql-12 postgresql-client-12 postgresql-client-common postgresql-common ssl-cert sysstat

Ø upgraded, 9 newly installed, to remove and 60 not upgraded.

Need to get 30.7 MB of archives.

After this operation, 122 MB of additional disk space will be used.

Do you want to continue? [Y/n]

A continuación, configuramos las direcciones en la que escucha PostgreSQL. Hacemos que escuche en todas las direcciones del host:

# vim /etc/postgresql/12/main/postgresql.conf
# grep listen_addresses /etc/postgresql/12/main/postgresql.conf 
listen_addresses = '*' # what IP address(es) to listen on;

# vim /etc/postgresql/12/main/postgresql.conf

# grep listen_addresses /etc/postgresql/12/main/postgresql.conf

listen_addresses = '*' # what IP address(es) to listen on;

Ahora hemos de permitir los accesos de los nodos del clúster a este todas las BDs del servidor (nótese la línea referida al clúster Hadoop dónde aparece samenet:

# vim /etc/postgresql/12/main/pg_hba.conf 
# tail /etc/postgresql/12/main/pg_hba.conf
host     all            all      127.0.0.1/32              md5
# IPv6 local connections:
host     all            all      ::1/128                   md5

#Hadoop cluster connections
host     all            all       samenet                  md5
# Allow replication connections from localhost, by a user with the
# replication privilege.
local  replication     all                                 peer
host   replication      all       127.0.0.1/32              md5
host   replication      all       ::1/128                   md5

# vim /etc/postgresql/12/main/pg_hba.conf

# tail /etc/postgresql/12/main/pg_hba.conf

host all all 127.0.0.1/32 md5

# IPv6 local connections:

host all all ::1/128 md5

#Hadoop cluster connections

host all all samenet md5

# Allow replication connections from localhost, by a user with the

# replication privilege.

local replication all peer

host replication all 127.0.0.1/32 md5

host replication all ::1/128 md5

Creamos un usuario para Hive, que será utilizado en el paso correspondiente del asistente de despliegue del clúster:

# sudo su - postgres -c "createuser -s hive -p" 
Enter password for new role:
Enter it again:

# sudo su - postgres -c "createuser -s hive -p"

Enter password for new role:

Enter it again:

Creamos una base de datos para Hive y probamos a acceder con el usuario hive:

# sudo su - postgres -c 'createdb hive" 
# psql -U hive -h 127.0.0.1 hive
Password for user hive:
psql (12.17 (Ubuntu 12.17-0ubuntu0.20.04.1))
SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, bits: 256, compression: off) 
Type "help" for help.
hive=# \q

# sudo su - postgres -c 'createdb hive"

# psql -U hive -h 127.0.0.1 hive

Password for user hive:

psql (12.17 (Ubuntu 12.17-0ubuntu0.20.04.1))

SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, bits: 256, compression: off)

Type "help" for help.

hive=# \q

El nodo administrador tendrá la función fundamental de alojar el servidor Ambari que es la herramienta que vamos a utilizar para desplegar y, posteriormente, administrar y monitorizar el clúster. Tendrá menos requisitos de hardware ya que no ejecutará los servicios que forman parte de Hadoop. Lo utilizaremos también como nodo “frontera” para dar servicios adicionales de acceso al clúster.

Servidores

El servidor elegido para la implementación de este nodo es:

Servidor DL380 Gen10 con chasis de 2U, con capacidad para 8 discos SFF, equipado cada uno con:
2 procesadores Intel Xeon Silver 4114 (10 cores, 2,20Ghz, 13,75 MB cache L3)
64GB de memoria RAM (8x32GB) DDR4
Controladora de discos Smart Array P822 24xPCIe 8xSAS
Adaptador ethernet de 4 puertos Gigabit integrado
Tarjeta PCIe Ethernet de 2 puertos 10Gb/s SFP+ HP 530FLR
Doble fuente de alimentación redundante de 800W

Discos

Discos duros 960GB SFF (2,5″)

2 discos SSD de 960GB SATA Read Intensive SFF

Configuración de almacenamiento

Los dos discos SSD se configurarán en RAID1 con dos particiones para el directorio raíz y el directorio de arranque:

A continuación puede observarse como han quedado las particiones, sistemas de archivo y su montaje después de la instalación:

# lsblk
NAME        MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda           8:0    0 894.3G  0 disk
├─sda1        8:1    0   1.1G  0 part
└─sda2        8:2    0 893.2G  0 part
  └─md1       9:1    0 893.1G  0 raid1
    ├─md1p1 259:0    0     1G  0 md    /boot
    └─md1p2 259:1    0 892.1G  0 md    /
sdb           8:16   0 894.3G  0 disk
├─sdb1        8:17   0   1.1G  0 part  /boot/efi
└─sdb2        8:18   0 893.2G  0 part
  └─md1       9:1    0 893.1G  0 raid1
    ├─md1p1 259:0    0     1G  0 md    /boot
    └─md1p2 259:1    0 892.1G  0 md    /

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT

sda 8:0 0 894.3G 0 disk

├─sda1 8:1 0 1.1G 0 part

└─sda2 8:2 0 893.2G 0 part

└─md1 9:1 0 893.1G 0 raid1

├─md1p1 259:0 0 1G 0 md /boot

└─md1p2 259:1 0 892.1G 0 md /

sdb 8:16 0 894.3G 0 disk

├─sdb1 8:17 0 1.1G 0 part /boot/efi

└─sdb2 8:18 0 893.2G 0 part

└─md1 9:1 0 893.1G 0 raid1

├─md1p1 259:0 0 1G 0 md /boot

└─md1p2 259:1 0 892.1G 0 md /

Configuración de red

Para implementar el Host Port Channel en los servers se han de agregar mediante “bonding” las dos NIC estableciendo los siguientes parámetros:

MODE= 802.3ad
XMIT Hash Policy= layer2 (default)
LACP rate= fast

El archivo de configuración de red queda como sigue:

#  cat /etc/netplan/01-bonding-config.yaml
network:
  ethernets:
    eno1:
      dhcp4: false
    eno2:
      dhcp4: true
    eno3:
      dhcp4: true
    eno4:
      dhcp4: true
    eno5:
      dhcp4: false
    eno6:
      dhcp4: false
  bonds:
    bond0:
      interfaces: [eno5, eno6]
      addresses: [10.22.87.219/24]
      gateway4: 10.22.87.11
      parameters:
        mode: 802.3ad
        transmit-hash-policy: layer2
        lacp-rate: fast
      nameservers:
        addresses:
        - 10.22.87.1
        - 8.8.8.8
        search:
        - TartangaLH.eus
  version: 2

# cat /etc/netplan/01-bonding-config.yaml

network:

ethernets:

eno1:

dhcp4: false

eno2:

dhcp4: true

eno3:

dhcp4: true

eno4:

dhcp4: true

eno5:

dhcp4: false

eno6:

dhcp4: false

bonds:

bond0:

interfaces: [eno5, eno6]

addresses: [10.22.87.219/24]

gateway4: 10.22.87.11

parameters:

mode: 802.3ad

transmit-hash-policy: layer2

lacp-rate: fast

nameservers:

addresses:

- 10.22.87.1

- 8.8.8.8

search:

- TartangaLH.eus

version: 2

Una vez realizada la personalización de los servicios a desplegar, se revisa un resumen del despliegue a realizar:

Podemos almacenar esta configuración en forma de “blueprint” pulsando en el botón correspondiente.

Ahora es el momento de desplegar pulsando en el botón “Deploy”. Veremos entonces una interfaz en la que se muestra el progreso del despliegue en cada nodo del clúster:

Una vez finalizada la instalación e inicio de servicios, el clúster estará desplegado y al web UI de Ambari nos proporcionará una vista de administración de nuestro clúster, donde podremos monitorizar y re-configurar tanto servicios como nodos:

Podemos observar como habrá servicios no activos que necesiten de nuestra atención y corrección. Estos defectos nos los muestra Ambari mediante un sistema de alertas muy detallado accesible en la UI:

Una vez sean debidamente atendidas estas alertas, podremos visualizar el clúster en un estado estable:

Resolución de errores de despliegue

Durante el despliegue, es decir, durante la instalación e inicio de servicios en los nodos, se pueden producir errores que la interfaz nos mostrará de la siguiente forma:

Estos errores se pueden consultar de forma más detallada para su corrección:
Mediante la interfaz anterior se puede visualizar un log que nos indicará el error en detalle:
stderr: Traceback (most recent call last): ... File "/usr/lib/ambari-agent/lib/resource_management/core/sudo.py", line 136, in unlink os.unlink(path) OSError: [Errno 21] Is a directory: '/usr/lib/flink/log' stdout: ... 2024-02-27 07:36:36,670 - Directory['/var/log/flink'] {'mode': 0767} 2024-02-27 07:36:36,670 - Changing permission for /var/log/flink from 755 to 767 2024-02-27 07:36:36,670 - Link['/usr/lib/flink/log'] {'to': '/var/log/flink'} 2024-02-27 07:36:36,671 - Link['/usr/lib/flink/log'] replacing old symlink to /usr/lib/flink/log Command failed after 1 tries

En este caso se producía un error al intentar reemplazar el enlace simbólico /usr/lib/flink/log ya que era un directorio y no un link. La solución fue borrar dicho directorio y crear el enlace simbólico a /var/log/flink.

Una vez iniciado el servidor ambari podemos entrar a la UI web que es la herramienta que utilizaremos para definir y realizar el despliegue del clúster. Esta aplicación web está disponible en el puerto 8080 del nodo administrador: http://hadoop-admin1.tartangalh.eus:8080/

Una vez dentro, iniciamos un proceso de configuración paso a paso mediante asistente del despliegue a realizar del clúster. A continuación detallamos los diferentes pasos de este asistente.

1. Lanzamos el asistente de instalación del clúster:
2. Establecemos el nombre del clúster:
3. En el siguiente paso vamos a subir el archivo de definición del stack (VDF) de Hadoop elegido:
  Dicho archivo refiere los servicios disponibles en la pila de Hadoop a desplegar, así como la URL del repositorio a utilizar para los sistemas operativos elegidos. Tiene el siguiente contenido:
  <?xml version="1.0"?> <repository-version xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="version_definition.xsd"> <release> <type> STANDARD </type> <stack-id> BGTP-1.0 </stack-id> <version> 1.0 </version> <build> 1 </build> <release-notes> https://bigtop.apache.org/release-notes.html </release-notes> <display> BGTP-3.1.1 </display> </release> <manifest> <service id="AMBARI-METRICS" name="AMBARI-METRICS" version="Bigtop+3.2"/> <service id="FLINK-321" name="FLINK" version="Bigtop+3.2"/> <service id="HBASE-321" name="HBASE" version="Bigtop+3.2"/> <service id="HDFS-321" name="HDFS" version="Bigtop+3.2"/> <service id="HIVE-321" name="HIVE" version="Bigtop+3.2"/> <service id="KAFKA-321" name="KAFKA" version="Bigtop+3.2"/> <service id="SOLR-321" name="SOLR" version="Bigtop+3.2"/> <service id="SPARK-321" name="SPARK" version="Bigtop+3.2"/> <service id="TEZ-321" name="TEZ" version="Bigtop+3.2"/> <service id="YARN-321" name="YARN" version="Bigtop+3.2"/> <service id="ZEPPELIN-321" name="ZEPPELIN" version="Bigtop+3.2"/> <service id="ZOOKEEPER-321" name="ZOOKEEPER" version="Bigtop+3.2"/> </manifest> <available-services/> <repository-info> <os family="ubuntu18"> <repo> <baseurl> http://repos.bigtop.apache.org/releases/3.1.1/ubuntu/18.04/$(ARCH) </baseurl> <repoid> BGTP-3.1.1 </repoid> <reponame> BGTP </reponame> </repo> </os> </repository-info> </repository-version>
  Una vez cargado el archivo VDF, revisamos la información en la web UI y finalizamos la selección de la versión (Nótese que marcamos la opción para evitar la validación de la URL del repositorio):
4. En el siguiente paso, “Install Options”, introducimos los nombres DNS de los nodos que van a componer el clúster, así como el valor de la clave privada SSH para el acceso remoto a dichos nodos (recordar finalizar el contenido del campo para la clave en la siguiente línea a la última con contenido de la clave):
5. Al pulsar “Register and Confirm” , el servidor Ambari contactará con cada uno de los host y realizará una serie de acciones para comprobar que se puede comunicar correctamente con dichos hosts y que podrá ejecutar las tareas de instalación y configuración durante el despliegue. En este paso, se transfiere a los hosts el agente ambari y se realiza alguna configuración sobre los sistemas de dichos hosts. Si se produce algún error, se nos mostrará en la propia web UI y habremos de corregirlo antes de que el asistente nos permita avanzar. Es decir, para continuar, en este paso todos los hosts tienen que aparecer con status “Success”.
  En esta misma página podemos visualizar un detalle del chequeo que se ha realizado en cada host, con un desglose de problemas detectados:
6. En el siguiente paso, “Choose Services”, vemos los servicios que se van a desplegar en el clúster, pudiendo elegir una selección de ellos. En nuestro caso vamos a instalar todos los definidos en la versión seleccionada anteriormente:
7. Seguidamente, asignamos todos los servicios de tipo “Master ” al que será nodo máster de nuestro clúster: hadoop-master1
8. A continuación, asignamos los servicios de tipo Client o Slave a los nodos trabajadores: hadoop-worker1, hadoop-worker2 y hadoop-worker3
9. El siguiente paso es el más laborioso del proceso de configuración pre-despliegue ya que mediante una serie de páginas hemos de personalizar los parámetros que nos interesen de los diferentes servicios. Téngase en cuenta que la inmensa mayoría de parámetros de los servicios se pueden reconfigurar una vez el clúster esté desplegado, lo que forma parte del mantenimiento del clúster. No obstante, hay parámetros fundamentales, como los puntos de montaje de los sistemas de archivo o los parámetros de las bases de datos de soporte, por ejemplo, que han de ser ajustados en este momento para un exitoso despliegue del clúster. Los pasos de esta personalización son:
  - Credenciales: establecemos las credenciales para usuarios de Grafana y Hive:
  - Bases de Datos: definimos que servidor de base de datos , base de datos y usuario vamos a utilizar para Hive. Nótese que si no está instalado y configurado el sistema gestor de base de datos en el nodo máster, hemos de instalarlo y configurarlo previamente (vea el Procedimiento de instalación y configuración de PostgreSQL en nodo máster)
  - HDFS: Establecemos o revisamos parámetros generales del sistema de archivos distribuido, como el factor de replicación de bloques o el espacio reservado para uso no-DFS, así como las ubicaciones de los sistemas de archivo (puntos de montaje) en los nodos máster y workers.
  - YARN: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - MapReduce: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Tez: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Hive: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - HBase: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Zookeeper: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Ambari Metrics: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Kafka: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Spark: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Zeppelin: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Flink :Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
  - Solr: Revisamos los valores de los parámetros sin necesidad, en principio, de modificarlos.
10. Por último y antes de pasar a la tarea de revisar y desplegar el clúster, revisamos y establecemos, en su caso, las cuentas de usuario que se van a utilizar para los diferentes servicios:

Durante el despliegue del clúster, los nodos deben acceder a algún repositorio de software del que obtener los paquetes que se van a instalar para cada servicio que va a ejecutar. Este repositorio contiene los paquetes que forman parte del “stack” de aplicaciones/servicios Hadoop elegidos para el clúster. Existen diversos stacks de Hadoop pero la mayoría de ellos son propietarios y pocos accesibles en repositorios públicos. El stack de Hadoop elegido para nuestro clúster es BigTop, concretamente la versión 3.1.1.

Para configurar dicho repositorio se realizan los siguientes pasos:

Configurar en todos los nodos una fuente de software que apunte al repositorio :

# cat /etc/apt/sources.list.d/ambari.list deb http://repos.bigtop.apache.org/releases/3.1.1/ubuntu/18.04/$(ARCH) bigtop contrib

1
2

# cat /etc/apt/sources.list.d/ambari.list
deb http://repos.bigtop.apache.org/releases/3.1.1/ubuntu/18.04/$(ARCH) bigtop contrib

Lo primero es generar un par de claves pública-privada para el acceso SSH en el nodo administrador:

# ssh-keygen -t rsa -N '' -f .ssh/id_rsa
Generating public/private rsa key pair.
Your identification has been saved in .ssh/id_rsa
Your public key has been saved in .ssh/id_rsa.pub

# ssh-keygen -t rsa -N '' -f .ssh/id_rsa

Generating public/private rsa key pair.

Your identification has been saved in .ssh/id_rsa

Your public key has been saved in .ssh/id_rsa.pub

A continuación distribuimos la clave pública a cada nodo del futuro clúster:

# ssh-copy-id -f -i .ssh/id_rsa.pub root@hadoop-master1
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: ".ssh/id_rsa.pub"
root@hadoop-master1's password:

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'root@hadoop-master1'"
and check to make sure that only the key(s) you wanted were added.

# ssh-copy-id -f -i .ssh/id_rsa.pub root@hadoop-master1

/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: ".ssh/id_rsa.pub"

root@hadoop-master1's password:

Number of key(s) added: 1

Now try logging into the machine, with: "ssh 'root@hadoop-master1'"

and check to make sure that only the key(s) you wanted were added.

Y comprobamos que el acceso ssh mediante clave funciona:

# ssh root@hadoop-master1

1	# ssh root@hadoop-master1

El nodo administrador tendrá, entre otras, la función de ejecutar un servidor Ambari para el despliegue y posterior gestión del clúster. Por lo tanto hemos de instalar y configurar dicho servidor Ambari. La instalación se realiza de la siguiente forma:

# apt update
# apt install ambari-server

1 2	# apt update # apt install ambari-server

Nótese que al realizar esta instalación se ha instalado un servidor postgresql.

Una vez realizada la instalación realizaremos la configuración del servidor con el comando ambari-server setup:

# ambari-server setup
Using python /usr/bin/python
Setup ambari-server
Checking SELinux...
WARNING: Could not run /usr/sbin/sestatus: OK
Customize user account for ambari-server daemon [y/n] (n)? n
Adjusting ambari-server permissions and ownership...
Checking firewall status...
Checking JDK...
Do you want to change Oracle JDK [y/n] (n)? n
Check JDK version for Ambari Server...
JDK version found: 8
Minimum JDK version is 8 for Ambari. Skipping to setup different JDK for Ambari Server.
Checking GPL software agreement...
Completing setup...
Configuring database...
Enter advanced database configuration [y/n] (n)? n
Configuring database...
Default properties detected. Using built-in database.
Configuring ambari database...
Checking PostgreSQL...
Configuring local database...
Configuring PostgreSQL...
Backup for pg_hba found, reconfiguration not required
Creating schema and user...
done.
Creating tables...
done.
Extracting system views...
Adjusting ambari-server permissions and ownership...
Ambari Server 'setup' completed successfully.

# ambari-server setup

Using python /usr/bin/python

Setup ambari-server

Checking SELinux...

WARNING: Could not run /usr/sbin/sestatus: OK

Customize user account for ambari-server daemon [y/n] (n)? n

Adjusting ambari-server permissions and ownership...

Checking firewall status...

Checking JDK...

Do you want to change Oracle JDK [y/n] (n)? n

Check JDK version for Ambari Server...

JDK version found: 8

Minimum JDK version is 8 for Ambari. Skipping to setup different JDK for Ambari Server.

Checking GPL software agreement...

Completing setup...

Configuring database...

Enter advanced database configuration [y/n] (n)? n

Configuring database...

Default properties detected. Using built-in database.

Configuring ambari database...

Checking PostgreSQL...

Configuring local database...

Configuring PostgreSQL...

Backup for pg_hba found, reconfiguration not required

Creating schema and user...

done.

Creating tables...

done.

Extracting system views...

Adjusting ambari-server permissions and ownership...

Ambari Server 'setup' completed successfully.

Nótese las respuestas dadas a las diferentes preguntas del proceso de configuración.

Finalmente, para instalar el stack BigTop 3.1.1 y que esté disponible al desplegar el clúster, hemos de instalar el “management pack” de BigTop:

# apt install bigtop-ambari-mpack bigtop-utils
# service ambari-server stop
# env -u _JAVA_HOME ambari-server install-mpack --mpack=/usr/lib/bigtop-ambari-mpack/bgtp-ambari-mpack-1.0.0.0-SNAPSHOT-bgtp-ambari-mpack.tar.gz --verbose 
# service ambari-server start

# apt install bigtop-ambari-mpack bigtop-utils

# service ambari-server stop

# env -u _JAVA_HOME ambari-server install-mpack --mpack=/usr/lib/bigtop-ambari-mpack/bgtp-ambari-mpack-1.0.0.0-SNAPSHOT-bgtp-ambari-mpack.tar.gz --verbose

# service ambari-server start

El paso más laborioso de la instalación de los sistemas operativos sobre los servidores es la configuración de los discos, particiones y sistemas de archivo. La configuración se ha realizado de acuerdo a lo especificado en la configuración del almacenamiento de nodos master y workers.

A continuación puede observarse como han quedado las particiones, sistemas de archivo y su montaje después de la instalación en el nodo master:

# lsblk
NAME                   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda                      8:0    0   2.2T  0 disk
├─vg3-lv--zoo--db      253:7    0     1T  0 lvm  /hadoop/zookeeper
└─vg3-lv--reserved     253:8    0   1.2T  0 lvm
sdb                      8:16   0   2.2T  0 disk
├─vg2-lv--zoo--journal 253:5    0     1T  0 lvm  /journal/zookeeper
└─vg2-lv--dfs--journal 253:6    0   1.2T  0 lvm  /journal/hdfs
sdc                      8:32   0 447.1G  0 disk
├─sdc1                   8:33   0   1.1G  0 part /boot/efi
├─sdc2                   8:34   0     1G  0 part /boot
├─sdc3                   8:35   0   443G  0 part
│ ├─vg0-lv--root       253:2    0   100G  0 lvm  /
│ ├─vg0-lv--home       253:3    0    10G  0 lvm  /home
│ └─vg0-lv--var        253:4    0   333G  0 lvm  /var
└─sdc4                   8:36   0     2G  0 part [SWAP]
sdd                      8:48   0   4.4T  0 disk
└─sdd1                   8:49   0   4.4T  0 part
  ├─vg1-lv--dfs        253:0    0   2.2T  0 lvm  /hadoop/hdfs
  └─vg1-lv--pgsql      253:1    0   2.2T  0 lvm  /var/lib/pgsql

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT

sda 8:0 0 2.2T 0 disk

├─vg3-lv--zoo--db 253:7 0 1T 0 lvm /hadoop/zookeeper

└─vg3-lv--reserved 253:8 0 1.2T 0 lvm

sdb 8:16 0 2.2T 0 disk

├─vg2-lv--zoo--journal 253:5 0 1T 0 lvm /journal/zookeeper

└─vg2-lv--dfs--journal 253:6 0 1.2T 0 lvm /journal/hdfs

sdc 8:32 0 447.1G 0 disk

├─sdc1 8:33 0 1.1G 0 part /boot/efi

├─sdc2 8:34 0 1G 0 part /boot

├─sdc3 8:35 0 443G 0 part

│ ├─vg0-lv--root 253:2 0 100G 0 lvm /

│ ├─vg0-lv--home 253:3 0 10G 0 lvm /home

│ └─vg0-lv--var 253:4 0 333G 0 lvm /var

└─sdc4 8:36 0 2G 0 part [SWAP]

sdd 8:48 0 4.4T 0 disk

└─sdd1 8:49 0 4.4T 0 part

├─vg1-lv--dfs 253:0 0 2.2T 0 lvm /hadoop/hdfs

└─vg1-lv--pgsql 253:1 0 2.2T 0 lvm /var/lib/pgsql

A continuación puede observarse lo propio en los nodos worker:

#  lsblk
NAME             MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda                8:0    0   2.2T  0 disk
└─sda1             8:1    0   2.2T  0 part /hadoop/hdfs/data6
sdb                8:16   0   2.2T  0 disk
└─sdb1             8:17   0   2.2T  0 part /hadoop/hdfs/data5
sdc                8:32   0   2.2T  0 disk
└─sdc1             8:33   0   2.2T  0 part /hadoop/hdfs/data4
sdd                8:48   0   2.2T  0 disk
└─sdd1             8:49   0   2.2T  0 part /hadoop/hdfs/data2
sde                8:64   0   2.2T  0 disk
└─sde1             8:65   0   2.2T  0 part /hadoop/hdfs/data3
sdf                8:80   0   2.2T  0 disk
└─sdf1             8:81   0   2.2T  0 part /hadoop/hdfs/data1
sdg                8:96   0 447.1G  0 disk
├─sdg1             8:97   0   1.1G  0 part /boot/efi
├─sdg2             8:98   0     1G  0 part /boot
├─sdg3             8:99   0   443G  0 part
│ ├─vg0-lv--home 253:0    0    10G  0 lvm  /home
│ ├─vg0-lv--root 253:1    0   100G  0 lvm  /
│ └─vg0-lv--var  253:2    0   333G  0 lvm  /var
└─sdg4             8:100  0     2G  0 part [SWAP]

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT

sda 8:0 0 2.2T 0 disk

└─sda1 8:1 0 2.2T 0 part /hadoop/hdfs/data6

sdb 8:16 0 2.2T 0 disk

└─sdb1 8:17 0 2.2T 0 part /hadoop/hdfs/data5

sdc 8:32 0 2.2T 0 disk

└─sdc1 8:33 0 2.2T 0 part /hadoop/hdfs/data4

sdd 8:48 0 2.2T 0 disk

└─sdd1 8:49 0 2.2T 0 part /hadoop/hdfs/data2

sde 8:64 0 2.2T 0 disk

└─sde1 8:65 0 2.2T 0 part /hadoop/hdfs/data3

sdf 8:80 0 2.2T 0 disk

└─sdf1 8:81 0 2.2T 0 part /hadoop/hdfs/data1

sdg 8:96 0 447.1G 0 disk

├─sdg1 8:97 0 1.1G 0 part /boot/efi

├─sdg2 8:98 0 1G 0 part /boot

├─sdg3 8:99 0 443G 0 part

│ ├─vg0-lv--home 253:0 0 10G 0 lvm /home

│ ├─vg0-lv--root 253:1 0 100G 0 lvm /

│ └─vg0-lv--var 253:2 0 333G 0 lvm /var

└─sdg4 8:100 0 2G 0 part [SWAP]

Deshabilitar Transparent Huge Pages (THP) reduce el uso elevado de CPU que causa. Se realiza mediante la gestión del servicio asociado.

# systemctl daemon-reload
# systemctl start disable-transparent-huge-pages
# cat /sys/kernel/mm/transparent_hugepage/enabled 
always madvise [never]
# cat /sys/kernel/mm/transparent_hugepage/defrag 
always defer defer+madvise madvise [never]
# systemctl enable disable-transparent-huge-pages
Created symlink /etc/systemd/system/basic.target.wants/disable-transparent-huge-pages.services.service. /etc/systemd/system/disable-transparent-huge-page

# systemctl daemon-reload

# systemctl start disable-transparent-huge-pages

# cat /sys/kernel/mm/transparent_hugepage/enabled

always madvise [never]

# cat /sys/kernel/mm/transparent_hugepage/defrag

always defer defer+madvise madvise [never]

# systemctl enable disable-transparent-huge-pages

Created symlink /etc/systemd/system/basic.target.wants/disable-transparent-huge-pages.services.service. /etc/systemd/system/disable-transparent-huge-page

Si dicho servicio no existe, habrá que crear previamente su archivo de definición de servicio para poder manejarlo:

[Unit]
Description=Disable Transparent Huge Pages (THP)
DefaultDependencies=no
After=sysinit.target local-fs.target

[Service]
Type=oneshot
ExecStart=/bin/sh -c 'echo never | tee /sys/kernel/mm/transparent_hugepage/enabled &gt; 
/dev/null &amp;&amp; echo never | tee /sys/kernel/mm/transparent_hugepage/defrag &gt; /dev/null'

[Install]
WantedBy=basic.target

[Unit]

Description=Disable Transparent Huge Pages (THP)

DefaultDependencies=no

After=sysinit.target local-fs.target

[Service]

Type=oneshot

ExecStart=/bin/sh -c 'echo never | tee /sys/kernel/mm/transparent_hugepage/enabled >

/dev/null && echo never | tee /sys/kernel/mm/transparent_hugepage/defrag > /dev/null'

[Install]

WantedBy=basic.target

Clúster Big Data

Conoce y accede a toda la información sobre el proyecto de despliegue de un clúster Hadoop en el CPD de Tartanga

Category Archives: Documentación despliegue

Configuración Red de Alta Velocidad

Configuración de red

Procedimiento de instalación y configuración de PostgreSQL en nodo máster

Tarea B: Selección de servidor para nodo administrador

Servidores

Discos

Configuración de almacenamiento

Configuración de red

Tarea O: Desplegar el clúster

Resolución de errores de despliegue

Tarea N: Abrir Ambari web UI y ejecutar asistente de configuración de despliegue

Tarea L: Configurar fuente de software para repositorio del stack de Hadoop

Tarea D: Configurar acceso SSH sin contraseña

Tarea M: Instalar y configurar servidor Ambari

Tarea A.1: Instalación, discos y sistemas de archivo (incluye tareas J y K)

Tarea I.8: Configuración pre-despliegue, THP