jmarturi « Clúster Big Data

El protocolo Network Time Protocol (NTP) se utiliza para sincronizar la hora y fecha de todos los nodos dentro del clúster. La configuración de NTP es crítica para cualquier clúster de Hadoop. Cualquier falta de sincronismo en los servidores puede desembocar en serios problemas con HBase y otros servicios.

En nuestro caso vamos a instalar chrony en todos los nodos y a configurarlo para que utilice el servidor NTP del centro.

# apt install chrony
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following packages were automatically installed and are no longer required: 
libevent-core-2.1-7 libevent-pthreads -2.1-7 libopts25 sntp
Use 'apt autoremove' to remove them.
The following packages will be REMOVED:
systemd-timesyncd
The following NEW packages will be installed: chrony
℗ upgraded, 1 newly installed, 1 to remove and 50 not upgraded. Need to get 220 kB of archives.
After this operation, 284 kB of additional disk space will be used.

# apt install chrony

Reading package lists... Done

Building dependency tree

Reading state information... Done

The following packages were automatically installed and are no longer required:

libevent-core-2.1-7 libevent-pthreads -2.1-7 libopts25 sntp

Use 'apt autoremove' to remove them.

The following packages will be REMOVED:

systemd-timesyncd

The following NEW packages will be installed: chrony

℗ upgraded, 1 newly installed, 1 to remove and 50 not upgraded. Need to get 220 kB of archives.

After this operation, 284 kB of additional disk space will be used.

El archivo de configuración de chrony, /etc/chrony/chrony.conf, queda:

# This will use (up to):
# 4 sources from ntp.ubuntu.com which some are ipv6 enabled
# - 2 sources from 2.ubuntu.pool.ntp.org which is ipv6 enabled as well
#- 1 source from [01].ubuntu.pool.ntp.org each (ipv4 only atm)
#This means by default, up to 6 dual-stack and up to 2 additional IPv4-only sources will be used.
#At the same time it retains some protection against one of the entries being 
# down (compare to just using one of the lines). See (LP: #1754358) for the discussion.
#About using servers from the NTP Pool Project in general see (LP: #104525). 
# Approved by Ubuntu Technical Board on 2011-02-08.
# See http://www.pool.ntp.org/join.html for more information.
#pool ntp.ubuntu.comiburst maxsources 4
#pool 0.ubuntu.pool.ntp.org iburst maxsources 1
#pool 1.ubuntu.pool.ntp.org iburst maxsources 1 
#pool 2.ubuntu.pool.ntp.org iburst maxsources 2
server 10.22.87.1
# This directive specify the location of the file containing ID/key pairs for
# NTP authentication.
keyfile /etc/chrony/chrony.keys
# This directive specify the file into which chronyd will store the rate 
# information.
driftfile /var/lib/chrony/chrony.drift
#Uncomment the following line to turn logging on.
#log tracking measurements statistics

# This will use (up to):

# 4 sources from ntp.ubuntu.com which some are ipv6 enabled

# - 2 sources from 2.ubuntu.pool.ntp.org which is ipv6 enabled as well

#- 1 source from [01].ubuntu.pool.ntp.org each (ipv4 only atm)

#This means by default, up to 6 dual-stack and up to 2 additional IPv4-only sources will be used.

#At the same time it retains some protection against one of the entries being

# down (compare to just using one of the lines). See (LP: #1754358) for the discussion.

#About using servers from the NTP Pool Project in general see (LP: #104525).

# Approved by Ubuntu Technical Board on 2011-02-08.

# See http://www.pool.ntp.org/join.html for more information.

#pool ntp.ubuntu.comiburst maxsources 4

#pool 0.ubuntu.pool.ntp.org iburst maxsources 1

#pool 1.ubuntu.pool.ntp.org iburst maxsources 1

#pool 2.ubuntu.pool.ntp.org iburst maxsources 2

server 10.22.87.1

# This directive specify the location of the file containing ID/key pairs for

# NTP authentication.

keyfile /etc/chrony/chrony.keys

# This directive specify the file into which chronyd will store the rate

# information.

driftfile /var/lib/chrony/chrony.drift

#Uncomment the following line to turn logging on.

#log tracking measurements statistics

Una vez editado el archivo de configuración se gestiona el servicio y se comprueba su estado de sincronización:

# timedatectl set-ntp true
# timedatectl
Local time: Tue 2023-12-19 12:41:17 UTC Universal time: Tue 2023-12-19 12:41:17 UTC 
RTC time: Tue 2023-12-19 12:41:17
Time zone: Etc/UTC (UTC, +0000)
System clock synchronized: yes
NTP service: active
RTC in local TZ: no

# timedatectl set-ntp true

# timedatectl

Local time: Tue 2023-12-19 12:41:17 UTC Universal time: Tue 2023-12-19 12:41:17 UTC

RTC time: Tue 2023-12-19 12:41:17

Time zone: Etc/UTC (UTC, +0000)

System clock synchronized: yes

NTP service: active

RTC in local TZ: no

Los servicios a ejecutar en el clúster necesitan Java. Por ello se instala el kit de desarrollo de Java en todos los nodos del clúster. El stack de Hadoop que se va a instalar requiere Java 8.

# apt-get update
Hit: 1 http://archive.ubuntu.com/ubuntu focal InRelease
Get:2 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB] 
Hit: 3 http://archive.ubuntu.com/ubuntu focal-backports InRelease
Hit:4 http://archive.ubuntu.com/ubuntu focal-security InRelease Fetched 114 kB in 1s (88.9 kB/s)
Reading package lists... Done
# apt-get install openjdk-8-jdk
Reading package lists... Done
Building dependency tree
Reading state information... Done
The following additional packages will be installed:
adwaita-icon-theme at-spi2-core ca-certificates-java fontconfig 
fontconfig-config 
fonts-dejavu-core fonts-dejavu-extra gtk-update-icon-cache 
hicolor-icon-theme humanity-icon-theme 
java-common libasyncnse libatk-bridge2.0-0 libatk-wrapper-java
libatk-wrapper-java-jni libatk1.0-0 libatk1.0-data libatspi2.0-0 libavahi-client3 
libavahi-common-data libavahi-common3 libcairo-gobject2 libcairo2 libcups2 libdatrie1
libdrm-amdgpul libdrm-intel1 libdrm-nouveau2 libdrm-radeon1 libflac8 libfontconfigl 
libfontenc1 libgail-common libgail18 libgdk-pixbuf2.0-0 libgdk-pixbuf2.0-bin 
libgdk-pixbuf2.0-common libgif7 libgl1 libgl1-mesa-dri libgl1-mesa-glx 
libglapi-mesa libglvnde libglx-mesae libglxe libgraphite2-3 libgtk2.0-0 
libgtk2.0-bin libgtk2.0-common libharfbuzzeb libice-dev libice6 libjbige
libjpeg-turbo8 libjpeg8 liblcms2-2 libllvm12 libpango-1.0-0 libpangocairo-1.0-0 
libpangoft2-1.0-0 libpciaccesse libpcsclitel libpixman-1-0 libpthread-stubse-dev 
libpulsee librsvg2-2 librsvg2-common libsensors-config libsensors5 libsm-dev 
libsm6 libsndfilel libthai-data libthaie libtiff5 libvorbisenc2 libvulkan1 
libwayland-cliente libwebp6 libx11-dev libx11-xcb1 libxau-dev libxaw7 
libxcb-dri2-0 libxcb-dri3-0 libxcb-glxe libxcb-presente libxcb-randre 
libxcb-rendere libxcb-shape libxcb-shme libxcb-sync1 libxcb-xfixese 
libxcb1-dev libxcomposite1 libxcursor1 libxdamage1 libxdmcp-dev 
libxfixes3 libxft2 libxi6 libxineramal libxkbfilel libxmu6 libxpm4 
libxrandr2 libxrender1 libxshmfencel libxt-dev libxt6 libxtst6 
libxv1 libxxf86dgal libxxf86vm1 mesa-vulkan-drivers openjdk-8-jdk-headless 
openjdk-8-jre openjdk-8-jre-headless ubuntu-mono x11-common x11-utils
 x11proto-core-dev x11proto-dev xorg-seml-doctools xtrans-dev

# apt-get update

Hit: 1 http://archive.ubuntu.com/ubuntu focal InRelease

Get:2 http://archive.ubuntu.com/ubuntu focal-updates InRelease [114 kB]

Hit: 3 http://archive.ubuntu.com/ubuntu focal-backports InRelease

Hit:4 http://archive.ubuntu.com/ubuntu focal-security InRelease Fetched 114 kB in 1s (88.9 kB/s)

Reading package lists... Done

# apt-get install openjdk-8-jdk

Reading package lists... Done

Building dependency tree

Reading state information... Done

The following additional packages will be installed:

adwaita-icon-theme at-spi2-core ca-certificates-java fontconfig

fontconfig-config

fonts-dejavu-core fonts-dejavu-extra gtk-update-icon-cache

hicolor-icon-theme humanity-icon-theme

java-common libasyncnse libatk-bridge2.0-0 libatk-wrapper-java

libatk-wrapper-java-jni libatk1.0-0 libatk1.0-data libatspi2.0-0 libavahi-client3

libavahi-common-data libavahi-common3 libcairo-gobject2 libcairo2 libcups2 libdatrie1

libdrm-amdgpul libdrm-intel1 libdrm-nouveau2 libdrm-radeon1 libflac8 libfontconfigl

libfontenc1 libgail-common libgail18 libgdk-pixbuf2.0-0 libgdk-pixbuf2.0-bin

libgdk-pixbuf2.0-common libgif7 libgl1 libgl1-mesa-dri libgl1-mesa-glx

libglapi-mesa libglvnde libglx-mesae libglxe libgraphite2-3 libgtk2.0-0

libgtk2.0-bin libgtk2.0-common libharfbuzzeb libice-dev libice6 libjbige

libjpeg-turbo8 libjpeg8 liblcms2-2 libllvm12 libpango-1.0-0 libpangocairo-1.0-0

libpangoft2-1.0-0 libpciaccesse libpcsclitel libpixman-1-0 libpthread-stubse-dev

libpulsee librsvg2-2 librsvg2-common libsensors-config libsensors5 libsm-dev

libsm6 libsndfilel libthai-data libthaie libtiff5 libvorbisenc2 libvulkan1

libwayland-cliente libwebp6 libx11-dev libx11-xcb1 libxau-dev libxaw7

libxcb-dri2-0 libxcb-dri3-0 libxcb-glxe libxcb-presente libxcb-randre

libxcb-rendere libxcb-shape libxcb-shme libxcb-sync1 libxcb-xfixese

libxcb1-dev libxcomposite1 libxcursor1 libxdamage1 libxdmcp-dev

libxfixes3 libxft2 libxi6 libxineramal libxkbfilel libxmu6 libxpm4

libxrandr2 libxrender1 libxshmfencel libxt-dev libxt6 libxtst6

libxv1 libxxf86dgal libxxf86vm1 mesa-vulkan-drivers openjdk-8-jdk-headless

openjdk-8-jre openjdk-8-jre-headless ubuntu-mono x11-common x11-utils

x11proto-core-dev x11proto-dev xorg-seml-doctools xtrans-dev

Una vez instalado se configuran las variables de entorno necesarias en el sistema:

# update-alternatives --config java
There is only one alternative in link group java (providing /usr/bin/java):
 /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java
Nothing to configure.
# echo JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre &gt;&gt; /etc/environment 
# cat /etc/environment 
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin" 
JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre/

# update-alternatives --config java

There is only one alternative in link group java (providing /usr/bin/java):

/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java

Nothing to configure.

# echo JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre >> /etc/environment

# cat /etc/environment

PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin"

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre/

La resolución de nombres local del clúster es sumamente importante (tiene, por ejemplo, implicaciones en el correcto despliegue de los agentes de ambari a los nodos del clúster). Los nombres de cada nodo deben ser nombres FQDN y debe además comprobarse que el comando hostname -f devuelve el nombre FQDN de cada hosts.

# cat /etc/hosts
127.0.0.1       localhost
#127.0.1.1      hadoop-master1

# Hadoop cluster nodes
10.22.87.215    hadoop-master1.tartangalh.eus   hadoop-master1
10.22.87.216    hadoop-worker1.tartangalh.eus   hadoop-worker1
10.22.87.217    hadoop-worker2.tartangalh.eus   hadoop-worker2
10.22.87.218    hadoop-worker3.tartangalh.eus   hadoop-worker3
10.22.87.219    hadoop-admin1.tartangalh.eus    hadoop-admin1

# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

# cat /etc/hosts

127.0.0.1 localhost

#127.0.1.1 hadoop-master1

# Hadoop cluster nodes

10.22.87.215 hadoop-master1.tartangalh.eus hadoop-master1

10.22.87.216 hadoop-worker1.tartangalh.eus hadoop-worker1

10.22.87.217 hadoop-worker2.tartangalh.eus hadoop-worker2

10.22.87.218 hadoop-worker3.tartangalh.eus hadoop-worker3

10.22.87.219 hadoop-admin1.tartangalh.eus hadoop-admin1

# The following lines are desirable for IPv6 capable hosts

::1 ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

# cat /etc/hosts
127.0.0.1       localhost
#127.0.1.1      hadoop-worker1

# Hadoop cluster nodes
10.22.87.215    hadoop-master1.tartangalh.eus   hadoop-master1
10.22.87.216    hadoop-worker1.tartangalh.eus   hadoop-worker1
10.22.87.217    hadoop-worker2.tartangalh.eus   hadoop-worker2
10.22.87.218    hadoop-worker3.tartangalh.eus   hadoop-worker3
10.22.87.219    hadoop-admin1.tartangalh.eus    hadoop-admin1

# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

# cat /etc/hosts

127.0.0.1 localhost

#127.0.1.1 hadoop-worker1

# Hadoop cluster nodes

10.22.87.215 hadoop-master1.tartangalh.eus hadoop-master1

10.22.87.216 hadoop-worker1.tartangalh.eus hadoop-worker1

10.22.87.217 hadoop-worker2.tartangalh.eus hadoop-worker2

10.22.87.218 hadoop-worker3.tartangalh.eus hadoop-worker3

10.22.87.219 hadoop-admin1.tartangalh.eus hadoop-admin1

# The following lines are desirable for IPv6 capable hosts

::1 ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

En el código anterior podemos ver como ejemplo el /etc/hosts del nodo máster y un worker. Nótese que la seccioón Hadoop cluster nodes de este archivo será común a todas las versiones de este archivo en los diferentes nodos del clúster, y que se comenta la línea con IP 127.0.1.1 para evitar problemas en la resolución del FQDN y con HBase/Zookeeper.

El clúster que se pretende desplegar es un clúster mínimo que físicamente se aloja en un armario rack que contiene los servidores que actúan de nodos del clúster y los dispositivos de conexionado de red (switches) que permiten la comunicación de los nodos.

Cada enlace individual estará conectado a sendos switches CISCO Nexus de la serie 3000 (concretamente N3K-C3064PQ-10GX) que componen un dominio vPC (virtual PortChannel). En la siguiente figura puede observarse esta estructura, destacada en azul, entre varias configuraciones típicas de conexionado vPC:

La siguiente figura muestra como se combinan las estructuras anteriores para nuestro clúster:

Para ver la configuración de los switches y nodos/hosts del clúster puede ver las siguientes entradas de este blog:

El clúster que se pretende desplegar es un clúster Hadoop mínimo que permite almacenar y procesar, a “bajo” coste, grandes volúmenes de datos. Estos clústeres están constituidos por un conjunto de servicios y aplicaciones que forman el llamado ecosistema Hadoop:

El clúster está compuesto por diferentes nodos que ejecutan un conjunto de los servicios de Hadoop, podemos decir que ejercen un rol, dentro del clúster. En la siguiente tabla se listan los servicios/roles de los diferentes nodos del clúster:

La siguiente figura muestra un diagrama de la estructura funcional y pseudo-física del clúster:

Los nodos “worker” de un clúster Hadoop proporcionan recursos de procesamiento y almacenamiento para las tareas que se ejecutan en el clúster.

Servidores

Los servidores elegidos para la implementación de los nodos del clúster son:

Servidores DL380 Gen10 con chasis de 2U, con capacidad para 8 discos SFF, equipado cada uno con:
2 procesadores Intel Xeon Silver 4210R (10 cores, 2,40Ghz, 13,75MB cache L3)
256GB de memoria RAM (8x32GB)DDR4 2R 2933MHz RDIMM
Controladora de discos Smart Array P408i-a SR Gen10 con 2GB RAM cache y batería de 96W de respaldo.
Adaptador ethernet de 4 puertos Gigabit 331i integrado
Tarjeta PCIe Ethernet de 2 puertos 10Gb/s 537SFP+
Doble fuente de alimentación redundante de 800W

Discos

Discos duros HPE SAS/SATA de 2.4TB/480GB SFF (2,5″)

2 discos SSD de 480GB SATA Read Intensive SFF
6 discos HDD SAS de 2.4TB 12G 10K SFF

Configuración de almacenamiento

De acuerdo a las recomendaciones de configuración para este tipo de nodos por parte de diferentes proveedores de hardware, la distribución discos y su uso se muestra en la siguiente tabla:

En las siguientes figuras pueden observarse los diferentes particionados y volúmenes de los discos anteriores:

A continuación puede observarse como han quedado las particiones, sistemas de archivo y su montaje después de la instalación (por ejemplo en el worker 1):

#  lsblk
NAME             MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda                8:0    0   2.2T  0 disk
└─sda1             8:1    0   2.2T  0 part /hadoop/hdfs/data6
sdb                8:16   0   2.2T  0 disk
└─sdb1             8:17   0   2.2T  0 part /hadoop/hdfs/data5
sdc                8:32   0   2.2T  0 disk
└─sdc1             8:33   0   2.2T  0 part /hadoop/hdfs/data4
sdd                8:48   0   2.2T  0 disk
└─sdd1             8:49   0   2.2T  0 part /hadoop/hdfs/data2
sde                8:64   0   2.2T  0 disk
└─sde1             8:65   0   2.2T  0 part /hadoop/hdfs/data3
sdf                8:80   0   2.2T  0 disk
└─sdf1             8:81   0   2.2T  0 part /hadoop/hdfs/data1
sdg                8:96   0 447.1G  0 disk
├─sdg1             8:97   0   1.1G  0 part /boot/efi
├─sdg2             8:98   0     1G  0 part /boot
├─sdg3             8:99   0   443G  0 part
│ ├─vg0-lv--home 253:0    0    10G  0 lvm  /home
│ ├─vg0-lv--root 253:1    0   100G  0 lvm  /
│ └─vg0-lv--var  253:2    0   333G  0 lvm  /var
└─sdg4             8:100  0     2G  0 part [SWAP]

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT

sda 8:0 0 2.2T 0 disk

└─sda1 8:1 0 2.2T 0 part /hadoop/hdfs/data6

sdb 8:16 0 2.2T 0 disk

└─sdb1 8:17 0 2.2T 0 part /hadoop/hdfs/data5

sdc 8:32 0 2.2T 0 disk

└─sdc1 8:33 0 2.2T 0 part /hadoop/hdfs/data4

sdd 8:48 0 2.2T 0 disk

└─sdd1 8:49 0 2.2T 0 part /hadoop/hdfs/data2

sde 8:64 0 2.2T 0 disk

└─sde1 8:65 0 2.2T 0 part /hadoop/hdfs/data3

sdf 8:80 0 2.2T 0 disk

└─sdf1 8:81 0 2.2T 0 part /hadoop/hdfs/data1

sdg 8:96 0 447.1G 0 disk

├─sdg1 8:97 0 1.1G 0 part /boot/efi

├─sdg2 8:98 0 1G 0 part /boot

├─sdg3 8:99 0 443G 0 part

│ ├─vg0-lv--home 253:0 0 10G 0 lvm /home

│ ├─vg0-lv--root 253:1 0 100G 0 lvm /

│ └─vg0-lv--var 253:2 0 333G 0 lvm /var

└─sdg4 8:100 0 2G 0 part [SWAP]

Configuración de red

La red de datos que conecta los nodos del clúster es una red de alta velocidad en la que cada nodo dispone de dos NIC Ethernet agregadas (“bonded”) mediante LACP. Este enlace agregado proporciona el doble de ancho de banda y tolerancia a fallos, en caso de que uno de los enlaces individuales falle. Cada enlace individual estará conectado a sendos switches CISCO Nexus de la serie 3000 (concretamente N3K-C3064PQ-10GX) que componen un dominio vPC (virtual PortChannel). En la siguiente figura puede observarse esta estructura, destacada en azul, entre varias configuraciones típicas de conexionado vPC:

Para implementar el Host Port Channel en los servers se han de agregar mediante “bonding” las dos NIC estableciendo los siguientes parámetros:

MODE= 802.3ad
XMIT Hash Policy= layer2 (default)
LACP rate= fast

El archivo de configuración de red queda como sigue:

~#  cat /etc/netplan/01-bonding-config.yaml
network:
  ethernets:
    eno5:
      dhcp4: false
    eno6:
      dhcp4: true
    eno7:
      dhcp4: true
    eno8:
      dhcp4: true
    ens3f0np0:
      dhcp4: false
    ens3f1np1:
      dhcp4: false
  bonds:
    bond0:
      interfaces: [ens3f0np0, ens3f1np1]
      addresses: [10.22.87.216/24]
      gateway4: 10.22.87.11
      parameters:
        mode: 802.3ad
        transmit-hash-policy: layer2
        lacp-rate: fast
      nameservers:
        addresses:
        - 10.22.87.1
        - 8.8.8.8
        search:
        - TartangaLH.eus
  version: 2

~# cat /etc/netplan/01-bonding-config.yaml

network:

ethernets:

eno5:

dhcp4: false

eno6:

dhcp4: true

eno7:

dhcp4: true

eno8:

dhcp4: true

ens3f0np0:

dhcp4: false

ens3f1np1:

dhcp4: false

bonds:

bond0:

interfaces: [ens3f0np0, ens3f1np1]

addresses: [10.22.87.216/24]

gateway4: 10.22.87.11

parameters:

mode: 802.3ad

transmit-hash-policy: layer2

lacp-rate: fast

nameservers:

addresses:

- 10.22.87.1

- 8.8.8.8

search:

- TartangaLH.eus

version: 2

Los nodos “master” de un clúster Hadoop alojan los servicios de infraestructura críticos: NameNode, YARN ResourceManager, ZooKeeper, bases de datos de soporte, etc… Para ello los recursos de hardware deben ser adecuados y su configuración de sistemas de almacenamiento considerada.

Servidores

Los servidores elegidos para la implementación de los nodos del clúster son:

Servidores DL380 Gen10 con chasis de 2U, con capacidad para 8 discos SFF, equipado cada uno con:
2 procesadores Intel Xeon Silver 4210R (10 cores, 2,40Ghz, 13,75MB cache L3)
256GB de memoria RAM (8x32GB)DDR4 2R 2933MHz RDIMM
Controladora de discos Smart Array P408i-a SR Gen10 con 2GB RAM cache y batería de 96W de respaldo.
Adaptador ethernet de 4 puertos Gigabit 331i integrado
Tarjeta PCIe Ethernet de 2 puertos 10Gb/s 537SFP+
Doble fuente de alimentación redundante de 800W

Discos

Discos duros HPE SAS/SATA de 2.4TB/480GB SFF (2,5″)

2 discos SSD de 480GB SATA Read Intensive SFF
6 discos HDD SAS de 2.4TB 12G 10K SFF

Configuración de almacenamiento

De acuerdo a las recomendaciones de configuración para este tipo de nodos por parte de diferentes proveedores de hardware, la distribución discos y su uso se muestra en la siguiente tabla:

En las siguientes figuras pueden observarse los diferentes particionados y volúmenes de los discos anteriores:

A continuación puede observarse como han quedado las particiones, sistemas de archivo y su montaje después de la instalación:

# lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 2.2T 0 disk
├─vg3-lv--zoo--db 253:7 0 1T 0 lvm /hadoop/zookeeper
└─vg3-lv--reserved 253:8 0 1.2T 0 lvm
sdb 8:16 0 2.2T 0 disk
├─vg2-lv--zoo--journal 253:5 0 1T 0 lvm
└─vg2-lv--dfs--journal 253:6 0 1.2T 0 lvm /home/users
sdc 8:32 0 447.1G 0 disk
├─sdc1 8:33 0 1.1G 0 part /boot/efi
├─sdc2 8:34 0 1G 0 part /boot
├─sdc3 8:35 0 443G 0 part
│ ├─vg0-lv--root 253:2 0 100G 0 lvm /
│ ├─vg0-lv--home 253:3 0 10G 0 lvm /home
│ └─vg0-lv--var 253:4 0 333G 0 lvm /var
└─sdc4 8:36 0 2G 0 part [SWAP]
sdd 8:48 0 4.4T 0 disk
└─sdd1 8:49 0 4.4T 0 part
 ├─vg1-lv--dfs 253:0 0 2.2T 0 lvm /hadoop/hdfs
 └─vg1-lv--pgsql 253:1 0 2.2T 0 lvm /var/lib/pgsql

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT

sda 8:0 0 2.2T 0 disk

├─vg3-lv--zoo--db 253:7 0 1T 0 lvm /hadoop/zookeeper

└─vg3-lv--reserved 253:8 0 1.2T 0 lvm

sdb 8:16 0 2.2T 0 disk

├─vg2-lv--zoo--journal 253:5 0 1T 0 lvm

└─vg2-lv--dfs--journal 253:6 0 1.2T 0 lvm /home/users

sdc 8:32 0 447.1G 0 disk

├─sdc1 8:33 0 1.1G 0 part /boot/efi

├─sdc2 8:34 0 1G 0 part /boot

├─sdc3 8:35 0 443G 0 part

│ ├─vg0-lv--root 253:2 0 100G 0 lvm /

│ ├─vg0-lv--home 253:3 0 10G 0 lvm /home

│ └─vg0-lv--var 253:4 0 333G 0 lvm /var

└─sdc4 8:36 0 2G 0 part [SWAP]

sdd 8:48 0 4.4T 0 disk

└─sdd1 8:49 0 4.4T 0 part

├─vg1-lv--dfs 253:0 0 2.2T 0 lvm /hadoop/hdfs

└─vg1-lv--pgsql 253:1 0 2.2T 0 lvm /var/lib/pgsql

Configuración de red

Para implementar el Host Port Channel en los servers se han de agregar mediante “bonding” las dos NIC estableciendo los siguientes parámetros:

MODE= 802.3ad
XMIT Hash Policy= layer2 (default)
LACP rate= fast

El archivo de configuración de red queda como sigue:

# cat /etc/netplan/00-installer-config.yaml
network:
  ethernets:
    eno5:
      dhcp4: false
    eno6:
      dhcp4: true
    eno7:
      dhcp4: true
    eno8:
      dhcp4: true
    ens3f0np0:
      dhcp4: false
    ens3f1np1:
      dhcp4: false
  bonds:
    bond0:
      interfaces: [ens3f0np0, ens3f1np1]
      addresses: [10.22.87.215/24]
      gateway4: 10.22.87.11
      parameters:
        mode: 802.3ad
        transmit-hash-policy: layer2
        lacp-rate: fast
      nameservers:
        addresses:
        - 10.22.87.1
        - 8.8.8.8
        search:
        - TartangaLH.eus
  version: 2

# cat /etc/netplan/00-installer-config.yaml

network:

ethernets:

eno5:

dhcp4: false

eno6:

dhcp4: true

eno7:

dhcp4: true

eno8:

dhcp4: true

ens3f0np0:

dhcp4: false

ens3f1np1:

dhcp4: false

bonds:

bond0:

interfaces: [ens3f0np0, ens3f1np1]

addresses: [10.22.87.215/24]

gateway4: 10.22.87.11

parameters:

mode: 802.3ad

transmit-hash-policy: layer2

lacp-rate: fast

nameservers:

addresses:

- 10.22.87.1

- 8.8.8.8

search:

- TartangaLH.eus

version: 2

Clúster Big Data

Conoce y accede a toda la información sobre el clúster Hadoop de Tartanga

Author Archives: jmarturi

Tarea I.1: Configuración pre-despliegue, NTP

Tarea H: Instalación de Java

Tarea C: Configuración de la resolución de nombres local

Estructura física del clúster

Estructura funcional del clúster

Configuración de sistema para nodo worker

Servidores

Discos

Configuración de almacenamiento

Configuración de red

Configuración de sistema para nodo máster

Servidores

Discos

Configuración de almacenamiento

Configuración de red

Actividades del procedimiento de configuración del despliegue