1 MapReduce MapReduce es un modelo de programación y un marco de ejecución para resolver problemas de procesamiento de datos masivos. Apache MapReduce 1.1 Introduccion MapReduce Hadoop MapReduce es un framework para escribir fácilmente aplicaciones que procesan grandes cantidades de datos en paralelo en grandes clústeres (miles de nodos) de hardware commodity de manera confiable… Continue reading
Category Archives: Material
Predicción Demanda Eléctrica
DESCRIPCIÓN Objetivo Cargar datos trasformados del consumo energético en el Clúster para después analizarlos y generar predicciones futuras del consumo Energético. Explicación Los datos de los medidores se registran en una base de datos de Serie Temporal (InfluxDB) registrando el consumo del medidor (kWh) con una frecuencia de 1 minuto. Para obtener los datos del… Continue reading
¡¡Hasta el infinito y más allá!!
INTRODUCCIÓN AL RETO: Big Data es un concepto que se crea a raíz de la capacidad de almacenamiento de gran cantidad de datos, normalmente generados por empresas u otro tipo de organismos (facturas, datos de usuarios o clientes, stocks de material…) o con el avance de tecnologías como IoT (directamente por objetos que generan información… Continue reading
Análisis de relación entre la red de sonómetros de Bilbao y el nivel de ruido en la ciudad
DESCRIPCIÓN Objetivo: Realizar un análisis integral de la red de sonómetros en Bilbao para comprender y caracterizar los niveles de ruido en diferentes áreas de la ciudad. Datos: Datos de los sonómetros y geoespaciales. Open data Euskadi (los sonómetros y su geolocalización): https://www.bilbao.eus/aytoonline/jsp/opendata/movilidad/od_sonometro_mediciones.jsp?idioma=c&formato=json https://www.bilbao.eus/aytoonline/jsp/opendata/movilidad/od_sonometro_ubicacion.jsp?idioma=c&formato=geojson Ayuntamiento de Bilbao (tráfico de Bilbao): https://www.bilbao.eus/aytoonline/srvDatasetTrafico?formato=geojson Pasos: 1. Importar… Continue reading
Meflis: Mejorando la Experiencia del Usuario
DESCRIPCIÓN La multinacional Metflis desea realizar un estudio detallado de las películas que sus clientes ven y las calificaciones que otorgan a estas películas. El objetivo principal de este estudio es mejorar la calidad y la relevancia del contenido que se ofrece a los usuarios. Para llevar a cabo esta tarea, crearemos una base de datos relacional… Continue reading
IA&BD Consulting
DESCRIPCIÓN Pertenecemos al departamento de informática de la multinacional IA&BD Consulting, la cual presta servicios a una conocida tele operadora de telefonía móvil. Con la intención de actualizar la empresa a los nuevos tiempos, se ha contratado un nuevo Director General que nada más llegar ha comenzado a pedir una serie de informes de situación… Continue reading
Ejercicios Spark RDD con Zeppelin Notebook
Ejercicios de Spark RDD Importar librerías para trabajar con RDD 1. Crear un RDD a partir de array de números y contar los elementos del RDD. 2. Crear un RDD a partir de array de caracteres y devolver el primer elemento. 3. Crear un RDD a partir de un fichero y mirar si contiene la… Continue reading
Apache Kafka Configuración de Brokers
Instalar en un servidor Zookeper Instalar en 3 servidores diferentes Kafka Configurar server.propertis de cada servidor Kafka para que accedan al servidor de Zookeeper. zookeeper.connect=zookeeper_ip:2181 Configurar cada uno de los kafka para cada uno de ellos tenga un id diferente. broker.id=1 broker.id=2 broker.id=3 Configurar el listener con el protocolo: PLAINTEXT y que escuche desde todas… Continue reading
Apache Kafka y Spark Streaming
Creación de Tópicos, Productores y Consumidores Conectarse a Zoopeker: Para comprobar la conexión: bin/zkCli.sh -server localhost:2181 Conectarse a kafka en segundo plano con daemon: Creación de nuevo topics: Visualización de los topics existentes: Para producir (pantalla de la izquieda) y consumir (pantalla de la derecha) mensajes desde shell (TEST). Existen dos maneras de producir mensajes: Esto… Continue reading
Apache Kafka y ZooKeeper
¿Qué es ZooKeper? ZooKeeper es el servicio de coordinación centralizada para aplicaciones distribuidas. Soluciona problemas como: Almacenamiento de configuración. Bloqueos distribuidos. Elección de líder. Proporciona una estructura similar a la que se encuentra en un sistema de ficheros. Cada elemento de la estructura es conocido como Znode y puede contener información en su interior como… Continue reading