Ejercicios de Spark RDD

Importar librerías para trabajar con RDD

1. Crear un RDD a partir de array de números y contar los elementos del RDD.

2. Crear un RDD a partir de array de caracteres y devolver el primer elemento.

3. Crear un RDD a partir de un fichero y mirar si contiene la palabra “BigData”.

4. Cuanta el número de elementos de un RDD agrupados por clave.

5. Cuanta en número de elementos de un RDD agrupados por valor.

6. Cuenta personas agrupándolos por nombre y ordénalos ascendentemente.

7. Crea un array de números busca el mayor, el menor, suma todos los valores y saca la media.

8. Cuentas las palabras que hay en el archivo LoremIpsum.txt, muestra por pantallas las 10 palabras con más apariciones.

9. Con el RDD de LoremIpsum nos tenemos que quedar con aquellas palabras que de tamaño sean 6 o superior.

10. Transformar el RDD anterior en mayusculas y visualiza únicamente el 25% de las palabras (la acción que se usa es sample(remplazo, porcentaje, semilla))

11. Dado un array de números visualiza el array ordenado ascendentemente p.e Array (5,4,6,10,7,3,1,9)

12. Dado un array de números comprendidos entre 0 y 20 devolver dos listas; el primero con los números mayores de 10 y otro con los números menores de 10.

13. Dado un array p.e Array(“a b c”, “d f e”, “h i”) pintar por pantalla las letras ordenadas alfabéticamente

14. Dado dos arrays de números crear un solo array ordenado y visualizarlo por pantalla.

15. Crear una función que dado un string devuelva la frase: la palabra escrita es “string”. Crear un rdd con palabras y por cada una de las palabras sacar por pantalla la frase que escribe la funcion

16. Crear dos rdd con los siguientes datos (“garazi”, 6), (“oihan”, 3), (“ane”, 6) y otro con (“oihan”, 5), (“mikel”, 3). El primer campo es la persona y el segundo el numero de apariciones. Visualizar por pantalla el número de apariciones de cada una de las personas por orden descendente.

17. Dado un array de la forma Array((2,3), (1,2), (5,6), (4,5), (8,9), (7,8)). Visualizar que números están repetido y cuales no.

18. Guardar en un acumulador el número de elementos del array anterior con persistecia en disco. Visualizar el valor en pantalla.