Spark - Ejercicios Avanzados

Spark - de Cero a Profesional

Ejercicios avanzados

Optimización de Jobs Spark:
- Lee un archivo Parquet con datos de transacciones financieras (por ejemplo, transactions.parquet).
- Aplica varias transformaciones complejas, incluyendo agregaciones y joins con otros DataFrames.
- Utiliza el modo de ejecución plan para optimizar el rendimiento del job.
- Mide el tiempo de ejecución antes y después de aplicar optimizaciones como broadcast join y reduce shuffle.
Implementación de Algoritmos Personalizados:
- Implementa el algoritmo KMeans desde cero usando RDDs en lugar de la biblioteca MLlib.
- Prueba tu implementación con un conjunto de datos de ejemplo y compara los resultados con los obtenidos usando MLlib.
Procesamiento de Datos en Tiempo Real con Spark Streaming y Kafka:
- Configura un StreamingContext para consumir datos de un tema de Kafka que recibe datos de sensores en tiempo real.
- Aplica ventanas deslizantes y operaciones de estado (stateful operations) para calcular la media móvil de las lecturas de los sensores.
- Guarda los resultados en HDFS y en una base de datos NoSQL como Cassandra.
Machine Learning Pipelines y Validación Cruzada:
- Utiliza un conjunto de datos de ventas para predecir el volumen de ventas.
- Crea un pipeline de Machine Learning que incluya la ingeniería de características, la selección de características y el entrenamiento de un modelo de regresión.
- Implementa la validación cruzada (cross-validation) y la búsqueda de hiperparámetros (hyperparameter tuning) para optimizar el modelo.
Análisis de Grafos con GraphX:
- Carga un grafo que represente una red social usando GraphX.
- Implementa el algoritmo de PageRank para identificar los usuarios más influyentes de la red.
- Realiza operaciones de subgrafos para extraer y analizar comunidades específicas dentro de la red.
Procesamiento y Análisis de Datos Geoespaciales:
- Carga un conjunto de datos geoespaciales en formato GeoJSON.
- Realiza transformaciones y análisis para identificar patrones y tendencias en los datos.
- Utiliza una biblioteca de Spark especializada en datos geoespaciales como GeoSpark.
Integración y Procesamiento de Datos con Apache Flink y Spark:
- Configura un flujo de datos en tiempo real usando Apache Flink para preprocesar datos antes de enviarlos a Spark.
- Configura un StreamingContext en Spark para consumir y procesar los datos preprocesados por Flink.
- Realiza análisis y agregaciones en tiempo real y guarda los resultados en HDFS.
Despliegue de Modelos de Machine Learning en Producción:
- Entrena un modelo de machine learning en un conjunto de datos de ejemplo.
- Serializa y guarda el modelo entrenado en un sistema de almacenamiento distribuido como HDFS.
- Despliega el modelo en un entorno de producción y crea una API REST para realizar predicciones en tiempo real usando el modelo desplegado.
Procesamiento de Datos con Spark SQL y Hive:
- Configura Spark para usar Hive como metastore.
- Crea tablas externas en Hive para datos almacenados en HDFS.
- Realiza consultas SQL complejas y análisis sobre las tablas de Hive usando Spark SQL.
- Optimiza las consultas utilizando particionamiento y bucketing.
Análisis de Logs y Detección de Anomalías:
- Carga y procesa grandes volúmenes de logs de servidor web.
- Utiliza técnicas de análisis de series temporales y algoritmos de detección de anomalías para identificar patrones inusuales en los logs.
- Entrena un modelo de machine learning para predecir futuras anomalías basándose en los datos históricos de logs.

Spark - de Cero a Profesional

Ejercicios avanzados

Recursos