Lectura de Datos y Exploración Básica:
sales_data.csv).Transformaciones y Acciones en RDDs:
map para elevar cada número al cuadrado.Operaciones con DataFrames:
users.json).name y age y muestra las primeras 5 filas.gender y cuenta cuántos usuarios hay en cada grupo.SQL en Spark:
products.parquet).products.Spark Streaming:
StreamingContext para recibir datos de un socket TCP.Machine Learning con MLlib:
housing_data.csv).features y price para predecir el precio de las viviendas.Integración con Kafka:
StreamingContext para consumir mensajes de un tema de Kafka.Despliegue en Clúster Standalone:
Paralelismo y Particiones:
reduceByKey para contar la frecuencia de cada palabra.Persistencia y Caché:
cache() o persist().