Lectura de Datos y Exploración Básica:
sales_data.csv
).Transformaciones y Acciones en RDDs:
map
para elevar cada número al cuadrado.Operaciones con DataFrames:
users.json
).name
y age
y muestra las primeras 5 filas.gender
y cuenta cuántos usuarios hay en cada grupo.SQL en Spark:
products.parquet
).products
.Spark Streaming:
StreamingContext
para recibir datos de un socket TCP.Machine Learning con MLlib:
housing_data.csv
).features
y price
para predecir el precio de las viviendas.Integración con Kafka:
StreamingContext
para consumir mensajes de un tema de Kafka.Despliegue en Clúster Standalone:
Paralelismo y Particiones:
reduceByKey
para contar la frecuencia de cada palabra.Persistencia y Caché:
cache()
o persist()
.