Spark - Tema 5: Machine Learning con MLlib

import org.apache.spark.sql.SparkSession import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.regression.LinearRegression import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.clustering.KMeans import org.apache.spark.ml.evaluation.RegressionEvaluator import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator object MLLibExample { def main(args: Array[String]): Unit = { // Crear una SparkSession val spark = SparkSession.builder .appName("MLLib Example") .master("local[*]") .getOrCreate() import spark.implicits._ // Cargar datos de ejemplo para regresión lineal val regressionData = Seq( (1.0, 2.0, 3.0, 4.0), (2.0, 3.0, 4.0, 5.0), (3.0, 4.0, 5.0, 6.0) ).toDF("label", "feature1", "feature2", "feature3") // Transformar datos a formato adecuado para MLlib val assembler = new VectorAssembler() .setInputCols(Array("feature1", "feature2", "feature3")) .setOutputCol("features") val regressionDataTransformed = assembler.transform(regressionData) // Regresión Lineal val lr = new LinearRegression() .setLabelCol("label") .setFeaturesCol("features") val lrModel = lr.fit(regressionDataTransformed) println(s"Coefficients: ${lrModel.coefficients} Intercept: ${lrModel.intercept}") // Cargar datos de ejemplo para clasificación logística val classificationData = Seq( (1.0, 1.0, 2.0, 3.0), (0.0, 2.0, 3.0, 4.0), (1.0, 3.0, 4.0, 5.0) ).toDF("label", "feature1", "feature2", "feature3") // Transformar datos a formato adecuado para MLlib val classificationDataTransformed = assembler.transform(classificationData) // Clasificación Logística val lrClassifier = new LogisticRegression() .setLabelCol("label") .setFeaturesCol("features") val lrClassifierModel = lrClassifier.fit(classificationDataTransformed) println(s"Coefficients: ${lrClassifierModel.coefficients} Intercept: ${lrClassifierModel.intercept}") // Cargar datos de ejemplo para clustering KMeans val clusteringData = Seq( (1.0, 2.0, 3.0), (4.0, 5.0, 6.0), (7.0, 8.0, 9.0) ).toDF("feature1", "feature2", "feature3") // Transformar datos a formato adecuado para MLlib val clusteringDataTransformed = assembler.transform(clusteringData) // Clustering KMeans val kmeans = new KMeans() .setK(2) .setFeaturesCol("features") val kmeansModel = kmeans.fit(clusteringDataTransformed) println(s"Cluster Centers: ${kmeansModel.clusterCenters.mkString(", ")}") // Finalizar SparkSession spark.stop() } }

import org.apache.spark.sql.SparkSession import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.feature.{VectorAssembler, StandardScaler} import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator import org.apache.spark.ml.tuning.{ParamGridBuilder, TrainValidationSplit} object MLPipelineExample { def main(args: Array[String]): Unit = { // Crear una SparkSession val spark = SparkSession.builder .appName("ML Pipeline Example") .master("local[*]") .getOrCreate() import spark.implicits._ // Cargar datos de ejemplo val data = Seq( (1.0, 1.0, 0.1, 0.5), (0.0, 2.0, 0.2, 0.6), (1.0, 3.0, 0.3, 0.7), (0.0, 4.0, 0.4, 0.8) ).toDF("label", "feature1", "feature2", "feature3") // Definir las etapas del pipeline val assembler = new VectorAssembler() .setInputCols(Array("feature1", "feature2", "feature3")) .setOutputCol("features") val scaler = new StandardScaler() .setInputCol("features") .setOutputCol("scaledFeatures") val logisticRegression = new LogisticRegression() .setLabelCol("label") .setFeaturesCol("scaledFeatures") // Crear el pipeline val pipeline = new Pipeline() .setStages(Array(assembler, scaler, logisticRegression)) // Dividir los datos en conjuntos de entrenamiento y prueba val Array(trainingData, testData) = data.randomSplit(Array(0.8, 0.2)) // Ajustar el pipeline con los datos de entrenamiento val model = pipeline.fit(trainingData) // Realizar predicciones en los datos de prueba val predictions = model.transform(testData) // Evaluar el modelo val evaluator = new BinaryClassificationEvaluator() .setLabelCol("label") .setRawPredictionCol("rawPrediction") val accuracy = evaluator.evaluate(predictions) println(s"Test Error = ${1.0 - accuracy}") // Ejemplo de validación cruzada con TrainValidationSplit val paramGrid = new ParamGridBuilder() .addGrid(logisticRegression.regParam, Array(0.1, 0.01)) .build() val trainValidationSplit = new TrainValidationSplit() .setEstimator(pipeline) .setEvaluator(evaluator) .setEstimatorParamMaps(paramGrid) .setTrainRatio(0.8) // Ajustar TrainValidationSplit con los datos de entrenamiento val tvModel = trainValidationSplit.fit(data) // Realizar predicciones y evaluar el modelo val tvPredictions = tvModel.transform(testData) val tvAccuracy = evaluator.evaluate(tvPredictions) println(s"TrainValidationSplit Test Error = ${1.0 - tvAccuracy}") // Finalizar SparkSession spark.stop() } }

Explicación del Código

Crear una SparkSession:
- Se configura y crea una nueva sesión de Spark con un nombre de aplicación y el modo de ejecución en local (local[*]).
Cargar datos de ejemplo:
- Se crea un DataFrame con datos de ejemplo, con columnas label, feature1, feature2, y feature3.
Definir las etapas del pipeline:
- VectorAssembler: Se utiliza para combinar múltiples columnas de características en una única columna de características.
- StandardScaler: Se utiliza para escalar las características a una escala estándar.
- LogisticRegression: Se define un modelo de regresión logística que usará las características escaladas para la clasificación.
Crear el pipeline:
- Se crea un objeto Pipeline y se configuran las etapas del pipeline en el orden deseado.
Dividir los datos en conjuntos de entrenamiento y prueba:
- Se utiliza randomSplit para dividir los datos en dos conjuntos: entrenamiento (80%) y prueba (20%).
Ajustar el pipeline con los datos de entrenamiento:
- Se ajusta (entrena) el pipeline utilizando los datos de entrenamiento.
Realizar predicciones en los datos de prueba:
- Se utiliza el modelo ajustado para transformar los datos de prueba y generar predicciones.
Evaluar el modelo:
- Se define un evaluador de clasificación binaria (BinaryClassificationEvaluator) para evaluar la precisión del modelo.
- Se calcula y muestra el error de prueba (1.0 – precisión).
Validación cruzada con TrainValidationSplit:
- Se define una cuadrícula de parámetros para la regularización del modelo de regresión logística (regParam).
- Se configura y ajusta un TrainValidationSplit para realizar la validación cruzada y seleccionar el mejor modelo basado en la cuadrícula de parámetros.
Evaluar el modelo de TrainValidationSplit:

Se utilizan los datos de prueba para realizar predicciones y evaluar el modelo ajustado con TrainValidationSplit.
Se calcula y muestra el error de prueba para el modelo de validación cruzada.

Finalizar SparkSession:

Se detiene la sesión de Spark para liberar los recursos.

Este ejemplo muestra cómo crear y utilizar pipelines de machine learning en Spark MLlib, incluyendo la definición de transformadores y estimadores, el ajuste del pipeline, la evaluación del modelo y el uso de TrainValidationSplit para la validación cruzada.

import org.apache.spark.sql.SparkSession import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.feature.{VectorAssembler, StandardScaler} import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.evaluation.{BinaryClassificationEvaluator, MulticlassClassificationEvaluator, RegressionEvaluator} import org.apache.spark.ml.regression.LinearRegression object ModelEvaluationExample { def main(args: Array[String]): Unit = { // Crear una SparkSession val spark = SparkSession.builder .appName("Model Evaluation Example") .master("local[*]") .getOrCreate() import spark.implicits._ // Cargar datos de ejemplo para clasificación val classificationData = Seq( (1.0, 1.0, 0.1, 0.5), (0.0, 2.0, 0.2, 0.6), (1.0, 3.0, 0.3, 0.7), (0.0, 4.0, 0.4, 0.8) ).toDF("label", "feature1", "feature2", "feature3") // Transformar datos a formato adecuado para MLlib val assembler = new VectorAssembler() .setInputCols(Array("feature1", "feature2", "feature3")) .setOutputCol("features") val classificationDataTransformed = assembler.transform(classificationData) // Dividir los datos en conjuntos de entrenamiento y prueba val Array(trainingData, testData) = classificationDataTransformed.randomSplit(Array(0.8, 0.2)) // Clasificación Logística val logisticRegression = new LogisticRegression() .setLabelCol("label") .setFeaturesCol("features") val lrModel = logisticRegression.fit(trainingData) // Realizar predicciones en los datos de prueba val predictions = lrModel.transform(testData) // Evaluar el modelo de clasificación val binaryEvaluator = new BinaryClassificationEvaluator() .setLabelCol("label") .setRawPredictionCol("rawPrediction") val auc = binaryEvaluator.evaluate(predictions) println(s"Área bajo la curva ROC: $auc") // Cargar datos de ejemplo para regresión val regressionData = Seq( (4.0, 1.0, 2.0, 3.0), (2.0, 2.0, 3.0, 4.0), (3.0, 3.0, 4.0, 5.0), (5.0, 4.0, 5.0, 6.0) ).toDF("label", "feature1", "feature2", "feature3") val regressionDataTransformed = assembler.transform(regressionData) // Dividir los datos en conjuntos de entrenamiento y prueba val Array(trainingDataReg, testDataReg) = regressionDataTransformed.randomSplit(Array(0.8, 0.2)) // Regresión Lineal val linearRegression = new LinearRegression() .setLabelCol("label") .setFeaturesCol("features") val lrRegModel = linearRegression.fit(trainingDataReg) // Realizar predicciones en los datos de prueba val regPredictions = lrRegModel.transform(testDataReg) // Evaluar el modelo de regresión val regEvaluator = new RegressionEvaluator() .setLabelCol("label") .setPredictionCol("prediction") .setMetricName("rmse") val rmse = regEvaluator.evaluate(regPredictions) println(s"Error cuadrático medio raíz (RMSE): $rmse") // Finalizar SparkSession spark.stop() } }

Spark - de Cero a Profesional

Machine Learning con MLlib

Algoritmos básicos

Código de Ejemplo

Explicación del Código

Pipelines de ML

Código de Ejemplo

Explicación del Código

Evaluación de modelos

Código de Ejemplo

Explicación del Código

Recursos