Apache Spark es un motor de análisis de datos a gran escala que fue desarrollado en el AMPLab de la Universidad de California, Berkeley. Fue diseñado para superar las limitaciones de Hadoop MapReduce, ofreciendo una mayor velocidad y facilidad de uso. Spark permite el procesamiento en memoria, lo que mejora significativamente el rendimiento de las aplicaciones de análisis de datos.
La arquitectura de Spark se basa en un modelo maestro-esclavo. El Driver es el maestro que gestiona el proceso principal y coordina la ejecución de las tareas. Los Workers son los esclavos que realizan las tareas de procesamiento. Spark distribuye los datos en Resilient Distributed Datasets (RDDs), que son estructuras de datos distribuidas e inmutables.
Spark está compuesto por varios componentes principales:
Para comenzar a trabajar con Apache Spark, es necesario instalar y configurar el entorno adecuado. Spark puede ser ejecutado en modo local (en una sola máquina) para propósitos de desarrollo y pruebas, o en un clúster para procesamiento a gran escala. A continuación, se describen los pasos básicos para instalar y configurar Spark en un entorno local.
Prerequisitos:
Descargar Spark:
Descomprimir y Configurar Spark:
SPARK_HOME
y agrega Spark al PATH
.Ejecutar Spark en Modo Local:
spark-shell
para iniciar la consola interactiva de Spark en Scala.pyspark
para iniciar la consola interactiva de Spark en Python.
# Descargar y descomprimir Spark
wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz
tar -xzf spark-3.1.2-bin-hadoop2.7.tgz
mv spark-3.1.2-bin-hadoop2.7 /usr/local/spark
# Configurar variables de entorno
echo "export SPARK_HOME=/usr/local/spark" >> ~/.bashrc
echo "export PATH=$PATH:$SPARK_HOME/bin" >> ~/.bashrc
source ~/.bashrc
# Verificar la instalación
spark-shell
Descargar y Descomprimir Spark:
wget
para descargar Spark desde el sitio oficial.tar -xzf
./usr/local/spark
.Configurar Variables de Entorno:
SPARK_HOME
al archivo .bashrc
, apuntando al directorio de instalación de Spark.PATH
para poder ejecutar comandos de Spark desde cualquier lugar en la terminal..bashrc
con source ~/.bashrc
.Verificar la Instalación:
spark-shell
para iniciar la consola interactiva de Spark en Scala y verificar que Spark esté correctamente instalado y configurado.