Ejercicios avanzados

Ejercicio 1: Análisis de Datos con dplyr y tidyr

  1. Carga el conjunto de datos nycflights13::flights de la biblioteca nycflights13.
  2. Filtra los vuelos que fueron cancelados (indica la razón del retraso como NA).
  3. Calcula el promedio y la desviación estándar del tiempo de retraso (arr_delay) por cada aerolínea (carrier).
  4. Usa tidyr para convertir la tabla de vuelos en formato ancho a formato largo, con las columnas year, month y day como identificadores.
  5. Crea un gráfico que muestre el promedio de retraso por mes.

Ejercicio 2: Regresión Múltiple y Análisis de Residuos

  1. Carga el conjunto de datos mtcars.
  2. Ajusta un modelo de regresión lineal múltiple con mpg como variable dependiente y disp, hp, wt, y qsec como variables independientes.
  3. Interpreta los coeficientes del modelo.
  4. Realiza un diagnóstico de los residuos del modelo y genera un gráfico de residuos vs. valores ajustados.
  5. Evalúa la presencia de multicolinealidad entre las variables independientes utilizando el Factor de Inflación de la Varianza (VIF).

Ejercicio 3: Análisis de Series Temporales

  1. Carga el conjunto de datos AirPassengers.
  2. Descompón la serie temporal en sus componentes: tendencia, estacionalidad y error.
  3. Ajusta un modelo ARIMA para la serie temporal.
  4. Realiza una predicción de la serie temporal para los próximos 12 meses.
  5. Visualiza los resultados de la predicción junto con los datos originales.

Ejercicio 4: Análisis de Datos de Texto

  1. Carga un conjunto de datos de texto, como un conjunto de artículos o libros.
  2. Limpia el texto eliminando palabras vacías (stop words), puntuación y convirtiendo a minúsculas.
  3. Crea una matriz de términos (Term-Document Matrix).
  4. Realiza un análisis de frecuencia de palabras y visualiza las palabras más frecuentes con una nube de palabras (word cloud).
  5. Aplica un análisis de tópicos utilizando Latent Dirichlet Allocation (LDA) para identificar temas en el texto.

Ejercicio 5: Análisis de Redes Sociales

  1. Carga un conjunto de datos de una red social (por ejemplo, un conjunto de datos de conexiones entre usuarios).
  2. Crea un grafo a partir de los datos utilizando el paquete igraph.
  3. Calcula medidas de centralidad como grado, cercanía y intermediación para los nodos del grafo.
  4. Identifica las comunidades dentro de la red utilizando un algoritmo de detección de comunidades.
  5. Visualiza el grafo resaltando las comunidades y las medidas de centralidad.

Ejercicio 6: Análisis de Supervivencia

  1. Carga el conjunto de datos survival::lung.
  2. Realiza un análisis de supervivencia utilizando el método de Kaplan-Meier.
  3. Ajusta un modelo de riesgos proporcionales de Cox para el tiempo de supervivencia.
  4. Interpreta los coeficientes del modelo de Cox.
  5. Visualiza las curvas de supervivencia para diferentes grupos en el conjunto de datos.