Saltar a contenido

Ejercicios​‌​‌​‌​​‍​‌​​​‌​‌‍​​‌‌‌​‌​‍​​‌‌​‌​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​‌​​‍​​‌‌‌​​‌‍​‌‌​​​‌​‍​​‌‌​​​‌‍​‌‌​​​​‌‍​​‌‌​‌​‌‍​‌‌​​‌‌​‍​​‌‌​‌‌​‍​‌‌​​‌​‌‍​​‌‌​‌‌‌‍​‌‌​​​‌‌‍​​‌‌​​‌‌‍​‌‌​​‌​​‍​​‌‌‌​‌​‍​​‌‌​​‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​‌‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​​​‌‍​​‌‌​​‌‌‍​​‌‌‌​‌​‍​‌‌​​‌​​‍​​‌‌​‌‌​‍​​‌‌‌​​​‍​​‌‌​​​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​​​‌‍​​‌‌‌​​​

Lista completa de todos los ejercicios disponibles en el curso.​‌​‌​‌​​‍​‌​​​‌​‌‍​​‌‌‌​‌​‍​​‌‌​‌​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​‌​​‍​​‌‌‌​​‌‍​‌‌​​​‌​‍​​‌‌​​​‌‍​‌‌​​​​‌‍​​‌‌​‌​‌‍​‌‌​​‌‌​‍​​‌‌​‌‌​‍​‌‌​​‌​‌‍​​‌‌​‌‌‌‍​‌‌​​​‌‌‍​​‌‌​​‌‌‍​‌‌​​‌​​‍​​‌‌‌​‌​‍​​‌‌​​‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​‌‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​​​‌‍​​‌‌​​‌‌‍​​‌‌‌​‌​‍​‌‌​​‌​​‍​​‌‌​‌‌​‍​​‌‌‌​​​‍​​‌‌​​​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​​​‌‍​​‌‌‌​​​


Roadmap de Ejercicios

Modulo 1: Bases de Datos

# Ejercicio Tecnologia Nivel Estado
1.1 Introduccion SQLite SQLite + Pandas Basico Disponible
2.1 PostgreSQL HR PostgreSQL Intermedio Disponible
2.2 PostgreSQL Jardineria PostgreSQL Intermedio Disponible
2.3 Migracion SQLite a PostgreSQL PostgreSQL + Python Intermedio Disponible
3.1 Oracle HR Oracle Database Avanzado Disponible
5.1 Analisis Excel/Python Pandas + Excel Basico Disponible

Modulo 2: Limpieza de Datos y ETL

# Ejercicio Tecnologia Nivel Estado
02 Pipeline ETL QoG PostgreSQL + Pandas Avanzado Disponible

Modulo 3: Procesamiento Distribuido

# Ejercicio Tecnologia Nivel Estado
03 Procesamiento Distribuido con Dask Dask + Parquet Intermedio Disponible

Modulo 4: Machine Learning

# Ejercicio Tecnologia Nivel Estado
04 Machine Learning (PCA, K-Means) Scikit-Learn, PCA, K-Means Avanzado Disponible
04.2 Transfer Learning Flores TensorFlow, MobileNetV2 Avanzado Disponible
ARIMA Series Temporales ARIMA/SARIMA statsmodels, Box-Jenkins Avanzado Disponible

Modulo 5: NLP y Text Mining

# Ejercicio Tecnologia Nivel Estado
05 NLP y Text Mining NLTK, TF-IDF, Jaccard, Sentimiento Avanzado Disponible

Modulo 6: Analisis de Datos de Panel

# Ejercicio Tecnologia Nivel Estado
06 Analisis de Datos de Panel linearmodels, Panel OLS, Altair Avanzado Disponible

Modulo 7: Infraestructura Big Data

# Ejercicio Tecnologia Nivel Estado
07 Infraestructura Big Data Docker Compose, Apache Spark Intermedio-Avanzado Disponible

Modulo 8: Streaming con Kafka

# Ejercicio Tecnologia Nivel Estado
08 Streaming con Kafka Apache Kafka, Spark Streaming, KRaft Avanzado Disponible

Modulo 9: Cloud con LocalStack

# Ejercicio Tecnologia Nivel Estado
09 Cloud con LocalStack LocalStack, Terraform, AWS Avanzado Disponible

Trabajo Final

# Ejercicio Tecnologia Nivel Estado
TF Proyecto Final Integrador Docker + Spark + PostgreSQL + QoG Avanzado Disponible

MODULO 1: Bases de Datos

Ejercicio 1.1: Introduccion a SQLite

Detalles

  • Nivel: Basico
  • Dataset: NYC Taxi (muestra 10MB)
  • Tecnologias: SQLite, Pandas

Que aprenderas:

  • Cargar datos CSV a base de datos SQLite
  • Queries SQL basicas (SELECT, WHERE, GROUP BY)
  • Optimizacion con indices
  • Exportar resultados a CSV

Ver Ejercicio Completo


Ejercicio 2.1: PostgreSQL con BD HR

Detalles

  • Nivel: Intermedio
  • Base de Datos: HR (Human Resources) de Oracle
  • Tecnologias: PostgreSQL, SQL

Que aprenderas:

  • Instalar y configurar PostgreSQL
  • Cargar bases de datos desde scripts SQL
  • Consultas complejas con multiples JOINs
  • Funciones especificas de PostgreSQL

Ver Ejercicio Completo


Ejercicio 2.2: PostgreSQL Jardineria

Detalles

  • Nivel: Intermedio
  • Base de Datos: Sistema de ventas de jardineria
  • Tecnologias: PostgreSQL, Window Functions

Que aprenderas:

  • Analisis de ventas con SQL
  • Agregaciones complejas (GROUP BY, HAVING)
  • Window Functions para rankings
  • Vistas materializadas

Ver Ejercicio Completo


Ejercicio 2.3: Migracion SQLite a PostgreSQL

Detalles

  • Nivel: Intermedio
  • Tecnologias: SQLite, PostgreSQL, Python

Que aprenderas:

  • Diferencias entre motores de BD
  • Migrar esquemas y datos
  • Adaptar tipos de datos
  • Validar integridad

Ver Ejercicio Completo


Ejercicio 3.1: Oracle con BD HR

Avanzado

  • Nivel: Avanzado
  • Base de Datos: HR en Oracle nativo
  • Tecnologias: Oracle Database, PL/SQL

Que aprenderas:

  • Instalar Oracle Database XE
  • Sintaxis especifica de Oracle
  • PL/SQL (procedimientos, funciones)
  • Secuencias y triggers

Ver Ejercicio Completo


Ejercicio 5.1: Analisis Excel/Python

Detalles

  • Nivel: Basico-Intermedio
  • Tecnologias: Python, Pandas, Excel

Que aprenderas:

  • Leer archivos Excel con Python
  • Analisis exploratorio de datos (EDA)
  • Visualizaciones con matplotlib/seaborn
  • Automatizar analisis

Ver Ejercicio Completo


MODULO 2: Limpieza de Datos y ETL

Pipeline ETL Profesional - Quality of Government

Detalles

  • Nivel: Avanzado
  • Dataset: QoG (1289 variables, 194+ paises)
  • Tecnologias: PostgreSQL, Pandas, psycopg2

Que aprenderas:

  • Disenar arquitectura ETL modular
  • Trabajar con PostgreSQL para analisis longitudinal
  • Limpiar datasets complejos (>1000 variables)
  • Preparar datos de panel para econometria

Ver Ejercicio Completo


MODULO 3: Procesamiento Distribuido

Procesamiento Distribuido con Dask

Detalles

  • Nivel: Intermedio
  • Tecnologias: Dask, Parquet, LocalCluster

Que aprenderas:

  • Configurar un Cluster Local con Dask
  • Leer archivos Parquet de forma particionada
  • Ejecutar agregaciones complejas en paralelo
  • Comparar rendimiento vs Pandas

Ver Ejercicio Completo


MODULO 4: Machine Learning

Machine Learning en Big Data

Detalles

  • Nivel: Avanzado
  • Tecnologias: Scikit-Learn, PCA, K-Means
  • Scripts: PCA Iris, FactoMineR, Breast Cancer, Wine, TF-IDF

Que aprenderas:

  • Reduccion de dimensionalidad con PCA
  • Clustering con K-Means y Hierarchical Clustering
  • Interpretacion de componentes principales
  • Perfilado de clusters

Ver Ejercicio Completo


Transfer Learning: Clasificacion de Flores

Detalles

  • Nivel: Avanzado
  • Tecnologias: TensorFlow, MobileNetV2, Scikit-Learn
  • Dataset: TensorFlow Flowers (3,670 imagenes, 5 clases)

Que aprenderas:

  • Transfer Learning con redes pre-entrenadas (ImageNet)
  • Extraccion de embeddings con CNNs
  • Clasificacion de imagenes con ML tradicional (KNN, SVM, Random Forest)
  • Visualizacion t-SNE de espacios de alta dimension

Ver Dashboard Interactivo


Series Temporales: ARIMA/SARIMA

Detalles

  • Nivel: Avanzado
  • Dataset: AirPassengers (144 observaciones, 1949-1960)
  • Tecnologias: statsmodels, Metodologia Box-Jenkins

Que aprenderas:

  • Metodologia Box-Jenkins completa (Identificacion, Estimacion, Diagnostico, Pronostico)
  • Modelos ARIMA y SARIMA con estacionalidad
  • ACF/PACF para identificacion de ordenes
  • Diagnostico de residuos y pronosticos

Ver Ejercicio Completo



MODULO 5: NLP y Text Mining

NLP y Text Mining

Detalles

  • Nivel: Avanzado
  • Tecnologias: NLTK, TF-IDF, Jaccard, Sentiment Analysis
  • Scripts: Conteo, Limpieza, Sentimiento, Similitud

Que aprenderas:

  • Tokenizacion y limpieza de texto
  • Eliminacion de stopwords
  • Similitud de Jaccard entre documentos
  • Analisis de sentimiento por lexicon

Ver Ejercicio Completo


MODULO 6: Analisis de Datos de Panel

Analisis de Datos de Panel

Detalles

  • Nivel: Avanzado
  • Datasets: Guns (leyes de armas), Fatalities (mortalidad trafico)
  • Tecnologias: linearmodels, Panel OLS, Altair

Que aprenderas:

  • Datos de panel: estructura pais x anio
  • Efectos Fijos vs Efectos Aleatorios
  • Two-Way Fixed Effects
  • Test de Hausman para seleccion de modelo
  • Odds Ratios y Efectos Marginales

Ver Ejercicio Completo


MODULO 7: Infraestructura Big Data

Infraestructura Big Data: Docker y Spark

Detalles

  • Nivel: Intermedio-Avanzado
  • Tipo: Teorico-Conceptual con ejemplos practicos
  • Tecnologias: Docker, Docker Compose, Apache Spark

Que aprenderas:

  • Docker: contenedores, imagenes, Dockerfile, orquestacion con Compose
  • Redes, volumenes, healthchecks, patrones de produccion
  • Apache Spark: arquitectura Master-Worker, cluster con Docker
  • SparkSession, Lazy Evaluation, DAG, optimizador Catalyst
  • Spark + PostgreSQL via JDBC
  • De Standalone a produccion (Kubernetes, EMR, Dataproc)

Ver Ejercicio Completo


MODULO 8: Streaming con Kafka

Streaming con Apache Kafka

Detalles

  • Nivel: Avanzado
  • Tecnologias: Apache Kafka (KRaft), Python, Spark Streaming
  • API: USGS Earthquakes (tiempo real)

Que aprenderas:

  • Arquitectura de Kafka: Brokers, Topics, Partitions
  • Modo KRaft (sin ZooKeeper)
  • Productores y Consumidores en Python
  • Spark Structured Streaming
  • Sistema de alertas en tiempo real

Ver Ejercicio Completo


MODULO 9: Cloud con LocalStack

Cloud con LocalStack y Terraform

Detalles

  • Nivel: Avanzado
  • Tecnologias: LocalStack, Terraform, AWS (S3, Lambda, DynamoDB)
  • API: ISS Tracker (tiempo real)

Que aprenderas:

  • Cloud Computing: IaaS, PaaS, SaaS
  • Simular AWS localmente con LocalStack
  • Infraestructura como Codigo con Terraform
  • Funciones Lambda serverless
  • Arquitectura Data Lake (Medallion)

Ver Ejercicio Completo


TRABAJO FINAL

Proyecto Final: Pipeline de Big Data con Docker

Proyecto Integrador

  • Nivel: Avanzado
  • Tecnologias: Docker, Apache Spark, PostgreSQL, QoG
  • Evaluacion: Infraestructura 30% + ETL 25% + Analisis 25% + Reflexion IA 20%

Que haras:

  • Construir infraestructura Docker (Spark + PostgreSQL)
  • Disenar y ejecutar un pipeline ETL con Apache Spark
  • Analizar datos QoG con pregunta de investigacion propia
  • Documentar tu proceso de aprendizaje con IA

Ver Enunciado Completo


Datasets Utilizados

NYC Taxi & Limousine Commission (TLC)

Quality of Government (QoG)

AirPassengers

  • Fuente: Box & Jenkins (1976)
  • Periodo: 1949-1960 (144 observaciones mensuales)
  • Uso: Series temporales ARIMA/SARIMA

Como Trabajar los Ejercicios

Flujo Recomendado

  1. Leer el enunciado completo - No empieces a codear sin leer todo
  2. Entender los objetivos - Que se espera que logres?
  3. Crear rama de trabajo - git checkout -b tu-apellido-ejercicio-XX
  4. Trabajar en pasos pequenos - No intentes hacerlo todo de una vez
  5. Probar frecuentemente - Ejecuta tu codigo cada vez que completes una parte
  6. Hacer commits regulares - Guarda tu progreso frecuentemente
  7. Subir con git push - Cuando completes, el sistema evalua tu PROMPTS.md

​‌​‌​‌​​‍​‌​​​‌​‌‍​​‌‌‌​‌​‍​​‌‌​‌​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​‌​​‍​​‌‌‌​​‌‍​‌‌​​​‌​‍​​‌‌​​​‌‍​‌‌​​​​‌‍​​‌‌​‌​‌‍​‌‌​​‌‌​‍​​‌‌​‌‌​‍​‌‌​​‌​‌‍​​‌‌​‌‌‌‍​‌‌​​​‌‌‍​​‌‌​​‌‌‍​‌‌​​‌​​‍​​‌‌‌​‌​‍​​‌‌​​‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​‌‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​​​‌‍​​‌‌​​‌‌‍​​‌‌‌​‌​‍​‌‌​​‌​​‍​​‌‌​‌‌​‍​​‌‌‌​​​‍​​‌‌​​​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​​​‌‍​​‌‌‌​​​---

Proximos Pasos

Empieza con el primer ejercicio:

Ejercicio 01: Introduccion SQLite

O salta al proyecto final:

Trabajo Final: Pipeline Big Data