Ejercicios¶
Lista completa de todos los ejercicios disponibles en el curso.
Roadmap de Ejercicios¶
Modulo 1: Bases de Datos¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 1.1 | Introduccion SQLite | SQLite + Pandas | Basico | Disponible |
| 2.1 | PostgreSQL HR | PostgreSQL | Intermedio | Disponible |
| 2.2 | PostgreSQL Jardineria | PostgreSQL | Intermedio | Disponible |
| 2.3 | Migracion SQLite a PostgreSQL | PostgreSQL + Python | Intermedio | Disponible |
| 3.1 | Oracle HR | Oracle Database | Avanzado | Disponible |
| 5.1 | Analisis Excel/Python | Pandas + Excel | Basico | Disponible |
Modulo 2: Limpieza de Datos y ETL¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 02 | Pipeline ETL QoG | PostgreSQL + Pandas | Avanzado | Disponible |
Modulo 3: Procesamiento Distribuido¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 03 | Procesamiento Distribuido con Dask | Dask + Parquet | Intermedio | Disponible |
Modulo 4: Machine Learning¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 04 | Machine Learning (PCA, K-Means) | Scikit-Learn, PCA, K-Means | Avanzado | Disponible |
| 04.2 | Transfer Learning Flores | TensorFlow, MobileNetV2 | Avanzado | Disponible |
| ARIMA | Series Temporales ARIMA/SARIMA | statsmodels, Box-Jenkins | Avanzado | Disponible |
Modulo 5: NLP y Text Mining¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 05 | NLP y Text Mining | NLTK, TF-IDF, Jaccard, Sentimiento | Avanzado | Disponible |
Modulo 6: Analisis de Datos de Panel¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 06 | Analisis de Datos de Panel | linearmodels, Panel OLS, Altair | Avanzado | Disponible |
Modulo 7: Infraestructura Big Data¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 07 | Infraestructura Big Data | Docker Compose, Apache Spark | Intermedio-Avanzado | Disponible |
Modulo 8: Streaming con Kafka¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 08 | Streaming con Kafka | Apache Kafka, Spark Streaming, KRaft | Avanzado | Disponible |
Modulo 9: Cloud con LocalStack¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| 09 | Cloud con LocalStack | LocalStack, Terraform, AWS | Avanzado | Disponible |
Trabajo Final¶
| # | Ejercicio | Tecnologia | Nivel | Estado |
|---|---|---|---|---|
| TF | Proyecto Final Integrador | Docker + Spark + PostgreSQL + QoG | Avanzado | Disponible |
MODULO 1: Bases de Datos¶
Ejercicio 1.1: Introduccion a SQLite¶
Detalles
- Nivel: Basico
- Dataset: NYC Taxi (muestra 10MB)
- Tecnologias: SQLite, Pandas
Que aprenderas:
- Cargar datos CSV a base de datos SQLite
- Queries SQL basicas (SELECT, WHERE, GROUP BY)
- Optimizacion con indices
- Exportar resultados a CSV
Ejercicio 2.1: PostgreSQL con BD HR¶
Detalles
- Nivel: Intermedio
- Base de Datos: HR (Human Resources) de Oracle
- Tecnologias: PostgreSQL, SQL
Que aprenderas:
- Instalar y configurar PostgreSQL
- Cargar bases de datos desde scripts SQL
- Consultas complejas con multiples JOINs
- Funciones especificas de PostgreSQL
Ejercicio 2.2: PostgreSQL Jardineria¶
Detalles
- Nivel: Intermedio
- Base de Datos: Sistema de ventas de jardineria
- Tecnologias: PostgreSQL, Window Functions
Que aprenderas:
- Analisis de ventas con SQL
- Agregaciones complejas (GROUP BY, HAVING)
- Window Functions para rankings
- Vistas materializadas
Ejercicio 2.3: Migracion SQLite a PostgreSQL¶
Detalles
- Nivel: Intermedio
- Tecnologias: SQLite, PostgreSQL, Python
Que aprenderas:
- Diferencias entre motores de BD
- Migrar esquemas y datos
- Adaptar tipos de datos
- Validar integridad
Ejercicio 3.1: Oracle con BD HR¶
Avanzado
- Nivel: Avanzado
- Base de Datos: HR en Oracle nativo
- Tecnologias: Oracle Database, PL/SQL
Que aprenderas:
- Instalar Oracle Database XE
- Sintaxis especifica de Oracle
- PL/SQL (procedimientos, funciones)
- Secuencias y triggers
Ejercicio 5.1: Analisis Excel/Python¶
Detalles
- Nivel: Basico-Intermedio
- Tecnologias: Python, Pandas, Excel
Que aprenderas:
- Leer archivos Excel con Python
- Analisis exploratorio de datos (EDA)
- Visualizaciones con matplotlib/seaborn
- Automatizar analisis
MODULO 2: Limpieza de Datos y ETL¶
Pipeline ETL Profesional - Quality of Government¶
Detalles
- Nivel: Avanzado
- Dataset: QoG (1289 variables, 194+ paises)
- Tecnologias: PostgreSQL, Pandas, psycopg2
Que aprenderas:
- Disenar arquitectura ETL modular
- Trabajar con PostgreSQL para analisis longitudinal
- Limpiar datasets complejos (>1000 variables)
- Preparar datos de panel para econometria
MODULO 3: Procesamiento Distribuido¶
Procesamiento Distribuido con Dask¶
Detalles
- Nivel: Intermedio
- Tecnologias: Dask, Parquet, LocalCluster
Que aprenderas:
- Configurar un Cluster Local con Dask
- Leer archivos Parquet de forma particionada
- Ejecutar agregaciones complejas en paralelo
- Comparar rendimiento vs Pandas
MODULO 4: Machine Learning¶
Machine Learning en Big Data¶
Detalles
- Nivel: Avanzado
- Tecnologias: Scikit-Learn, PCA, K-Means
- Scripts: PCA Iris, FactoMineR, Breast Cancer, Wine, TF-IDF
Que aprenderas:
- Reduccion de dimensionalidad con PCA
- Clustering con K-Means y Hierarchical Clustering
- Interpretacion de componentes principales
- Perfilado de clusters
Transfer Learning: Clasificacion de Flores¶
Detalles
- Nivel: Avanzado
- Tecnologias: TensorFlow, MobileNetV2, Scikit-Learn
- Dataset: TensorFlow Flowers (3,670 imagenes, 5 clases)
Que aprenderas:
- Transfer Learning con redes pre-entrenadas (ImageNet)
- Extraccion de embeddings con CNNs
- Clasificacion de imagenes con ML tradicional (KNN, SVM, Random Forest)
- Visualizacion t-SNE de espacios de alta dimension
Series Temporales: ARIMA/SARIMA¶
Detalles
- Nivel: Avanzado
- Dataset: AirPassengers (144 observaciones, 1949-1960)
- Tecnologias: statsmodels, Metodologia Box-Jenkins
Que aprenderas:
- Metodologia Box-Jenkins completa (Identificacion, Estimacion, Diagnostico, Pronostico)
- Modelos ARIMA y SARIMA con estacionalidad
- ACF/PACF para identificacion de ordenes
- Diagnostico de residuos y pronosticos
MODULO 5: NLP y Text Mining¶
NLP y Text Mining¶
Detalles
- Nivel: Avanzado
- Tecnologias: NLTK, TF-IDF, Jaccard, Sentiment Analysis
- Scripts: Conteo, Limpieza, Sentimiento, Similitud
Que aprenderas:
- Tokenizacion y limpieza de texto
- Eliminacion de stopwords
- Similitud de Jaccard entre documentos
- Analisis de sentimiento por lexicon
MODULO 6: Analisis de Datos de Panel¶
Analisis de Datos de Panel¶
Detalles
- Nivel: Avanzado
- Datasets: Guns (leyes de armas), Fatalities (mortalidad trafico)
- Tecnologias: linearmodels, Panel OLS, Altair
Que aprenderas:
- Datos de panel: estructura pais x anio
- Efectos Fijos vs Efectos Aleatorios
- Two-Way Fixed Effects
- Test de Hausman para seleccion de modelo
- Odds Ratios y Efectos Marginales
MODULO 7: Infraestructura Big Data¶
Infraestructura Big Data: Docker y Spark¶
Detalles
- Nivel: Intermedio-Avanzado
- Tipo: Teorico-Conceptual con ejemplos practicos
- Tecnologias: Docker, Docker Compose, Apache Spark
Que aprenderas:
- Docker: contenedores, imagenes, Dockerfile, orquestacion con Compose
- Redes, volumenes, healthchecks, patrones de produccion
- Apache Spark: arquitectura Master-Worker, cluster con Docker
- SparkSession, Lazy Evaluation, DAG, optimizador Catalyst
- Spark + PostgreSQL via JDBC
- De Standalone a produccion (Kubernetes, EMR, Dataproc)
MODULO 8: Streaming con Kafka¶
Streaming con Apache Kafka¶
Detalles
- Nivel: Avanzado
- Tecnologias: Apache Kafka (KRaft), Python, Spark Streaming
- API: USGS Earthquakes (tiempo real)
Que aprenderas:
- Arquitectura de Kafka: Brokers, Topics, Partitions
- Modo KRaft (sin ZooKeeper)
- Productores y Consumidores en Python
- Spark Structured Streaming
- Sistema de alertas en tiempo real
MODULO 9: Cloud con LocalStack¶
Cloud con LocalStack y Terraform¶
Detalles
- Nivel: Avanzado
- Tecnologias: LocalStack, Terraform, AWS (S3, Lambda, DynamoDB)
- API: ISS Tracker (tiempo real)
Que aprenderas:
- Cloud Computing: IaaS, PaaS, SaaS
- Simular AWS localmente con LocalStack
- Infraestructura como Codigo con Terraform
- Funciones Lambda serverless
- Arquitectura Data Lake (Medallion)
TRABAJO FINAL¶
Proyecto Final: Pipeline de Big Data con Docker¶
Proyecto Integrador
- Nivel: Avanzado
- Tecnologias: Docker, Apache Spark, PostgreSQL, QoG
- Evaluacion: Infraestructura 30% + ETL 25% + Analisis 25% + Reflexion IA 20%
Que haras:
- Construir infraestructura Docker (Spark + PostgreSQL)
- Disenar y ejecutar un pipeline ETL con Apache Spark
- Analizar datos QoG con pregunta de investigacion propia
- Documentar tu proceso de aprendizaje con IA
Datasets Utilizados¶
NYC Taxi & Limousine Commission (TLC)¶
- Fuente: NYC Open Data
- Periodo: 2021
- Registros: 10M+ viajes
Quality of Government (QoG)¶
- Fuente: Universidad de Gotemburgo
- Variables: 1289 indicadores de calidad institucional
- Paises: 194+ con datos desde 1946
AirPassengers¶
- Fuente: Box & Jenkins (1976)
- Periodo: 1949-1960 (144 observaciones mensuales)
- Uso: Series temporales ARIMA/SARIMA
Como Trabajar los Ejercicios¶
Flujo Recomendado¶
- Leer el enunciado completo - No empieces a codear sin leer todo
- Entender los objetivos - Que se espera que logres?
- Crear rama de trabajo -
git checkout -b tu-apellido-ejercicio-XX - Trabajar en pasos pequenos - No intentes hacerlo todo de una vez
- Probar frecuentemente - Ejecuta tu codigo cada vez que completes una parte
- Hacer commits regulares - Guarda tu progreso frecuentemente
- Subir con git push - Cuando completes, el sistema evalua tu PROMPTS.md
---
Proximos Pasos¶
Empieza con el primer ejercicio:
Ejercicio 01: Introduccion SQLite
O salta al proyecto final: