CURSO COMPLETO DE BIG DATA¶
"Sin experiencia no hay conocimiento"
Demos en Vivo¶
Observatorio Sismico Global
Sismos en tiempo real desde USGS API. Mapa interactivo, filtros por magnitud, alertas de tsunami.
ISS Tracker
Rastrea la Estacion Espacial Internacional en tiempo real. Predictor de pases sobre tu ciudad.
Estos dashboards se actualizan automaticamente con datos reales de APIs publicas
El Curso en Numeros¶
Stack Tecnologico Completo¶
Bases de Datos¶
| Tecnologia | Nivel | Que Aprenderas |
|---|---|---|
| SQLite | Basico | Queries SQL, indices, optimizacion |
| PostgreSQL | Intermedio | Joins complejos, Window Functions, CTEs |
| Oracle | Avanzado | PL/SQL, procedimientos almacenados |
| DynamoDB | Avanzado | NoSQL, key-value, serverless |
Procesamiento de Datos¶
| Tecnologia | Cuando Usarla | Escala |
|---|---|---|
| Pandas | Analisis exploratorio | < 5 GB |
| Dask | Datasets grandes, 1 maquina | 5-100 GB |
| Apache Spark | Clusters, produccion | > 100 GB |
| Spark Streaming | Datos en tiempo real | Ilimitado |
Streaming y Mensajeria¶
| Tecnologia | Proposito |
|---|---|
| Apache Kafka | Streaming distribuido, KRaft mode |
| Spark Structured Streaming | Procesamiento de streams |
| AWS Kinesis | Streaming en la nube |
Cloud e Infraestructura¶
| Tecnologia | Que Hace |
|---|---|
| Docker | Contenedores, ambientes reproducibles |
| Docker Compose | Orquestacion multi-contenedor |
| LocalStack | Simulacion AWS local (gratis) |
| Terraform | Infraestructura como Codigo |
| AWS S3 | Almacenamiento de objetos |
| AWS Lambda | Funciones serverless |
| EventBridge | Programacion de tareas |
Machine Learning e IA¶
| Tecnologia | Aplicacion |
|---|---|
| Scikit-learn | ML clasico, clustering, clasificacion |
| PCA | Reduccion de dimensionalidad |
| K-Means | Segmentacion, clustering |
| TensorFlow | Deep Learning, redes neuronales |
| MobileNetV2 | Transfer Learning, Computer Vision |
| ARIMA/SARIMA | Series temporales, forecasting |
NLP y Text Mining¶
| Tecnologia | Uso |
|---|---|
| NLTK | Procesamiento de lenguaje natural |
| TF-IDF | Vectorizacion de texto |
| Sentiment Analysis | Analisis de sentimiento |
| Jaccard Similarity | Similitud entre documentos |
Visualizacion¶
| Tecnologia | Tipo |
|---|---|
| Plotly | Dashboards interactivos |
| Matplotlib | Graficos estaticos |
| Seaborn | Visualizacion estadistica |
| Leaflet.js | Mapas interactivos |
| Altair | Graficos declarativos |
Econometria¶
| Tecnologia | Aplicacion |
|---|---|
| linearmodels | Datos de panel |
| Panel OLS | Efectos fijos y aleatorios |
| Hausman Test | Seleccion de modelo |
Modulos del Curso¶
Modulo 1: Bases de Datos¶
SQLite, PostgreSQL, Oracle, migraciones
Desde tu primera query SELECT hasta procedimientos almacenados en Oracle. Aprenderas a disenar esquemas, optimizar consultas y migrar entre motores.
Modulo 2: Limpieza de Datos y ETL¶
Pipeline ETL profesional, QoG Dataset, PostgreSQL
Construye un pipeline ETL modular que procesa el dataset Quality of Government (1,289 variables, 194+ paises). Limpieza, transformacion y carga en PostgreSQL.
Modulo 3: Procesamiento Distribuido¶
Dask, Parquet, Cluster Local
Procesa datasets grandes sin necesidad de un cluster. Dask te permite escalar pandas a datos que no caben en memoria, usando Parquet y paralelismo local.
Modulo 4: Machine Learning¶
PCA, K-Means, Transfer Learning, ARIMA/SARIMA
Reduccion de dimensionalidad, clustering, clasificacion de imagenes con TensorFlow y series temporales con metodologia Box-Jenkins. Todo con datasets reales.
Modulo 5: NLP y Text Mining¶
NLTK, TF-IDF, Jaccard, Sentiment Analysis
Tokenizacion, limpieza de texto, similitud entre documentos, analisis de sentimiento y vectorizacion con TF-IDF.
Modulo 6: Analisis de Datos de Panel¶
Efectos Fijos, Efectos Aleatorios, Hausman Test
Analiza datos longitudinales (pais x ano). Replica estudios academicos reales sobre leyes de armas y mortalidad de trafico.
Modulo 7: Infraestructura Big Data¶
Docker, Docker Compose, Apache Spark, Cluster Computing
Entiende como se construye la infraestructura. Contenedores, orquestacion con Docker Compose, clusters Spark con arquitectura Master-Worker. La base para el Trabajo Final.
Modulo 8: Streaming con Kafka¶
Apache Kafka, KRaft, Spark Structured Streaming
Streaming en tiempo real con Kafka (modo KRaft, sin ZooKeeper). Productores, consumidores, Spark Structured Streaming y sistema de alertas sismicas.
Modulo 9: Cloud con LocalStack¶
LocalStack, Terraform, AWS (S3, Lambda, DynamoDB)
Simula AWS en tu maquina sin costos. Infraestructura como Codigo con Terraform, funciones Lambda serverless y arquitectura Data Lake.
Trabajo Final¶
Docker + Spark + PostgreSQL + Analisis Completo
Integra todo lo aprendido en un proyecto de principio a fin. Infraestructura con Docker, ETL con Spark, analisis con tu pregunta de investigacion.
Galeria de Dashboards¶
Todos estos dashboards fueron creados durante el curso:
Para Quien es Este Curso?¶
- Todo el contenido es gratuito y open source
- Aprende a tu ritmo con ejercicios progresivos
- Construye un portfolio profesional de proyectos
- Dashboards reales que puedes mostrar en entrevistas
- Actualiza tus skills a tecnologias modernas
- De Excel a Spark en semanas, no anos
- Streaming, Cloud, ML - todo en un solo curso
- Aplicable inmediatamente en tu trabajo
- Capacitacion in-company disponible
- Material probado en 230+ horas de clase presencial
- Casos de uso reales de la industria
- Consultoria para proyectos especificos
Como Empezar¶
Alumnos del Curso Presencial
Lee primero la Guia de Entregas para saber como entregar tus trabajos.
Paso 1: Fork y Clone¶
# Haz fork en GitHub (boton arriba a la derecha)
# Luego clona TU fork:
git clone https://github.com/TU_USUARIO/ejercicios-bigdata.git
cd ejercicios-bigdata
Paso 2: Instala Dependencias¶
Paso 3: Elige tu Camino¶
| Si eres... | Empieza con... |
|---|---|
| Principiante | Ejercicio 1.1: SQLite |
| Intermedio | Pipeline ETL QoG |
| Avanzado | Streaming con Kafka |
Instructor¶
@TodoEconometria
10+ anos en analisis de datos y Big Data. He formado a cientos de profesionales en empresas de toda Latinoamerica y Espana.
Servicios Profesionales¶
- Capacitacion In-Company: Cursos adaptados a tu equipo y tecnologias
- Consultoria Big Data: Diseno de pipelines, arquitectura de datos
- Desarrollo de Dashboards: Visualizaciones interactivas para tu negocio
Contacto:
- Email: cursos@todoeconometria.com
- LinkedIn: Juan Gutierrez
- Web: www.todoeconometria.com
Contribuciones¶
Este repositorio es open source. Si encuentras errores o quieres contribuir:
- Haz fork del repositorio
- Crea una rama para tu cambio
- Envia un Pull Request
Tu Carrera en Big Data Empieza Aqui
230 horas de contenido, 30+ tecnologias, dashboards en tiempo real
Comenzar Ahora---
Curso: Big Data con Python - De Cero a Produccion
Profesor: Juan Marcelo Gutierrez Miranda | @TodoEconometria
Hash ID: 4e8d9b1a5f6e7c3d2b1a0f9e8d7c6b5a4f3e2d1c0b9a8f7e6d5c4b3a2f1e0d9c