Saltar a contenido

CURSO COMPLETO DE BIG DATA​‌​‌​‌​​‍​‌​​​‌​‌‍​​‌‌‌​‌​‍​​‌‌​‌​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​‌​​‍​​‌‌‌​​‌‍​‌‌​​​‌​‍​​‌‌​​​‌‍​‌‌​​​​‌‍​​‌‌​‌​‌‍​‌‌​​‌‌​‍​​‌‌​‌‌​‍​‌‌​​‌​‌‍​​‌‌​‌‌‌‍​‌‌​​​‌‌‍​​‌‌​​‌‌‍​‌‌​​‌​​‍​​‌‌‌​‌​‍​​‌‌​​‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​‌‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​​​‌‍​​‌‌​​‌‌‍​​‌‌‌​‌​‍​‌‌​​‌​​‍​​‌‌​‌‌​‍​​‌‌‌​​​‍​​‌‌​​​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​​​‌‍​​‌‌‌​​​

TodoEconometria

"Sin experiencia no hay conocimiento"

Stars Forks LinkedIn

Demos en Vivo

Observatorio Sismico Global

Sismos en tiempo real desde USGS API. Mapa interactivo, filtros por magnitud, alertas de tsunami.

Ver en Vivo

ISS Tracker

Rastrea la Estacion Espacial Internacional en tiempo real. Predictor de pases sobre tu ciudad.

Ver en Vivo

Estos dashboards se actualizan automaticamente con datos reales de APIs publicas​‌​‌​‌​​‍​‌​​​‌​‌‍​​‌‌‌​‌​‍​​‌‌​‌​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​‌​​‍​​‌‌‌​​‌‍​‌‌​​​‌​‍​​‌‌​​​‌‍​‌‌​​​​‌‍​​‌‌​‌​‌‍​‌‌​​‌‌​‍​​‌‌​‌‌​‍​‌‌​​‌​‌‍​​‌‌​‌‌‌‍​‌‌​​​‌‌‍​​‌‌​​‌‌‍​‌‌​​‌​​‍​​‌‌‌​‌​‍​​‌‌​​‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​‌‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​​​‌‍​​‌‌​​‌‌‍​​‌‌‌​‌​‍​‌‌​​‌​​‍​​‌‌​‌‌​‍​​‌‌‌​​​‍​​‌‌​​​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​​​‌‍​​‌‌‌​​​


El Curso en Numeros

230
Horas de contenido
9
Modulos completos
25+
Ejercicios practicos
12+
Dashboards interactivos
30+
Tecnologias

Stack Tecnologico Completo

Bases de Datos

Tecnologia Nivel Que Aprenderas
SQLite Basico Queries SQL, indices, optimizacion
PostgreSQL Intermedio Joins complejos, Window Functions, CTEs
Oracle Avanzado PL/SQL, procedimientos almacenados
DynamoDB Avanzado NoSQL, key-value, serverless

Procesamiento de Datos

Tecnologia Cuando Usarla Escala
Pandas Analisis exploratorio < 5 GB
Dask Datasets grandes, 1 maquina 5-100 GB
Apache Spark Clusters, produccion > 100 GB
Spark Streaming Datos en tiempo real Ilimitado

Streaming y Mensajeria

Tecnologia Proposito
Apache Kafka Streaming distribuido, KRaft mode
Spark Structured Streaming Procesamiento de streams
AWS Kinesis Streaming en la nube

Cloud e Infraestructura

Tecnologia Que Hace
Docker Contenedores, ambientes reproducibles
Docker Compose Orquestacion multi-contenedor
LocalStack Simulacion AWS local (gratis)
Terraform Infraestructura como Codigo
AWS S3 Almacenamiento de objetos
AWS Lambda Funciones serverless
EventBridge Programacion de tareas

Machine Learning e IA

Tecnologia Aplicacion
Scikit-learn ML clasico, clustering, clasificacion
PCA Reduccion de dimensionalidad
K-Means Segmentacion, clustering
TensorFlow Deep Learning, redes neuronales
MobileNetV2 Transfer Learning, Computer Vision
ARIMA/SARIMA Series temporales, forecasting

NLP y Text Mining

Tecnologia Uso
NLTK Procesamiento de lenguaje natural
TF-IDF Vectorizacion de texto
Sentiment Analysis Analisis de sentimiento
Jaccard Similarity Similitud entre documentos

Visualizacion

Tecnologia Tipo
Plotly Dashboards interactivos
Matplotlib Graficos estaticos
Seaborn Visualizacion estadistica
Leaflet.js Mapas interactivos
Altair Graficos declarativos

Econometria

Tecnologia Aplicacion
linearmodels Datos de panel
Panel OLS Efectos fijos y aleatorios
Hausman Test Seleccion de modelo

Modulos del Curso

Modulo 1: Bases de Datos

SQLite, PostgreSQL, Oracle, migraciones

Desde tu primera query SELECT hasta procedimientos almacenados en Oracle. Aprenderas a disenar esquemas, optimizar consultas y migrar entre motores.

Ver Ejercicios


Modulo 2: Limpieza de Datos y ETL

Pipeline ETL profesional, QoG Dataset, PostgreSQL

Construye un pipeline ETL modular que procesa el dataset Quality of Government (1,289 variables, 194+ paises). Limpieza, transformacion y carga en PostgreSQL.

Ver Ejercicios


Modulo 3: Procesamiento Distribuido

Dask, Parquet, Cluster Local

Procesa datasets grandes sin necesidad de un cluster. Dask te permite escalar pandas a datos que no caben en memoria, usando Parquet y paralelismo local.

Ver Ejercicios


Modulo 4: Machine Learning

PCA, K-Means, Transfer Learning, ARIMA/SARIMA

Reduccion de dimensionalidad, clustering, clasificacion de imagenes con TensorFlow y series temporales con metodologia Box-Jenkins. Todo con datasets reales.

Ver Ejercicios


Modulo 5: NLP y Text Mining

NLTK, TF-IDF, Jaccard, Sentiment Analysis

Tokenizacion, limpieza de texto, similitud entre documentos, analisis de sentimiento y vectorizacion con TF-IDF.

Ver Ejercicios


Modulo 6: Analisis de Datos de Panel

Efectos Fijos, Efectos Aleatorios, Hausman Test

Analiza datos longitudinales (pais x ano). Replica estudios academicos reales sobre leyes de armas y mortalidad de trafico.

Ver Ejercicios


Modulo 7: Infraestructura Big Data

Docker, Docker Compose, Apache Spark, Cluster Computing

Entiende como se construye la infraestructura. Contenedores, orquestacion con Docker Compose, clusters Spark con arquitectura Master-Worker. La base para el Trabajo Final.

Ver Ejercicios


Modulo 8: Streaming con Kafka

Apache Kafka, KRaft, Spark Structured Streaming

Streaming en tiempo real con Kafka (modo KRaft, sin ZooKeeper). Productores, consumidores, Spark Structured Streaming y sistema de alertas sismicas.

Ver Ejercicios


Modulo 9: Cloud con LocalStack

LocalStack, Terraform, AWS (S3, Lambda, DynamoDB)

Simula AWS en tu maquina sin costos. Infraestructura como Codigo con Terraform, funciones Lambda serverless y arquitectura Data Lake.

Ver Ejercicios


Trabajo Final

Docker + Spark + PostgreSQL + Analisis Completo

Integra todo lo aprendido en un proyecto de principio a fin. Infraestructura con Docker, ETL con Spark, analisis con tu pregunta de investigacion.

Ver Enunciado


Galeria de Dashboards

Todos estos dashboards fueron creados durante el curso:

ARIMA PRO
Series temporales estilo Bloomberg
Ver Dashboard
PCA + K-Means
Clustering y reduccion dimensional
Ver Dashboard
Transfer Learning
Clasificacion de flores con CNN
Ver Dashboard
Panel Data QoG
Spark + PostgreSQL + ML
Ver Dashboard

Ver Todos los Dashboards


Para Quien es Este Curso?

  • Todo el contenido es gratuito y open source
  • Aprende a tu ritmo con ejercicios progresivos
  • Construye un portfolio profesional de proyectos
  • Dashboards reales que puedes mostrar en entrevistas
  • Actualiza tus skills a tecnologias modernas
  • De Excel a Spark en semanas, no anos
  • Streaming, Cloud, ML - todo en un solo curso
  • Aplicable inmediatamente en tu trabajo
  • Capacitacion in-company disponible
  • Material probado en 230+ horas de clase presencial
  • Casos de uso reales de la industria
  • Consultoria para proyectos especificos

Como Empezar

Alumnos del Curso Presencial

Lee primero la Guia de Entregas para saber como entregar tus trabajos.

Paso 1: Fork y Clone

# Haz fork en GitHub (boton arriba a la derecha)
# Luego clona TU fork:
git clone https://github.com/TU_USUARIO/ejercicios-bigdata.git
cd ejercicios-bigdata

Paso 2: Instala Dependencias

pip install -r requirements.txt

Paso 3: Elige tu Camino

Si eres... Empieza con...
Principiante Ejercicio 1.1: SQLite
Intermedio Pipeline ETL QoG
Avanzado Streaming con Kafka

Instructor

Juan Marcelo Gutierrez Miranda
@TodoEconometria

10+ anos en analisis de datos y Big Data. He formado a cientos de profesionales en empresas de toda Latinoamerica y Espana.

Servicios Profesionales

  • Capacitacion In-Company: Cursos adaptados a tu equipo y tecnologias
  • Consultoria Big Data: Diseno de pipelines, arquitectura de datos
  • Desarrollo de Dashboards: Visualizaciones interactivas para tu negocio

Contacto:


Contribuciones

Este repositorio es open source. Si encuentras errores o quieres contribuir:

  1. Haz fork del repositorio
  2. Crea una rama para tu cambio
  3. Envia un Pull Request

Tu Carrera en Big Data Empieza Aqui

230 horas de contenido, 30+ tecnologias, dashboards en tiempo real

Comenzar Ahora

​‌​‌​‌​​‍​‌​​​‌​‌‍​​‌‌‌​‌​‍​​‌‌​‌​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​‌​​‍​​‌‌‌​​‌‍​‌‌​​​‌​‍​​‌‌​​​‌‍​‌‌​​​​‌‍​​‌‌​‌​‌‍​‌‌​​‌‌​‍​​‌‌​‌‌​‍​‌‌​​‌​‌‍​​‌‌​‌‌‌‍​‌‌​​​‌‌‍​​‌‌​​‌‌‍​‌‌​​‌​​‍​​‌‌‌​‌​‍​​‌‌​​‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​‌‌​‍​​‌‌​​​​‍​​‌‌​​‌​‍​​‌‌​​​‌‍​​‌‌​​‌‌‍​​‌‌‌​‌​‍​‌‌​​‌​​‍​​‌‌​‌‌​‍​​‌‌‌​​​‍​​‌‌​​​​‍​‌‌​​‌​‌‍​​‌‌‌​​​‍​‌‌​​​​‌‍​​‌‌‌​​​---

Curso: Big Data con Python - De Cero a Produccion
Profesor: Juan Marcelo Gutierrez Miranda | @TodoEconometria
Hash ID: 4e8d9b1a5f6e7c3d2b1a0f9e8d7c6b5a4f3e2d1c0b9a8f7e6d5c4b3a2f1e0d9c