Módulo 04: Machine Learning‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‍‌‌‌‍‌‌‌‌‍‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌¶

Técnicas de aprendizaje automático aplicadas a Big Data: desde clustering tradicional hasta Computer Vision con Deep Learning.‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‍‌‌‌‍‌‌‌‌‍‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌

Ejercicio 4.1: PCA y Clustering¶

Aplicamos técnicas de aprendizaje no supervisado para detectar patrones en datos complejos.

Alcance¶

Reducción de Dimensionalidad: Principal Component Analysis (PCA)
Clustering: K-Means y Hierarchical Clustering (HCA)

Tareas¶

PCA: Reducir variables a 2 componentes principales para visualización
Clustering: Implementar K-Means y determinar K óptimo (método del codo, Silhouette)
Interpretación: Generar perfil de cada cluster

Recursos¶

Ejercicio 4.2: Transfer Learning - Clasificación de Flores¶

Pipeline de Computer Vision que clasifica imágenes de flores usando Transfer Learning con MobileNetV2.

¿Qué es Transfer Learning?¶

En lugar de entrenar una red neuronal desde cero (necesitaríamos millones de imágenes), usamos una red ya entrenada en ImageNet y la adaptamos:

ImageNet (14M imgs) → MobileNetV2 → Embeddings (1280D) → Clasificador ML

Las primeras capas de la CNN ya aprendieron patrones universales (bordes, texturas, formas) que sirven para cualquier imagen.

Pipeline¶

1. DESCARGA          2. EMBEDDINGS         3. CLASIFICACIÓN      4. VISUALIZACIÓN
   3,670 flores         MobileNetV2           ML tradicional        Dashboard
   5 clases             1280 features         KNN/SVM/RF            Plotly

Resultados¶

Modelo	Accuracy
SVM	89.9%
Random Forest	86.5%
KNN	86.2%

Ejecutar¶

cd ejercicios/04_machine_learning/flores_transfer_learning/
pip install -r requirements.txt
python 01_flores_transfer_learning.py

Requisitos: TensorFlow (GPU recomendado pero funciona en CPU)

Recursos¶

Dashboard Transfer Learning Flores - Galería, t-SNE, Comparativa, Confusion Matrix
Dashboard Interactivo

Ejercicio 4.3: Series Temporales (ARIMA/SARIMA)¶

Metodología Box-Jenkins para análisis y pronóstico de series temporales.

Recursos¶

‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‍‌‌‌‍‌‌‌‌‍‌‌‍‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌‌‍‌‌‌‌‍‌‌‌‍‌‌‌---

Curso: Big Data con Python - De Cero a Producción Profesor: Juan Marcelo Gutierrez Miranda | @TodoEconometria Hash ID: 4e8d9b1a5f6e7c3d2b1a0f9e8d7c6b5a4f3e2d1c0b9a8f7e6d5c4b3a2f1e0d9c

Referencias académicas:

Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. JMLR 12.
Sandler, M., et al. (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks. CVPR.
van der Maaten, L. & Hinton, G. (2008). Visualizing Data using t-SNE. JMLR.