PCA + Clustering: Iris

Analisis Exploratorio Multivariante + Agrupacion No Supervisada

@TodoEconometria | Prof. Juan Marcelo Gutierrez Miranda

Resumen Ejecutivo

Objetivo: Aplicar PCA para reducir dimensionalidad de 4D a 2D, y luego usar K-Means para identificar grupos naturales en el dataset Iris (150 flores, 3 especies).
Varianza Explicada (2D)
96%
Dim.1 + Dim.2
Silhouette Score
0.55
Buena Separacion
Pureza de Clusters
89.3%
Alta Concordancia
Clusters Optimos
K=3
Validado

Hallazgos Clave

  • Reduccion Efectiva: PCA reduce de 4D a 2D manteniendo 96% de la informacion
  • Variables Discriminantes: Petal Length y Petal Width son las mas importantes (73% de varianza en Dim.1)
  • Clustering Exitoso: K-Means identifica correctamente las 3 especies en 89.3% de los casos
  • Separabilidad: Setosa es perfectamente separable; Versicolor y Virginica tienen superposicion natural
Dashboard Principal PCA + Clustering

Figura 1: Dashboard completo del analisis PCA + Clustering (9 graficos)

Guia Didactica: Como Leer Cada Grafico

La imagen anterior contiene 9 graficos organizados en una cuadricula 3x3. A continuacion se explica que muestra cada uno y como interpretarlo:

[Fila 1, Col 1] Scree Plot

Que muestra: Barras azules con el porcentaje de varianza que explica cada dimension del PCA, y una linea roja con la varianza acumulada.

Como leerlo: Busca donde la linea roja se "aplana". Aqui Dim.1 explica ~73% y Dim.2 ~23%. Con solo 2 dimensiones ya se acumula ~96%, por eso descartamos Dim.3 y Dim.4 (aportan casi nada). La linea gris punteada marca el umbral esperado (25% = 100/4 variables).

Clave: Si la primera barra es mucho mas alta que las demas, significa que una sola dimension captura la mayor parte de la informacion. Eso es lo ideal para reducir dimensiones.

[Fila 1, Col 2] Circulo de Correlacion

Que muestra: Flechas que representan cada variable original proyectada en el plano PCA. La circunferencia gris es el circulo unitario (radio = 1).

Como leerlo:

  • Flecha larga (cerca del borde) = variable bien representada en este plano 2D
  • Flechas en la misma direccion = variables correlacionadas positivamente (Petal Length y Petal Width apuntan juntas)
  • Flechas opuestas = correlacion negativa
  • Flechas perpendiculares = variables independientes (Sepal Width es perpendicular a los petalos)

Los colores van de rojo (mala representacion) a verde (excelente representacion) segun el cos2.

[Fila 1, Col 3] PCA Biplot (Especies Reales)

Que muestra: Las 150 flores proyectadas en el plano 2D del PCA, coloreadas por su especie real (Setosa=rojo, Versicolor=teal, Virginica=azul).

Como leerlo: Los grupos bien separados indican que el PCA logra distinguir las especies. Setosa (izquierda) esta completamente separada. Versicolor (centro) y Virginica (derecha) se superponen parcialmente. Las lineas punteadas marcan los ejes x=0 e y=0.

Clave: Este grafico usa las etiquetas reales. Sirve como "referencia" para comparar con el clustering no supervisado.

[Fila 2, Col 1] Contribuciones a Dim.1

Que muestra: Barras horizontales con el porcentaje de contribucion de cada variable a la Dimension 1.

Como leerlo: Las barras rojas superan el umbral esperado (linea roja punteada al 25%) y son las variables que mas "pesan" en esa dimension. Aqui Petal Length (~42%) y Petal Width (~42%) dominan Dim.1. Sepal Width contribuye casi nada (~2%).

Conclusion: Dim.1 es esencialmente una medida del tamano del petalo.

[Fila 2, Col 2] Contribuciones a Dim.2

Que muestra: Lo mismo que el grafico anterior, pero para la Dimension 2.

Como leerlo: Sepal Width domina con ~72% de contribucion (barra roja). Las medidas de petalo aportan muy poco a esta dimension.

Conclusion: Dim.2 captura principalmente la variacion del ancho del sepalo, que es independiente del tamano del petalo.

[Fila 2, Col 3] Metodo del Codo

Que muestra: Linea azul con la inercia (suma de distancias intra-cluster) para K=2 hasta K=7. La linea roja vertical marca K=3.

Como leerlo: Busca el "codo": el punto donde la curva deja de bajar drasticamente. La inercia cae mucho de K=2 a K=3, pero despues la mejora es minima. Eso confirma que K=3 es el numero optimo de clusters.

Clave: Mas clusters siempre reducen la inercia, pero dividir demasiado pierde significado. El codo marca el balance optimo.

[Fila 3, Col 1] Silhouette Score

Que muestra: Linea verde con el Silhouette Score para cada valor de K (2 a 7). La linea roja vertical marca K=3 y la linea verde horizontal muestra su valor.

Como leerlo: El Silhouette Score mide que tan bien separados estan los clusters (rango -1 a 1). Valores mas altos = mejor separacion. Aunque K=2 tiene el score mas alto (0.68), sabemos que hay 3 especies. K=3 obtiene 0.55, que es "buena separacion". Despues de K=3 el score baja consistentemente.

[Fila 3, Col 2] Clusters K-Means

Que muestra: Las mismas 150 flores en el plano PCA, pero ahora coloreadas por el cluster asignado por K-Means (sin usar etiquetas reales). Las X negras grandes marcan los centroides.

Como leerlo: Compara visualmente este grafico con el Biplot de especies reales (Fila 1, Col 3). Si los colores coinciden en forma y posicion, el algoritmo descubrio los mismos grupos que las especies biologicas. Cluster 0 = Setosa, Cluster 1 ~ Versicolor, Cluster 2 ~ Virginica.

Clave: Los centroides (X negras) representan el "centro de gravedad" de cada cluster. La distancia entre centroides indica que tan separados estan los grupos.

[Fila 3, Col 3] Confusion Matrix

Que muestra: Heatmap 3x3 que cruza los clusters asignados (eje Y) con las especies reales (eje X). Los numeros en cada celda indican cuantas flores caen en esa combinacion.

Como leerlo: Los valores altos en la diagonal = buena correspondencia. Valores fuera de la diagonal = errores. Setosa tiene 50/50 en un solo cluster (perfecto). Versicolor tiene 48 correctas y 2 confundidas. Virginica tiene 36 correctas y 14 confundidas con Versicolor.

Pureza (89.3%): (50+48+36)/150 = 134/150 flores correctamente agrupadas.

El Dataset Iris

Historia: El dataset Iris fue introducido por Ronald Fisher en 1936 en su paper "The use of multiple measurements in taxonomic problems". Es uno de los datasets mas famosos en Machine Learning.

Caracteristicas del Dataset

Caracteristica Descripcion
Observaciones 150 flores
Especies 3 (Setosa, Versicolor, Virginica)
Variables 4 medidas en centimetros
Distribucion 50 flores por especie (balanceado)
Ano 1936 (Fisher)

Variables Medidas

Sepal Length

Largo del sepalo en centimetros

Rango: 4.3 - 7.9 cm

Media: 5.8 cm

Sepal Width

Ancho del sepalo en centimetros

Rango: 2.0 - 4.4 cm

Media: 3.1 cm

Petal Length

Largo del petalo en centimetros

Rango: 1.0 - 6.9 cm

Media: 3.8 cm

Petal Width

Ancho del petalo en centimetros

Rango: 0.1 - 2.5 cm

Media: 1.2 cm
Nota Botanica: El sepalo es la parte verde que protege la flor antes de abrirse. El petalo es la parte colorida de la flor.
Analisis Exploratorio de Datos

Figura 2: Analisis Exploratorio de Datos (EDA) - Distribuciones y correlaciones (6 graficos, cuadricula 2x3)

Guia Didactica: Como Leer Cada Grafico del EDA

La imagen anterior contiene 6 graficos organizados en 2 filas x 3 columnas. Cada uno revela un aspecto diferente de los datos antes de aplicar PCA:

[Fila 1, Col 1] Boxplots

Que muestra: Un diagrama de cajas para cada una de las 4 variables. Cada caja muestra la mediana (linea central), los cuartiles Q1 y Q3 (bordes de la caja), los bigotes (rango intercuartil x 1.5) y los outliers (puntos fuera).

Como leerlo:

  • Caja ancha = gran variabilidad en esa variable
  • Mediana descentrada = distribucion asimetrica
  • Puntos aislados = outliers (valores atipicos)

Petal Length tiene el rango mas amplio (1-6.9 cm), lo que anticipa que sera una variable discriminante.

[Fila 1, Col 2] Matriz de Correlacion

Que muestra: Heatmap con los coeficientes de correlacion de Pearson entre cada par de variables. Se muestra solo el triangulo inferior porque la matriz es simetrica (la correlacion de A con B es igual a la de B con A). Colores calidos (rojo) = correlacion positiva alta. Colores frios (azul) = correlacion negativa.

Como leerlo:

  • Petal Length vs Petal Width: r = 0.96 (casi perfecto) -> medir una predice la otra
  • Sepal Width vs Petal Length: r ~ -0.42 (negativa moderada)
  • La diagonal siempre es 1.00 (variable consigo misma)
Clave: La alta correlacion entre variables de petalo explica por que el PCA las agrupa en una sola dimension. El triangulo superior se omite por ser identico al inferior.

[Fila 1, Col 3] Histograma Sepal Length

Que muestra: Tres histogramas superpuestos (uno por especie, con transparencia) mostrando como se distribuye el largo del sepalo en cada especie.

Como leerlo: Donde los histogramas se superponen, es dificil distinguir especies usando solo esa variable. Aqui las tres especies se mezclan bastante, lo que indica que Sepal Length sola no es suficiente para clasificar.

[Fila 2, Col 1] Scatter: Sepal Length vs Width

Que muestra: 150 puntos (flores) en un plano donde el eje X es el largo del sepalo y el eje Y es el ancho, coloreados por especie.

Como leerlo: Si los grupos de colores se separan claramente, esas dos variables bastan para distinguir especies. Aqui Setosa se separa parcialmente (sepalos anchos y cortos), pero Versicolor y Virginica se mezclan mucho. Conclusion: las medidas de sepalo solas no discriminan bien.

[Fila 2, Col 2] Scatter: Petal Length vs Width

Que muestra: El mismo tipo de scatter plot, pero ahora con las medidas de petalo.

Como leerlo: Setosa (petalos minusculos) se aísla completamente abajo a la izquierda. Versicolor y Virginica se separan razonablemente pero con algo de superposicion. Este es el grafico mas revelador del EDA: las medidas de petalo son las variables clave para la clasificacion.

Clave: Compara este grafico con el Biplot PCA del dashboard de 9 graficos. La separacion es casi identica, confirmando que el PCA captura este patron.

[Fila 2, Col 3] Violin Plot

Que muestra: Para cada variable, un "violin" por especie que combina un boxplot con la forma de la distribucion (densidad de probabilidad). Mas ancho = mas observaciones en ese rango de valores.

Como leerlo:

  • Violines que no se superponen = la variable discrimina bien entre esas especies
  • Violines superpuestos = la variable no distingue esas especies

En Petal Length y Petal Width los violines de Setosa estan completamente separados de los otros dos, pero Versicolor y Virginica se solapan parcialmente.

Observaciones del EDA

  • Correlacion Alta: Petal Length y Petal Width estan altamente correlacionadas (r = 0.96)
  • Separabilidad: Setosa es claramente diferente en las medidas de petalo
  • Superposicion: Versicolor y Virginica tienen rangos superpuestos
  • Distribucion Normal: La mayoria de variables siguen distribucion aproximadamente normal

Analisis de Componentes Principales (PCA)

Objetivo del PCA: Reducir las 4 dimensiones originales a 2 dimensiones principales que capturen la mayor varianza posible, facilitando la visualizacion y el clustering.

Varianza Explicada por Dimension

Dimension Autovalor Varianza (%) Varianza Acumulada (%) Interpretacion
Dim.1 2.92 72.96% 72.96% Tamano del petalo
Dim.2 0.91 22.85% 95.81% Ancho del sepalo
Dim.3 0.15 3.67% 99.48% Varianza residual
Dim.4 0.02 0.52% 100.00% Ruido

Interpretacion de la Varianza

Las primeras 2 dimensiones capturan 95.81% de la varianza total. Esto significa que podemos reducir de 4D a 2D perdiendo solo ~4% de informacion. Esta es una reduccion excelente que nos permite visualizar los datos en un plano 2D sin perder practicamente nada de la estructura original.

Contribuciones de Variables a las Dimensiones

Dimension 1 (72.96% de varianza)

Variable Contribucion (%) Correlacion
Petal Length 41.93% 0.99
Petal Width 41.78% 0.99
Sepal Length 14.59% 0.85
Sepal Width 1.70% -0.37

Interpretacion de Dim.1

Dim.1 representa el "tamano del petalo". Las variables Petal Length y Petal Width dominan esta dimension con mas del 83% de contribucion combinada. Flores con valores altos en Dim.1 tienen petalos grandes (Virginica), mientras que valores bajos indican petalos pequenos (Setosa).

Dimension 2 (22.85% de varianza)

Variable Contribucion (%) Correlacion
Sepal Width 72.08% 0.94
Sepal Length 19.03% -0.48
Petal Width 5.71% 0.26
Petal Length 3.18% 0.20

Interpretacion de Dim.2

Dim.2 representa el "ancho del sepalo". Sepal Width domina esta dimension con 72% de contribucion. Esta dimension ayuda a diferenciar entre especies que tienen petalos de tamano similar pero sepalos de diferentes anchos.

Circulo de Correlacion

Como Leer el Circulo de Correlacion:
  • Flechas largas: Variables bien representadas en el plano 2D
  • Flechas en la misma direccion: Variables correlacionadas positivamente
  • Flechas opuestas: Variables correlacionadas negativamente
  • Flechas perpendiculares: Variables no correlacionadas

Observaciones del Circulo de Correlacion

  • Petal Length y Petal Width: Flechas casi identicas -> Altamente correlacionadas (r = 0.96)
  • Sepal Width: Perpendicular a las medidas de petalo -> Independiente del tamano del petalo
  • Sepal Length: Posicion intermedia -> Correlacionada con ambas dimensiones

Clustering K-Means

Objetivo del Clustering: Identificar grupos naturales en el espacio 2D del PCA sin usar las etiquetas de especies, y luego validar si los clusters encontrados coinciden con las especies reales.

Determinacion del Numero Optimo de Clusters

Metodo del Codo (Elbow Method)

K Inercia Silhouette Score Evaluacion
2 152.35 0.68 Muy pocos clusters
3 78.85 0.55 OPTIMO
4 57.23 0.50 Sobre-segmentacion
5 46.45 0.48 Demasiados clusters

Interpretacion del Metodo del Codo

El "codo" se encuentra en K=3. La inercia disminuye significativamente de K=2 a K=3 (de 152.35 a 78.85), pero la reduccion es menor despues de K=3. Esto sugiere que 3 clusters es el numero optimo. Ademas, el Silhouette Score es maximo en K=3 (0.55), confirmando esta eleccion.

Metricas de Evaluacion del Clustering

Silhouette Score
0.55
Buena Separacion
Davies-Bouldin Index
0.66
Clusters Compactos
Calinski-Harabasz
561.63
Alta Separacion
Pureza
89.3%
Excelente
Interpretacion de Metricas:
  • Silhouette Score (0.55): Valor entre 0.5-0.7 indica buena separacion entre clusters
  • Davies-Bouldin (0.66): Valor cercano a 0 es mejor; 0.66 indica clusters razonablemente compactos
  • Calinski-Harabasz (561.63): Valor alto indica buena separacion entre clusters
  • Pureza (89.3%): El 89.3% de las flores estan en el cluster correcto

Confusion Matrix: Clusters vs Especies Reales

Especie Real Cluster 0 Cluster 1 Cluster 2 Total Precision
Setosa 50 0 0 50 100%
Versicolor 0 48 2 50 96%
Virginica 0 14 36 50 72%

Analisis de la Confusion Matrix

  • Setosa (Cluster 0): Perfectamente separada (100% de precision). Todas las 50 flores de Setosa fueron correctamente asignadas al Cluster 0.
  • Versicolor (Cluster 1): Muy bien separada (96% de precision). Solo 2 flores fueron confundidas con Virginica.
  • Virginica (Cluster 2): Moderadamente separada (72% de precision). 14 flores fueron confundidas con Versicolor debido a la superposicion natural entre estas especies.

Centroides de los Clusters

Cluster Dim.1 (Coord.) Dim.2 (Coord.) Especie Dominante N Flores
Cluster 0 -2.68 0.32 Setosa 50
Cluster 1 0.33 -0.52 Versicolor 62
Cluster 2 1.72 0.20 Virginica 38
Observacion Importante: El Cluster 1 tiene 62 flores (48 Versicolor + 14 Virginica), mientras que el Cluster 2 tiene solo 38 flores (36 Virginica + 2 Versicolor). Esto refleja la superposicion natural entre Versicolor y Virginica en el espacio de caracteristicas.

Interpretacion Detallada por Especie

Setosa (Cluster 0)

Caracteristicas Morfologicas:

  • Petal Length: ~1.5 cm (muy pequeno)
  • Petal Width: ~0.2 cm (muy pequeno)
  • Sepal Width: ~3.4 cm (relativamente grande)

Posicion en PCA:

  • Dim.1: Valores muy negativos (-2.68)
  • Dim.2: Valores positivos (0.32)

Separabilidad:

100% Perfecta
Conclusion: Setosa es linealmente separable del resto. Sus petalos extremadamente pequenos la hacen unica y facilmente identificable.

Versicolor (Cluster 1)

Caracteristicas Morfologicas:

  • Petal Length: ~4.3 cm (mediano)
  • Petal Width: ~1.3 cm (mediano)
  • Sepal Width: ~2.8 cm (mediano)

Posicion en PCA:

  • Dim.1: Valores cercanos a 0 (0.33)
  • Dim.2: Valores ligeramente negativos (-0.52)

Separabilidad:

96% Buena
Conclusion: Versicolor es mayormente separable, pero tiene una pequena superposicion con Virginica (4% de error). Esto es esperado debido a la similitud morfologica entre ambas especies.

Virginica (Cluster 2)

Caracteristicas Morfologicas:

  • Petal Length: ~5.5 cm (grande)
  • Petal Width: ~2.0 cm (grande)
  • Sepal Width: ~3.0 cm (mediano)

Posicion en PCA:

  • Dim.1: Valores muy positivos (1.72)
  • Dim.2: Valores cercanos a 0 (0.20)

Separabilidad:

72% Moderada
Conclusion: Virginica tiene la mayor superposicion con Versicolor (28% de error). Esto refleja que son especies evolutivamente mas cercanas con caracteristicas morfologicas similares.

Por Que Versicolor y Virginica se Superponen?

Razones Biologicas

  • Evolucion Compartida: Versicolor y Virginica son especies evolutivamente mas cercanas que Setosa
  • Caracteristicas Similares: Ambas tienen petalos de tamano mediano-grande con rangos superpuestos
  • Variabilidad Natural: Existe variabilidad natural dentro de cada especie que causa superposicion

Razones Estadisticas

  • Rangos Superpuestos: Las medidas de petalo de Versicolor y Virginica tienen rangos que se superponen
  • Distribuciones Gaussianas: Las distribuciones de ambas especies se solapan en las colas
  • Limites Difusos: No existe una frontera clara en el espacio de 4 dimensiones

Visualizacion de la Separacion

Interpretacion del Biplot:

En el espacio 2D del PCA, podemos ver claramente:

  • Setosa: Grupo compacto en la esquina inferior izquierda (Dim.1 negativo)
  • Versicolor: Grupo central (Dim.1 cercano a 0, Dim.2 negativo)
  • Virginica: Grupo en la derecha (Dim.1 positivo), con superposicion con Versicolor

Validacion del Metodo No Supervisado

Hallazgo Clave: Sin conocer las etiquetas de especies, K-Means descubrio 3 grupos naturales que coinciden en 89.3% con las especies reales. Esto valida que:
  • Las especies tienen diferencias morfologicas reales y medibles
  • El PCA captura correctamente la estructura de los datos
  • K-Means es efectivo para este tipo de datos
  • La superposicion Versicolor-Virginica es natural, no un error del algoritmo

Conclusiones y Recomendaciones

Conclusiones Principales

1. PCA es Altamente Efectivo
  • Reduce de 4D a 2D manteniendo 96% de la informacion
  • Las 2 primeras dimensiones son suficientes para visualizacion y clustering
  • La perdida de solo 4% de informacion es insignificante
2. Las Medidas de Petalo son Clave
  • Petal Length y Petal Width son las variables mas discriminantes
  • Dim.1 (que representa el tamano del petalo) explica 73% de la varianza
  • Para clasificacion de Iris, enfocarse en medidas de petalo es optimo
3. K-Means Funciona Excelentemente
  • Identifica correctamente las 3 especies en 89.3% de los casos
  • Setosa es perfectamente separable (100%)
  • La superposicion Versicolor-Virginica es natural y esperada
4. Validacion del Metodo No Supervisado
  • Sin conocer las etiquetas, K-Means descubre los 3 grupos naturales
  • Esto valida que las especies tienen diferencias morfologicas reales
  • El metodo es robusto y confiable para este tipo de datos

Lecciones para Estudiantes

Leccion 1: La Importancia de la Reduccion de Dimensionalidad

ANTES DE PCA: 4 variables -> Dificil de visualizar -> Dificil de interpretar

DESPUES DE PCA: 2 dimensiones -> Facil de visualizar -> Patrones claros

Moraleja: No siempre necesitas todas las variables. A veces, menos es mas. El PCA te ayuda a identificar que variables realmente importan.

Leccion 2: El Clustering No Supervisado Puede Descubrir Estructura Real

SIN ETIQUETAS: K-Means encuentra 3 grupos

CON ETIQUETAS: Hay 3 especies reales

COINCIDENCIA: 89.3%

Moraleja: Los datos tienen estructura natural. Los algoritmos pueden encontrarla sin supervision. Esto es el poder del Machine Learning no supervisado.

Leccion 3: No Todos los Grupos son Perfectamente Separables

Setosa: 100% separable

Versicolor/Virginica: Superposicion natural (28% de error en Virginica)

Moraleja: En datos reales, la superposicion es normal. No esperes clusters perfectos. La naturaleza es compleja y tiene variabilidad inherente.

Leccion 4: Validar, Validar, Validar

Metodo del Codo: Sugiere K=3

Silhouette Score: Confirma K=3

Pureza: Valida que K=3 es correcto (89.3%)

Moraleja: Usa multiples metricas para validar tus decisiones. Una sola metrica puede ser enganosa. La convergencia de multiples metricas da confianza.

Recomendaciones Practicas

Para Clasificacion de Especies de Iris:

  1. Enfocarse en medidas de petalo (son las mas discriminantes)
  2. Usar PCA para visualizacion (reduce complejidad sin perder informacion)
  3. K=3 es optimo (validado por multiples metricas)
  4. Considerar la superposicion natural entre Versicolor y Virginica

Para Analisis de Datos Similares:

  1. Siempre hacer EDA primero (entender distribuciones y correlaciones)
  2. Estandarizar antes de PCA (variables en diferentes escalas sesgan resultados)
  3. Validar numero de clusters (no asumir K, usar Elbow + Silhouette)
  4. Comparar con ground truth (si esta disponible, como en este caso)
  5. Documentar decisiones (por que elegiste K=3, por que 2 dimensiones, etc.)

Extensiones Posibles

Otros Algoritmos de Clustering

  • DBSCAN (clusters de forma arbitraria)
  • Hierarchical Clustering (dendrogramas)
  • Gaussian Mixture Models (probabilistico)

Clasificacion Supervisada

  • Random Forest
  • SVM (Support Vector Machines)
  • Neural Networks

Analisis Adicionales

  • LDA (Linear Discriminant Analysis)
  • t-SNE (visualizacion no lineal)
  • UMAP (reduccion de dimensionalidad)

Referencias Academicas

  • Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-188.
  • Anderson, E. (1935). The irises of the Gaspe Peninsula. Bulletin of the American Iris Society, 59, 2-5.
  • Husson, F., Le, S., & Pages, J. (2017). Exploratory Multivariate Analysis by Example Using R. CRC Press.
  • Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. JMLR 12, pp. 2825-2830.