El Análisis de Componentes Principales (PCA, por sus siglas en inglés) es una técnica matemática que se utiliza comúnmente en machine learning y estadística para la reducción de dimensionalidad.
El objetivo principal es transformar un conjunto de datos con muchas variables (dimensiones) en un nuevo conjunto de variables más pequeñas, conocidas como componentes principales, mientras se conserva la mayor cantidad posible de información (variabilidad) de los datos originales.
PCA simplifica cosas complejas sin perder lo importante. Es como sacar lo esencial de un rompecabezas gigante para entenderlo de forma más clara.
Imagina que tienes un montón de fotos de tus amigos y cada foto tiene muchísimos detalles: colores, formas, tamaños, texturas… ¡Un montón de información! Si quisieras organizar todas esas fotos en una forma más simple, sin perder lo más importante, usarías algo como PCA.
El Análisis de Componentes Principales (PCA) es una técnica matemática que te ayuda a reducir la cantidad de información, manteniendo solo lo esencial. Es como cuando organizas tu cuarto: decides qué cosas son importantes y cuáles puedes guardar para que todo quede más ordenado.
Demasiada información: Si tienes un montón de datos con muchas características (por ejemplo, fotos con miles de colores o una encuesta con 100 preguntas), es difícil trabajar con tanta información. PCA reduce esa cantidad.
Hacer las cosas más fáciles: Con menos información pero bien organizada, es más rápido y fácil analizar los datos.
Visualización: Si tienes datos muy complejos (como cosas en 100 dimensiones), PCA te permite verlos en 2 o 3 dimensiones, algo que nuestro cerebro entiende mejor.
Centrar los datos:
Calcular la matriz de covarianza:
Obtener los vectores y valores propios:
Seleccionar los componentes principales:
Transformar los datos:
PCA asume que las características tienen relaciones lineales. Si las relaciones son no lineales, técnicas como t-SNE o UMAP pueden ser más adecuadas.
Imagina que tienes Spotify. Ellos recopilan un montón de información sobre tus canciones favoritas: ritmo, letra, género, duración... Con tanta información, es difícil saber exactamente qué te gusta. Spotify usa algo parecido a PCA para encontrar las "características clave" de tus gustos y recomendarte canciones que probablemente te encantarán.
Supongamos que tienes una hoja donde anotaste las calificaciones de tus amigos en matemáticas y español. Ahora quieres saber qué tan "buen estudiante" es cada uno, pero sin analizar las dos materias por separado.
Combinar la información:
Qué es más importante:
Reducir dimensiones:
Supongamos un dataset con dos características (dimensiones) muy correlacionadas, como altura y peso. El PCA:
Imagina que tienes un montón de frutas (manzanas, naranjas, peras, etc.) y quieres organizarlas según sus características: tamaño, peso, color y dulzura. Pero analizar tantas características puede ser complicado.
Combinar características:
Qué es más importante:
Reducir dimensiones:
Supongamos que quieres armar la mejor lista de canciones para una fiesta. Tienes un montón de datos sobre cada canción: bpm (ritmo), duración, popularidad, energía y género. Pero procesar todo eso puede ser complicado.
Combinar datos:
Qué es más importante:
Reducir dimensiones: