"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

martes, 19 de julio de 2011

Análisis de componentes principales

El análisis de componentes principales (principal component analysis, PCA) es un método de reconocimiento de patrones que obtiene combinaciones lineales de las variables originales que definen a un conjunto de puntos. Estas nuevas variables, denominadas componentes principales (PCs), se obtienen de forma que el primer PC explica el mayor porcentaje posible de la varianza de los datos originales y cada nuevo PC representará la mayor cantidad posible de la variabilidad residual. De esta forma puede emplearse el PCA para reducir el número de variables necesarias para describir un conjunto de datos (empleando solo los primeros PCs) y poder obtener representaciones gráficas donde se visualice la tendencia de los datos.

Para entender mejor esto, supongamos un conjunto de datos pertenecientes a dos categorías distintas (A y B) que queda definido mediante tres variables.


El PCA obtendrá tres PCs, el primero de ellos explicará la mayor parte de la varianza del conjunto de datos. Es decir, si las tres variable originales presentan diferencias para las dos categorías, la primera combinación lineal obtenida presentará también dichas diferencias. En este caso ficticio el primer PC explica un 98.3% de la variabilidad original y se puede observar la separación natural de las dos categorías.



Además, el PCA permite saber que variables contribuyen más a dicha separación natural, las más correlacionadas con los primeros PCs. En este caso, las tres variables están muy correlacionadas con PC1.

En el área de Química Ánalítica se emplea el PCA para reducir el número de variables que definen a un conjunto de muestras, por ejemplo concentración en determinadas sustancias, que reciben el nombre de descriptores químicos. Téngase en cuenta que podemos partir de más de tres variables (incluso cientos de ellas), con lo que puede resultar muy difícil observar tendencias en los datos originales. Esto se facilita al reducir las variables a los dos o tres primeros PCs. Un ejemplo de su empleo puede encontrarse en una entrada antigua del blog . 
Para una información más técnica sobre este método, se puede consultar el texto Principal Component Analysis (Jolliffe). También se puede consultar mi tesis doctoral (Capítulo 2).

Actualización del blog


3 comentarios:

Haz tu comentario... quedará pendiente de moderación