El análisis de componentes principales del (PCA) es una técnica usada para reducir los conjuntos de datos multidimensionales a dimensiones más bajas para el análisis. Dependiendo del campo del uso, también se nombra el discreto Karhunen-Loève del transforma, el Hotelling del transforma o la descomposición ortogonal apropiada (POD) del .
El PCA se utiliza sobre todo como herramienta en el análisis de datos exploratorio y para hacer modelos proféticos. El PCA implica el cálculo de la descomposición del valor propio o de la descomposición del valor singular de un conjunto de datos, generalmente después del medio que centra los datos para cada cualidad. Los resultados de un PCA se discuten generalmente en términos de cuentas componentes y cargamentos.
Detalles
El PCA se define matemáticamente como transformación linear ortogonal que transforme los datos a un sistema coordinado del nuevo tales que la variación más grande por cualquier proyección de los datos viene mentir en el primer coordenada (llamado el primer componente principal),
la segunda variación más grande en el segundo coordenada, y así sucesivamente. El PCA es el
grado óptimo transforma teóricamente para los datos dados en menos términos del cuadrado.
El PCA se puede utilizar para la reducción de la dimensionalidad en un conjunto de datos conservando esas características del conjunto de datos que contribuyan la mayoría a su variación, guardando componentes principales de la bajo-orden y no haciendo caso los higher-order. Tales componentes de orden inferior contienen a menudo el " la mayoría del important" aspectos de los datos. Sin embargo, dependiendo del uso éste puede siempre no ser el caso.
Para una matriz de los datos, el XT, con el medio empírico cero (el medio empírico de la distribución se ha restado del conjunto de datos), donde cada fila representa una diversa repetición del experimento, y cada columna da los resultados de una punta de prueba particular, la transformación del PCA se da cerca:
de V donde está la descomposición el V Σ WT (svd) del valor singular del XT .
En este artículo adoptaremos la otra convención, para componer cada columna del de los resultados para un diverso tema, y cada fila del los resultados de una diversa punta de prueba. Esto significará que el PCA para nuestro X de la matriz de los datos será dado cerca:
de la sigma donde está el svd el W Σ VT X .
El PCA tiene la distinción de ser la transformación linear óptimo para guardar el subespacio que tiene variación más grande. Esta ventaja, sin embargo, viene en el precio del mayor requisito de cómputo si está comparada, por ejemplo, al coseno discreto transformar . Desemejante del otro linear transforma, PCA no hace que un sistema fijo de los vectores de la base sus vectores de la base dependa del conjunto de datos.
El medio empírico presuntuoso cero (el medio empírico de la distribución se ha restado del conjunto de datos), el w 1 del componente principal de un x del conjunto de datos se puede definir como: (Véase el Arg máximo para la notación.) Con el primer , el componente de -th puede ser encontrado restando el primer del x : y substituyendo esto como el nuevo conjunto de datos para encontrar un componente principal en el
El Karhunen-Loève transforma es por lo tanto equivalente a encontrar la descomposición del valor singular X de la matriz de los datos,
y entonces obteniendo el Y de la matriz de los datos del reducir-espacio proyectando el X abajo en el espacio reducido definido por solamente el primer L vectores singulares de, WL :
de Sigma_L
El W de la matriz de vectores singulares del X es equivalente el W de la matriz de los vectores propios de la matriz del observado C de las covariaciones = el X XT,
Los vectores propios con los valores propios más grandes corresponden a las dimensiones que tienen la correlación más fuerte en el conjunto de datos (véase el cociente de Rayleigh).
El PCA es equivalente a las funciones ortogonales empíricas (EOF).
Una red de los nervios de Autoencoder con una capa ocultada linear es también equivalente al PCA. Sobre convergencia, los vectores del peso de las neuronas del K en la capa ocultada formarán una base para el espacio atravesado por los primeros componentes principales del K . Desemejante del PCA, esta técnica no producirá necesario vectores ortogonales .
El PCA es una técnica popular en el reconocimiento de patrón . Pero no se optimiza para la posibilidad de separación de la clase. Una alternativa es el análisis discriminante linear, que toma en cuenta esto. El PCA reduce al mínimo óptimo error de la reconstrucción bajo norma L2.
Tabla de símbolos y de abreviaturas
Características y limitaciones del PCA
El PCA es teóricamente
el esquema linear óptimo, en términos de menos error de media cuadrada, para comprimir un sistema de altos vectores dimensionales en un sistema de vectores dimensionales más bajos y después reconstruir el sistema original. Es un análisis no paramétrico y la respuesta es única y independiente. La compresión y la descompresión del PCA son operaciones fáciles a realizarse dado los parámetros modelo. Sin embargo, las 3ultimas dos características se miran como debilidad así como fuerza, en eso que es no paramétrico, ningunas asunciones del a-priori pueden ser incorporadas y las compresiones de ese PCA incurren en a menudo la pérdida de información.
Cuando está utilizada para arracimar, la limitación principal del PCA es que no considera la posibilidad de separación de la clase puesto que no considera la etiqueta de la clase del vector de la característica. El PCA realiza simplemente una rotación coordinada que alinee las hachas transformadas con las direcciones de la variación máxima. No hay garantía que las direcciones de la variación máxima contendrán las buenas características para la discriminación.
Aparte de eso, debe ser tratado que varias asunciones fueron hechas en curso de alcanzar el resultado del PCA, así limitando el uso del PCA. Estas asunciones se pueden enumerar breve como:
Asunción del
en linearidades
Asumimos el conjunto de datos observado para ser combinaciones lineares de cierta base. Los métodos no lineares tales como PCA del núcleo se desarrollan sin linearidades asumidas.
Asunción del
que los componentes principales son ortogonales Asumimos que los componentes principales son el ortogonal con uno a. Los métodos tales como análisis componente independiente (AIC) se desarrollan para tratar esta limitación.
Asunción del
en la importancia estadística del medio y de la covariación
El PCA utiliza los vectores propios de la matriz de la covariación y encuentra solamente las hachas independientes de los datos bajo asunción gausiana. Para los datos gausianos no gausianos o multimodales, el PCA de-correlaciona simplemente las hachas. Cuando está utilizada para arracimar, la limitación principal del PCA es que no considera la posibilidad de separación de la clase puesto que no considera la etiqueta de la clase del vector de la característica.
Asunción del
que las variaciones grandes tienen dinámicas importantes
El PCA realiza simplemente una rotación coordinada que alinee las hachas transformadas con las direcciones de la variación máxima. Es solamente cuando creemos que los datos observados tienen un alto cociente del Señal-Ruido, podemos nosotros alcanzamos el resultado que los componentes del principio con una variación más grande corresponden a la dinámica interesante y bajamos unos correspondemos al ruido. No hay garantía que las direcciones de la variación máxima contendrán las buenas características para la discriminación.
Esencialmente, el PCA desarrolló solamente la rotación y el escalamiento. Las asunciones antedichas se hacen algo para simplificar el cómputo algebraico en el conjunto de datos. Algunos otros métodos se desarrollan sin si se asume que uno o algo de ellos, y se discuten breve en el siguiente.
Algoritmo #1: el método de la covariación
Lo que sigue es una descripción detallada del PCA usar el método de la covariación. La meta es transformar un dado X del conjunto de datos del M de la
dimensión a un alternativo Y del conjunto de datos de un más pequeño L de la dimensión. Equivalente, estamos intentando encontrar el Y de la matriz, donde está el Karhunen-Loeve el Y transforma (KLT) del X de la matriz:
Organizar el conjunto de datos
El supone que usted tienen datos el abarcar de un sistema de observaciones de las variables del M, y usted quiere reducir los datos para poder describir cada
observación con solamente el L variables de, L < el M . Suponer más lejos, eso que los datos se arreglan como
sistema del
de los vectores de datos del N con cada _n del
del
del
es La conjugación transporta a operador de . Observar eso si B consiste enteramente en números verdaderos, que es el caso en muchos usos, el " conjugar el transpose" es igual que el regular transporta .
observa por favor que la información en esta sección es de hecho un pedacito borroso. Ver las secciones de la matriz de covariación en la página de la discusión para más información.
Encontrar los vectores propios y los valores propios de la matriz de covariación
Computar el V de la matriz de los vectores propios que el diagonalizes el C de la matriz de covariación:
\ mathbf {V} ^ {- 1} \ = \ mathbf {D} del mathbf {C} \ del mathbf {V}
l donde está la matriz el D diagonal de los valores propios del C . Este paso implicará típicamente el uso de un algoritmo computarizado para computar vectores propios y valores propios. Estos algoritmos son fácilmente disponibles como subcomponentes de la mayoría de los sistemas de la álgebra de matriz, tales como MATLAB, Mathematica, SciPy, o IDL (programación de datos interactiva ). Ver, por ejemplo, a eig funcionan. El D de la matriz tomará la forma de × del M un ; Matriz diagonal M, donl
del
D = \ lambda_m \ qquad \ mathrm {para} \ qquad p = q = m el
l es el valor propio del th del m del C de la matriz de covariación, y
D = 0 \ qquad \ mathrm {para} \ qquad p \ l ne q. V de la matriz, también de los × del M de la dimensión; El M, contiene los vectores de la columna del M, cada uno del M de la longitud, que representan los vectores propios del M del C de la matriz de covariación.
Se piden y se aparean los valores propios y los vectores propios. El valor propio del th del m corresponde al vector propio del th del m .
Cambiar los vectores propios y los valores propios
Clasificar las columnas del V de la matriz del vector propio y del D de la matriz del valor propio en la orden del que disminuye valor propio de .
Cerciorarse de mantener los pairings correctos entre las columnas en cada matriz.
Computar el contenido en energía acumulativo para cada vector propio
Los valores propios representan la distribución de la energía de los datos de fuente entre cada uno de los vectores propios, donde los vectores propios forman una base para los datos. El acumulativo g del contenido en energía para el vector propio del th del m es la suma del contenido en energía a través de todos los vectores propios a partir de 1 directo m :
g = \ sum_ {q=1} ^m D \ qquad \ mathrm {para} \ qquad p = q \ qquad \ mathrm {y} \ qquad m = 1… M
Seleccionar un subconjunto de los vectores propios como vectores de la base
Ahorrar el primer L columnas de del V como los × del M ; L W de la matriz de :
W = V \ qquad \ mathrm {para} \ qquad p = 1… M \ qquad q = 1… L
l donde
1 del del
\ L \ leq M. del leq Utilizar el g del vector como guía en elegir un valor apropiado para el L . La meta es elegir tan pequeño un valor del L como sea posible mientras que alcanza razonablemente un elevado valor del g sobre una base del porcentaje. Por ejemplo, usted puede querer elegir el L de modo que el acumulativo g de la energía esté sobre cierto umbral, como el 90 por ciento. En este caso, elegir el valor más pequeño del L tales que g \ GE el 90% del
l del
Convertir los datos de fuente a las z-cuentas
Crear los × del M un ; 1 empírico s del vector de la desviación estándar de la raíz cuadrada de cada elemento a lo largo de la diagonal principal del C de la matriz de covariación: del
\ mathbf {s} = \ {s \} = \ raíz cuadrado {} \ qquad \ mathrm {para \} de C p = q = m de =
1 \ ldots M Calcular los × del M ; Matriz de la z-cuenta N : del
de \ mathbf {Z} = {\ mathbf {B} \ sobre \ mathbf {} \ cdot \ mathbf {h} de s} (elemento-por-elemento) de la divisoria Nota: ¡Mientras que este paso es útil para los varios usos pues normaliza el conjunto de datos con respecto a su variación, no es parte integrante de PCA/KLT!
Proyectar las z-cuentas de los datos sobre la nueva base
Los vectores proyectados son las columnas de la matriz
\ mathbf {Y} = \ mathbf {W} ^* \ cdot \ mathbf {Z} = \ mathbb {KLT} \ {\ mathbf {} \} de X.
- Las columnas del Y de la matriz representan el Karhunen-Loeve transforman (KLT) de los vectores de datos en las columnas del X de la matriz.
Algoritmo #2: el método de correlación
nota de redactor del del : Esta sección está experimentando actual una revisión importante. Ver la historia de la página para las revisiones anteriores.
Derivación PCA usar el método de la covariación
Dejar el X ser un d - vector al azar dimensional expresado como vector de la columna. Sin la pérdida de generalidad, asumir que el X tiene medio empírico cero. Queremos encontrar un d \ un ortonormal P de la matriz de la transformación de las épocas d tales que del l \ mathbf {Y} = \ ^ \ tapa \ mathbf del mathbf {P} {X}
con el constreñimiento eso el del l \ el operatorname {cov} (\ mathbf {Y})
es una matriz diagonal y ^ del \ del mathbf {P} {- 1} = \ el ^ \ top. del mathbf {P}
Por la substitución, y la álgebra de matriz, obtenemos:
\ comenzar {la matriz} \ operatorname {cov} (\ mathbf {Y}) &=& \ mathbb {} \ mathbf {Y} de E \ del mathbf {Y} del ^ \ de la tapa \ \ \ &=& \ ^ del mathbb {E} \ del mathbf {P} \ tapa \ del mathbf {X}) (\ ^ \ tapa \ mathbf del mathbf {P} {X}) del ^ \ de la tapa \ \ \ del &=& \ del mathbb {E} \ del mathbf {X}) (\ ^ \ tapa \ mathbf del mathbf {X} {P}) \ \ \ ^ del &=& \ del mathbf {P} \ tapa \ mathbb {E} \ del mathbf {X} del ^ \ de la tapa \ del mathbf {P} \ \ \ &=& \ mathbf {P} ^ \ tapa \ operatorname {cov} (\) \ mathbf {P} del mathbf {X} \ extremo {matriz}
Ahora tenemos:
\ comenzar {la matriz} \ &=& del mathbf {P} \ del operatorname {cov} (\ mathbf {Y}) \ ^ del mathbf {P} \ del mathbf {P} \ tapa \ operatorname {cov} (\ mathbf {X}) \ del mathbf {P} \ \ \ &=& \ operatorname {cov} (\ mathbf {X}) \ del mathbf {P} \ \ \ extremo {matriz}
Reescribir el P como d de d \ vectores de la columna de las épocas 1, tan del l \ mathbf {P} = P_2, \ ldots, P_d
y \ operatorname {cov} (\ mathbf {Y}) como:
\ comenzar {el bmatrix} \ lambda_1 y \ cdots y 0 \ \ \ vdots y \ ddots y \ de los vdots \ \ 0 y \ y \ lambda_d de los cdots \ extremo {bmatrix}.
Substituyendo en la ecuación arriba, obtenemos:, \ lambda_2 P_2, \, \ lambda_d P_d = del P_1 del l de los ldots \ operatorname {cov} (X) P_2, \, \ operatorname {cov} (X) P_d] de los ldots.
Notar que en = \ operatorname {cov} (X) P_i
de P_i del
\ del lambda_i, el P i es un vector propio X′ matriz de covariación de s. Por lo tanto, encontrando los vectores propios del X′ matriz de covariación de s, encontramos un P de la matriz de la proyección que satisfaga los apremios originales.
La relación a K-significa el agrupamiento
Se ha demostrado recientemente que la solución relaxed K-significa de agrupamiento, especificado por los indicadores del racimo, son dados por los componentes principales del PCA, y el subespacio del PCA atravesado por las direcciones principales es idéntico al subespacio del centro de figura del racimo especificado por la matriz de la dispersión de la entre-clase.
El análisis de la correspondencia del es conceptual similar al PCA, pero escala los datos (que deben ser positivos) para tratar filas y columnas equivalente. Se aplica tradicionalmente a las tablas de contingencia donde la prueba del ji-cuadrado de Pearson ha demostrado una relación entre las filas y las columnas.
Software/código fuente
Biblioteca de la visión de computadora
Software de análisis multivariante de datos
en el Matlab, el " de la función; princomp" da el componente principal
en el estadístico R, el " del paquete de la fuente abierta de la función; princomp" puede ser utilizado para el análisis componente principal.
En el XLMiner, la lengüeta componente de los principios se puede utilizar para el análisis componente principal.
SciLab .
ZenithicAştileu