En las estadísticas, la distancia de Mahalanobis del es una medida de la distancia introducida por el P. Mahalanobis en el 1936 . Se basa en las correlaciones entre las variables por las cuales diversos patrones pueden ser identificados y ser analizados. Es una manera útil de determinar la semejanza del de una muestra desconocida determinado conocido. Diferencia de distancia euclidiana en que considera las correlaciones del conjunto de datos y es escalar-invariante, es decir no dependiente en la escala de medidas.

Formalmente, la distancia de Mahalanobis de un grupo de valores con el malo \ MU = \ mu_1, \ mu_2, \ mu_3, (\ puntea, \ mu_p) ^T y \ Rho de la matriz de covariación para un x multivariante del vector = (x_1, x_2, x_3, \ puntea, x_p) se define ^T como: D_M del

l (x) = \ raíz cuadrada {(x - \ MU) ^T \ Rho^ {- 1} (x \ MU)}. \,

La distancia de Mahalanobis se puede también definir como medida de la desemejanza entre dos el \ el vec al azar {x} de los vectores y el \ el vec {y} de la misma distribución con la matriz de covariación \ Rho: ^T = \ raíz cuadrada del d del

l (\, \ vec {y} del vec {x}) {(\ - \ vec {y} del vec {x}) \ - \ vec {y} de Rho^ {- 1} (\ vec {x})}. \,

Si la matriz de covariación es la matriz de identidad, la distancia de Mahalanobis reduce a Distancia euclidiana . Si la matriz de covariación es diagonal, después la medida resultante de la distancia se llama la distancia euclidiana normalizada : d del

l (\, \ vec {y} del vec {x}) = \ raíz cuadrada {\ ^p del sum_ {i=1} {(x_i - y_i) ^2 \ sobre \ sigma_i^2}},

donde está la desviación el \ sigma_i estándar del x_i del sobre el sistema de la muestra.

Explicación intuitiva

Considerar el problema de estimar la probabilidad que un punto de prueba en el N - el espacio euclidiano dimensional pertenece a un sistema, donde nos dan los puntos de muestra que pertenecen definitivamente a ése fijan. Nuestro primer paso sería encontrar el el medio o centro de masa de los puntos de muestra. Intuitivo, más cercano está el punto en la pregunta está a este centro de masa, más probable es pertenecer al sistema.

Sin embargo, también necesitamos saber grande es el sistema. El acercamiento simplista es estimar la desviación estándar de las distancias de los puntos de muestra del centro de masa. Si la distancia entre el punto de prueba y el centro de masa es menos de una desviación estándar, después concluimos eso es alto probable que el punto de prueba pertenece al sistema. Más lejos sea, cuanto más probable el punto de prueba no debe ser clasificado como perteneciendo al sistema.

Este acercamiento intuitivo se puede hacer cuantitativo cerca definición de la distancia normalizada entre el punto de prueba y el sistema para estar {} \ sobre \ sigma - \ MU de x. Tapando esto en el de distribución normal conseguimos la probabilidad del punto de prueba que pertenece al sistema.

La desventaja del acercamiento antedicho era que asumimos que los puntos de muestra están distribuidos sobre el centro de masa de una manera esférica. Era la distribución a estar decididamente non-spherical, por ejemplo elipsoidal, entonces esperaríamos la probabilidad del punto de prueba que pertenece al sistema para depender no sólo de la distancia del centro de masa, pero también en la dirección. En esas direcciones donde el elipsoide tiene un eje corto que el punto de prueba debe estar más cercano, mientras que en ésos donde está largo el eje el punto de prueba puede estar más lejos del centro.

Poniendo esto en una base matemática, el elipsoide eso el mejor representa la distribución de probabilidad del sistema puede ser estimado construyendo la matriz de covariación del muestras. La distancia de Mahalanobis es simplemente la distancia del punto de prueba del centro de masa dividido por la anchura del elipsoide en la dirección del punto de prueba.

Relación a la palancada

La distancia de Mahalanobis es estrechamente vinculada al h de la estadística de la palancada. La distancia de Mahalanobis de un punto de referencias del centro de figura de un conjunto de datos multivariante es (  del N ; −   1) mide el tiempo de la palancada de eso punto de referencias, donde está el número el N de puntos de referencias en el sistema.

Usos

La distancia de Mahalanobis es ampliamente utilizada en el análisis de racimo y otras técnicas de la clasificación . Es estrechamente vinculada a la distribución del T-cuadrado de Hotelling usada para la prueba estadística multivariante.

Para utilizar la distancia de Mahalanobis para clasificar un punto de prueba como perteneciendo a uno de N las clases, un primer estiman la matriz de covariación de cada clase, basado generalmente en las muestras sabidas para pertenecer a cada clase. Entonces, dado una muestra de la prueba, una computa la distancia de Mahalanobis a cada uno clasificar, y clasifica el punto de prueba como perteneciendo a esa clase para cuál es mínima la distancia de Mahalanobis. Usar la interpretación de probabilidad dada arriba, esto es equivalente a seleccionar la clase con la probabilidad más alta.

También, la distancia de Mahalanobis y la palancada son de uso frecuente detectar los afloramientos especialmente en el desarrollo de los modelos de la regresión linear . Un punto que tiene una mayor distancia de Mahalanobis del resto de la población de la muestra de puntos se dice para tener palancada más alta puesto que tiene una mayor influencia en la cuesta o los coeficientes de la ecuación de regresión.

  • Zenithic
  • Solanum pimpinellifolium
    Random links:Lago Tainter, Wisconsin | Departamento de Los Ángeles de agua y de energía | Marqués del Bute | Provincia de Jawf del Al | Grizabella

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">