Las máquinas del vector de la ayuda (SVMs) del son un sistema de relacionado supervisado el aprender de los métodos de usados para la clasificación y la regresión . Pertenecen a una familia de los clasificadores lineares generalizados que pueden también ser consideradas un caso especial de la regularización de Tikhonov. Una característica especial de SVMs es que reducen al mínimo simultáneamente el error empírico de la clasificación y maximizan el margen geométrico; por lo tanto también se conocen como clasificadores máximos del margen del .

Apoyar los vectores de la entrada del mapa de las máquinas del vector a un espacio dimensional más alto donde se construye un hiperplano de separación máximo . Dos hiperplanos paralelos se construyen en cada lado del hiperplano que separa los datos. El hiperplano de separación es el hiperplano que maximiza la distancia entre los dos hiperplanos paralelos. Se hace una asunción que más grande es el margen o la distancia entre estos hiperplanos paralelos mejor es el error de la generalización del clasificador será. Una clase particular excelente ha sido producida por C. Una comparación del SVM a otros clasificadores ha sido hecha por van der Walt y Barnard.

Motivación

Estamos a menudo interesados en clasificar datos como parte de un proceso de máquina-aprendizaje. Cada punto de referencias será representado por un vector de p-dimensional (una lista de números de p). Cada uno de estos puntos de referencias pertenece a solamente uno de dos clases. Estamos interesados adentro si podemos separarlas con un " p menos 1" hiperplano dimensional . Ésta es una forma típica del clasificador linear . Hay muchos clasificadores lineares que pudieron satisfacer esta característica. Sin embargo, estamos interesados además en descubrir si podemos alcanzar la separación máxima (margen ) entre las dos clases. Por esto significamos que escogemos el hiperplano para maximizar la distancia del hiperplano al punto de referencias más cercano. Es decir que la distancia más cercana entre un punto en un hiperplano separado de y un punto en el otro hiperplano separado de está maximizada. Ahora, si existe tal hiperplano, está claramente de interés y se conoce como el hiperplano del Máximo-margen y un clasificador tan linear se conoce como clasificador máximo del margen .

Formalización

Consideramos los puntos de referencias de la forma:

\ {(\ mathbf {x} _1, c_1), (\ mathbf {x} _2, c_2), \ ldots, (\ _n del mathbf {x},) \} del c_n donde está 1 o &minus el i del del c ; 1, un constante que denota la clase a la cual el _i del \ del mathbf del punto {x} pertenece. Cada _i del \ del mathbf {x} es un vector verdadero de p-dimensional, generalmente de normalizado ( que normaliza constante) o los valores. El escalamiento es importante guardar contra las variables (cualidades) con una variación más grande que pudo dominar de otra manera la clasificación. Podemos ver esto como datos del entrenamiento del, que denota la clasificación correcta que quisiéramos que el SVM distinguiera eventual, por medio del hiperplano de división (o separándose), que toma la forma

\ mathbf {} \ cdot \ mathbf {x} - b=0. de w El del vector \ el mathbf {w} señala el perpendicular al hiperplano de separación. El adición del b del parámetro de la compensación permite que aumentemos el margen. En su ausencia, el hiperplano se fuerza para pasar con el origen, restringiendo la solución.

Mientras que estamos interesados en el margen máximo, estamos interesados en los vectores de la ayuda y los hiperplanos paralelos (al hiperplano óptimo) lo más cerca posible a estos vectores de la ayuda en cualquier clase. ¡Puede ser shown que este paralelo hiperplano puede estar descrito por ecuación (escalando w y b si no)

\ mathbf {w} \ cdot \ mathbf {x} - b=1,
\ mathbf {} \ cdot \ mathbf {x} de w - b=-1. Si los datos del entrenamiento son el linear separable, podemos seleccionar estos hiperplanos de modo que no haya puntos entre ellos y después intentar maximizar su distancia. Usando geometría, encontramos que la distancia entre los hiperplanos es 2| w del |, así que queremos reducir al mínimo | w del |. Para excluir referencia punto, nosotros necesitan asegurarse que para todo el i cualquier

\ mathbf {w} \ cdot \ mathbf {x_i} - b \ GE 1 \ qquad \ mathrm {o}
\ mathbf {} \ cdot \ mathbf {x_i} de w - b \ le -1 \ qquad \ mathrm {} Esto se puede reescribir como:

c_i (\ mathbf {} \ cdot \ mathbf {x_i} -, \ patio 1 \ le i \ le n. \ qquad \ qquad (1) de w de b) \ GE 1

Forma principal

El problema ahora es reducir al mínimo | w del | conforme al constreñimiento (1). Esto es un problema de la optimización de la programación cuadrático (QP). Más claramente, el reduce al mínimo el \ el frac {1} {2}||\ mathbf {w}||^2, conforme a c_i (\ mathbf {} \ cdot \ mathbf {x_i} -, \ patio 1 \ le i \ le n. de w de b) \ GE 1 El factor de el 1/2 se utiliza para la conveniencia matemática.

Forma dual

La escritura de la regla de la clasificación en su forma dual libre revela que la clasificación es solamente una función de los vectores, es decir, los datos de la ayuda del del entrenamiento que mienten en el margen. El dual del SVM se puede demostrar para ser:

\ máximo \ sum_ {i=1} ^n \ alpha_i - \ frac {1} {2} \ sum_ {i,} \ c_j del c_i del alpha_i de j \ del alpha_j \ _i^T del mathbf {x} \ mathbf {x} _j conforme a \ a alpha_i \ al geq 0 , y ^n del \ del sum_ {i=1} \ c_i del alpha_i = 0 donde los términos del \ alpha constituyen una representación dual para el vector del peso en términos de entrenamiento fijado: = \ c_i del sum_i del \ del mathbf del {w} \ del alpha_i \ mathbf {x} _i

Margen suave

En el 1995, el Corinna Cortes y el Vladimir Vapnik sugirieron una idea máxima modificada del margen que tiene en cuenta ejemplos mislabeled. Si existe ningún hiperplano que pueda partir el " yes" y " no" los ejemplos, el método suave del margen del elegirán un hiperplano que parta los ejemplos tan limpios como sea posible, mientras que todavía maximiza la distancia a los ejemplos limpios más cercanos de la fractura. Este trabajo popularizó la máquina del vector de la ayuda del de la expresión o el SVM . Método introduce flojo variable, \ xi_i, que miden grado de clasificación erróneo de dato x_i

c_i (\ mathbf {} \ cdot \ mathbf {x_i} - - \ xi_i \ patio 1 \ le i \ le n \ patio \ patio (2) de w de b) \ GE 1. La función objetiva entonces es aumentada en una función que penalice el diferente a cero \ xi_i, y la optimización se convierte en una compensación entre un margen grande, y una pequeña pena del error. Si la función de pena es linear, la ecuación (3) ahora transforma al \ al minuto del ||\ mathbf {w}||^2 + C \ sum_i \ xi_i \ patio \ mbox {tal que} \ patio c_i (\ mathbf {} \ cdot \ mathbf {x_i} - - \ xi_i \ patio 1 \ le i \ le n. de w de b) \ GE 1 Este constreñimiento en (2) junto con el objetivo de la reducción al mínimo | w del | puede ser solucionado usar los multiplicadores de Lagrange. La ventaja dominante de una función de pena linear es que las variables flojas desaparecen del problema dual, con el constante C apareciendo solamente como constreñimiento adicional en los multiplicadores de Lagrange. Las funciones de pena no lineares se han utilizado, para reducir particularmente el efecto de afloramientos en el clasificador, pero a menos que se tome el cuidado, el problema llega a ser no convexo, y es así considerablemente más difícil encontrar una solución global.

Clasificación no linear

El algoritmo óptimo original del hiperplano propuso por el Vladimir Vapnik en el 1963 era un clasificador linear . Sin embargo, en el 1992, el Bernhard Boser, el Isabel Guyon y Vapnik sugirieron una manera de crear clasificadores no lineares aplicando el truco del núcleo (propuesto original por Aizerman y otros. ¡ ) hiperplanos del máximo-margen. El algoritmo resultante es formalmente similar, salvo que cada producto de punto es substituido por una función no linear del núcleo . Esto permite que el algoritmo quepa el hiperplano del máximo-margen en el espacio transformado de la característica. La transformación puede ser no linear y el espacio transformado arriba dimensional; así aunque el clasificador es un hiperplano en el espacio de característica alto-dimensional puede ser no linear en el espacio original de la entrada.

Si el núcleo usado es una función de base radial gausiano, el espacio de característica correspondiente es un espacio de Hilbert de la dimensión infinita. Los clasificadores máximos del margen son regularizados bien, así que la dimensión infinita no estropea los resultados. Algunos núcleos comunes incluyen,
Polinomio (homogéneo): k (\ mathbf {x}, \ mathbf {x} ")= (\ mathbf {} \ cdot \ mathbf {x de x”}) ^d
Polinomio (no homogéneo): k (\ mathbf {x}, \ mathbf {x} ")= (\ mathbf {} \ cdot \ mathbf {x de x”} + 1)^d
Función de base radial: k (\ mathbf {x}, \ ")= \ exp (- \ gamma del mathbf {x} \|\ mathbf {x} - \ del mathbf {x”} \|^2), para el \ la gamma > 0
Función de base radial gausiana: k (\ mathbf {x}, \ el ")= \ exp del mathbf {x} \ se fue (- \ frac {\|\ mathbf {x} - \ del mathbf {x”} \|^2} {2 \ sigma^2} \) derecho
sigmoideo: k (\ mathbf {x}, \ mathbf {x} ")= \ tanh (\ kappa \ mathbf {} \ cdot \ mathbf {x”} +c) de x, para algún (no cada) \ kappa > 0 y el c < 0

Regresión

Una versión de un SVM para la regresión fue propuesta en el 1996 por el Vladimir Vapnik, Harris Drucker, Chris Burges, Linda Kaufman y Alex Smola. Este método se llama la regresión (SVR) del vector de la ayuda. El modelo produjo por la clasificación del vector de la ayuda (como se describe anteriormente) depende solamente de un subconjunto de los datos del entrenamiento, porque la función de coste para construir el modelo no cuida sobre los puntos del entrenamiento que mienten más allá del margen. Análogo, el modelo producido por SVR depende solamente de un subconjunto de los datos del entrenamiento, porque la función de coste para construir el modelo no hace caso de cualquier dato del entrenamiento que esté cercano (dentro de un \ epsilon del umbral) a la predicción modelo.

Puesta en práctica

Los parámetros del hiperplano del máximo-margen son derivados solucionando la optimización. Existen varios algoritmos especializados para rápidamente solucionar el problema de QP que se presenta de SVMs, sobre todo confiados en la heurística para romper el problema abajo en pedazos más pequeños, más-manejables. Un método común para solucionar el problema de QP es el algoritmo de SMO de Platt, que rompe el problema abajo en los subproblemas de 2 dimensiones que se pueden solucionar analítico, eliminando la necesidad de un algoritmo de optimización numérica tal como métodos del gradiente conyugal .

Algoritmos rápidos del entrenamiento

Ha habido un cierto trabajo reciente por el Thorsten Joachims que ganó la mejor concesión de papel KDD 2006, que da un algoritmo del plano secante para las máquinas del vector de la ayuda del entrenamiento.

Es el primer algoritmo que optimiza la formulación tradicional de la bisagra-pérdida SVM a tiempo que es linear en el tamaño de los datos del entrenamiento (donde el entrenamiento de datos se representa en el formato escaso con las cualidades valoradas cero no incluidas). Esto está disponible en SVMPerf, que es un paquete disponible libremente transferible.

Ver también

El núcleo trabaja a máquina
Analytics profético
Máquina, un modelo escaso de probabilidad del vector de la importancia del núcleo idéntico en forma funcional a SVM.
  • Zenithic
  • Golden Plains Festival
    Random links:Hybris (gusano de la computadora) | Victoria móvil Gundam del juego | Navegación en los 2000 Juegos Olímpicos de Verano | Districto de la corte de Lycksele Laponia | El nadar en los 1920 Juegos Olímpicos de Verano

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">