Las máquinas del vector de la ayuda (SVMs) del son un sistema de relacionado supervisado el aprender de los métodos de usados para la clasificación y la regresión . Pertenecen a una familia de los clasificadores lineares generalizados que pueden también ser consideradas un caso especial de la regularización de Tikhonov. Una característica especial de SVMs es que reducen al mínimo simultáneamente el error empírico de la clasificación y maximizan el margen geométrico; por lo tanto también se conocen como clasificadores máximos del margen del .
Apoyar los vectores de la entrada del mapa de las máquinas del vector a un espacio dimensional más alto donde se construye un hiperplano de separación máximo . Dos hiperplanos paralelos se construyen en cada lado del hiperplano que separa los datos. El hiperplano de separación es el hiperplano que maximiza la distancia entre los dos hiperplanos paralelos. Se hace una asunción que más grande es el margen o la distancia entre estos hiperplanos paralelos mejor es el error de la generalización del clasificador será. Una clase particular excelente ha sido producida por C. Una comparación del SVM a otros clasificadores ha sido hecha por van der Walt y Barnard.
Mientras que estamos interesados en el margen máximo, estamos interesados en los vectores de la ayuda y los hiperplanos paralelos (al hiperplano óptimo) lo más cerca posible a estos vectores de la ayuda en cualquier clase. ¡Puede ser shown que este paralelo hiperplano puede estar descrito por ecuación (escalando w y b si no) \ mathbf {w} \ cdot \ mathbf {x} - b=1, \ mathbf {} \ cdot \ mathbf {x} de w - b=-1. Si los datos del entrenamiento son el linear separable, podemos seleccionar estos hiperplanos de modo que no haya puntos entre ellos y después intentar maximizar su distancia. Usando geometría, encontramos que la distancia entre los hiperplanos es 2| w del |, así que queremos reducir al mínimo | w del |. Para excluir referencia punto, nosotros necesitan asegurarse que para todo el i cualquier \ mathbf {w} \ cdot \ mathbf {x_i} - b \ GE 1 \ qquad \ mathrm {o} \ mathbf {} \ cdot \ mathbf {x_i} de w - b \ le -1 \ qquad \ mathrm {} Esto se puede reescribir como: c_i (\ mathbf {} \ cdot \ mathbf {x_i} -, \ patio 1 \ le i \ le n. \ qquad \ qquad (1) de w de b) \ GE 1
En el 1995, el Corinna Cortes y el Vladimir Vapnik sugirieron una idea máxima modificada del margen que tiene en cuenta ejemplos mislabeled. Si existe ninguÌn hiperplano que pueda partir el " yes" y " no" los ejemplos, el método suave del margen del elegirán un hiperplano que parta los ejemplos tan limpios como sea posible, mientras que todavía maximiza la distancia a los ejemplos limpios más cercanos de la fractura. Este trabajo popularizó la máquina del vector de la ayuda del de la expresión o el SVM . Método introduce flojo variable, \ xi_i, que miden grado de clasificación erróneo de dato x_i c_i (\ mathbf {} \ cdot \ mathbf {x_i} - - \ xi_i \ patio 1 \ le i \ le n \ patio \ patio (2) de w de b) \ GE 1. La función objetiva entonces es aumentada en una función que penalice el diferente a cero \ xi_i, y la optimización se convierte en una compensación entre un margen grande, y una pequeña pena del error. Si la función de pena es linear, la ecuación (3) ahora transforma al \ al minuto del ||\ mathbf {w}||^2 + C \ sum_i \ xi_i \ patio \ mbox {tal que} \ patio c_i (\ mathbf {} \ cdot \ mathbf {x_i} - - \ xi_i \ patio 1 \ le i \ le n. de w de b) \ GE 1 Este constreñimiento en (2) junto con el objetivo de la reducción al mínimo | w del | puede ser solucionado usar los multiplicadores de Lagrange. La ventaja dominante de una función de pena linear es que las variables flojas desaparecen del problema dual, con el constante C apareciendo solamente como constreñimiento adicional en los multiplicadores de Lagrange. Las funciones de pena no lineares se han utilizado, para reducir particularmente el efecto de afloramientos en el clasificador, pero a menos que se tome el cuidado, el problema llega a ser no convexo, y es así considerablemente más difícil encontrar una solución global.
El algoritmo óptimo original del hiperplano propuso por el Vladimir Vapnik en el 1963 era un clasificador linear . Sin embargo, en el 1992, el Bernhard Boser, el Isabel Guyon y Vapnik sugirieron una manera de crear clasificadores no lineares aplicando el truco del núcleo (propuesto original por Aizerman y otros. ¡ ) hiperplanos del máximo-margen. El algoritmo resultante es formalmente similar, salvo que cada producto de punto es substituido por una función no linear del núcleo . Esto permite que el algoritmo quepa el hiperplano del máximo-margen en el espacio transformado de la característica. La transformación puede ser no linear y el espacio transformado arriba dimensional; así aunque el clasificador es un hiperplano en el espacio de característica alto-dimensional puede ser no linear en el espacio original de la entrada.
Si el núcleo usado es una función de base radial gausiano, el espacio de característica correspondiente es un espacio de Hilbert de la dimensión infinita. Los clasificadores máximos del margen son regularizados bien, así que la dimensión infinita no estropea los resultados. Algunos núcleos comunes incluyen, Polinomio (homogéneo): k (\ mathbf {x}, \ mathbf {x} ")= (\ mathbf {} \ cdot \ mathbf {x de x”}) ^d Polinomio (no homogéneo): k (\ mathbf {x}, \ mathbf {x} ")= (\ mathbf {} \ cdot \ mathbf {x de x”} + 1)^d Función de base radial: k (\ mathbf {x}, \ ")= \ exp (- \ gamma del mathbf {x} \|\ mathbf {x} - \ del mathbf {x”} \|^2), para el \ la gamma > 0 Función de base radial gausiana: k (\ mathbf {x}, \ el ")= \ exp del mathbf {x} \ se fue (- \ frac {\|\ mathbf {x} - \ del mathbf {x”} \|^2} {2 \ sigma^2} \) derecho sigmoideo: k (\ mathbf {x}, \ mathbf {x} ")= \ tanh (\ kappa \ mathbf {} \ cdot \ mathbf {x”} +c) de x, para alguÌn (no cada) \ kappa > 0 y el c < 0
Una versión de un SVM para la regresión fue propuesta en el 1996 por el Vladimir Vapnik, Harris Drucker, Chris Burges, Linda Kaufman y Alex Smola. Este método se llama la regresión (SVR) del vector de la ayuda. El modelo produjo por la clasificación del vector de la ayuda (como se describe anteriormente) depende solamente de un subconjunto de los datos del entrenamiento, porque la función de coste para construir el modelo no cuida sobre los puntos del entrenamiento que mienten más allá del margen. Análogo, el modelo producido por SVR depende solamente de un subconjunto de los datos del entrenamiento, porque la función de coste para construir el modelo no hace caso de cualquier dato del entrenamiento que esté cercano (dentro de un \ epsilon del umbral) a la predicción modelo.
Es el primer algoritmo que optimiza la formulación tradicional de la bisagra-pérdida SVM a tiempo que es linear en el tamaño de los datos del entrenamiento (donde el entrenamiento de datos se representa en el formato escaso con las cualidades valoradas cero no incluidas). Esto está disponible en SVMPerf, que es un paquete disponible libremente transferible.