El principio mínimo de la longitud de la descripción del es una formalización de la maquinilla de afeitar de Occam en la cual la mejor hipótesis para un sistema de datos dado es la que ésa lleva a la compresión más grande de los datos . El MDL fue introducido por el Jorma Rissanen en el 1978 ; es un concepto importante en la teoría de información y el que aprende la teoría .

Cualquier sistema de datos se puede representar por una cadena de los símbolos (decir, binario) de un alfabeto finito . " La idea fundamental detrás del principio del MDL es que cualquier regularidad en un sistema de datos dado se puede utilizar a la compresa los datos, es decir describirla usar pocos símbolos que necesitada describir los datos literally." (Grünwald, 1998. Ver el acoplamiento abajo.) Puesto que queremos seleccionar la hipótesis que captura la mayoría de la regularidad en los datos, buscamos la hipótesis con la cual la mejor compresión puede ser alcanzada.

Para hacer esto, debemos primero fijar un código para comprimir los datos. La manera más general de hacer esto es elegir la lengua de la computadora de a ( Turing-completo). Entonces escribimos un programa en esa lengua, de que hacemos salir los datos. Este programa representa así los datos. La longitud del programa más corto que hace salir los datos se llama la complejidad de Kolmogorov de los datos. Ésta es la idea central de la teoría idealizada de Solomonoff del rayo de la inferencia inductiva .

Sin embargo, esta teoría matemática no proporciona una manera práctica de hacer inferencia. Las razones más importantes de esto son:
La complejidad de Kolmogorov del

es el uncomputable: existe ningún programa de computadora que, cuando entrada una secuencia arbitraria de datos, haga salir el programa más corto que presenta los datos. Incluso si debemos encontrar accidentalmente el programa más corto que hace salir los datos, está en el general no posible al sabe para cierto que es el más corto.
La complejidad de Kolmogorov depende de qué lenguaje de programación se utiliza para describir programas. Esto es una opción arbitraria, pero influencia la complejidad hasta un cierto término aditivo constante. Por esa razón, los términos constantes tienden a ser desatendidos en teoría de complejidad de Kolmogorov. Pero en la práctica, donde a menudo solamente está disponible una pequeña cantidad de datos, tales constantes pueden tener una influencia muy grande en los resultados de la inferencia: los buenos resultados no pueden ser garantizados cuando uno está trabajando con datos limitados.

El MDL es una tentativa de remediar éstos, cerca:
Restricción del sistema de códigos permitidos de una manera tal que llegue a ser posible (computable) encontrar el codelength más corto de los datos, concerniente a los códigos permitidos, y
Eligiendo un código que es razonablemente eficiente lo que los datos actuales. Este punto es algo evasivo y mucha investigación todavía está entrando encendido en esta área.

Algo que " programs", en el MDL la teoría una habla generalmente de hipótesis, de modelos o de códigos del candidato. El sistema de códigos permitidos entonces se llama la clase modelo. (Para confundir materias, algunos autores refieren a la clase modelo como el modelo.) El código entonces se selecciona para cuál es mínima la suma de la descripción del código y de la descripción de los datos con la ayuda del código.

Una de las características importantes de los métodos del MDL es que proporcionan una salvaguardia natural contra el Overfitting, porque ejecuta una compensación entre la complejidad de la hipótesis (clase modelo) y la complejidad de los datos dados la hipótesis. Para ver porqué esto es verdad, considerar el ejemplo siguiente. Suponer que usted mover de un tirón una moneda 1.000 veces y usted observan los números de cabezas y de colas. Consideramos dos clases modelo: el primer consiste en un código que represente cada resultado con un 0 para las cabezas o un 1 para las colas. Este código representa la hipótesis que la moneda es justa. La longitud del código según este código es siempre exactamente 1. La segunda clase del modelo consiste en todos los códigos que sean eficientes para una moneda con un cierto diagonal específico, representando la hipótesis que la moneda no es justa. Decir que observamos 510 cabezas y 490 colas. Entonces la longitud del código según el mejor código de la segunda clase del modelo es más corta de 1. Por esta razón un método estadístico ingenuo pudo proponer esta segunda hipótesis como mejor explicación para los datos. Sin embargo, en un acercamiento del MDL que tendríamos que construir un solo código del basado en la hipótesis, nosotros no puede apenas utilizar el mejor. Una manera simple de hacerla sería utilizar un código bipartito, en el cual primero especificamos qué elemento de la clase modelo tiene el mejor funcionamiento, y entonces especificamos los datos usar ese código. Necesitaremos el bastantes de pedacitos especificar qué código a utilizar; así el codelength total basado en la segunda clase del modelo sería más grande de 1. Así si usted sigue un acercamiento del MDL la conclusión tiene que ser que no hay bastante evidencia en apoyo de la hipótesis que la moneda es en polarización negativa, aunque el mejor elemento de la segunda clase del modelo proporciona un mejor ajuste a los datos.

La central a la teoría del MDL es la correspondencia una por entre las funciones de la longitud del código y las distribuciones de probabilidad (el lema implicado es la desigualdad de Kraft-McMillan.) Que cualquier distribución de probabilidad P, es posible construya un código C tales que la longitud (en pedacitos) del C (x) es igual al - \ log_2 P (x); este código reduce al mínimo la longitud prevista del código. Viceversa, dado un código C, uno puede construir una distribución de probabilidad P tales que igual se sostiene. (Redondeando ediciones se no hacen caso aquí.) Es decir la búsqueda para un código eficiente reduce a la búsqueda para una buena distribución de probabilidad, y viceversa.

Conceptos relacionados

El MDL está conectado muy fuerte con la teoría de las probabilidades y las estadísticas a través de la correspondencia entre los códigos y las distribuciones de probabilidad mencionados anteriormente. Esto ha llevado a algunos investigadores a ver el MDL como siendo equivalente a la inferencia Bayesian . La longitud del código de la longitud del modelo y del código del modelo y de datos junta en el MDL corresponde a la probabilidad anterior y a la probabilidad marginal respectivamente en el marco Bayesian. Este punto de vista se expresa por ejemplo en teoría de información del de David MacKay, inferencia, y los algoritmos de aprendizaje (véase el acoplamiento abajo). Sin embargo, mientras que la maquinaria Bayesian es a menudo útil en construir códigos eficientes del MDL, el marco del MDL también acomoda otros códigos que no sean Bayesian. Un ejemplo es el Shtarkov de la “código normalizado toda probabilidad”, que desempeña un papel fundamental en teoría actual del MDL, pero no tiene ningún equivalente en inferencia Bayesian. Además, Rissanen tensiona que no debemos hacer ninguna asunción sobre los datos verdaderos del que generan proceso: en la práctica, una clase modelo es típicamente una simplificación de la realidad y no contiene así ninguna distribución del código o de probabilidad que sea verdad en cualquier sentido objetivo. Según la filosofía del MDL, debemos despedir así métodos Bayesian si se basan en los priors “inseguros” que llevarían a los resultados pobres para un ciertos datos posibles que generan procesos. Los priors que son aceptables desde un punto de vista del MDL también tienden a ser favorecidos en análisis Bayesian objetivo del supuesto ; sin embargo, allí la motivación es generalmente diferente.

El MDL no era el acercamiento información-teórico del primer al aprendizaje; desde 1968 Wallace y Boulton inició un concepto relacionado llamado la longitud de mensaje mínima (MML). La diferencia entre el MDL y MML es una fuente de confusión en curso entre académico y escritores de la enciclopedia igualmente. Superficial, los métodos aparecen sobre todo equivalentes, pero hay algunas diferencias significativas, especialmente en la interpretación:

MML es un acercamiento Bayesian completamente subjetivo: empieza con la idea que una representa su creencia sobre los datos que generan proceso bajo la forma de distribución anterior. El MDL evita asunciones sobre los datos que generan proceso en conjunto.
Ambos métodos hacen uso de códigos de dos porciones: la primera parte representa siempre la información que una está intentando aprender por ejemplo el índice de una clase modelo (selección modelo ), o los valores de parámetro (valoración del parámetro). La segunda parte es una codificación de los datos dados la información en la primera partición. Se aboga la diferencia está ésa en la literatura del MDL, él que los parámetros que no queremos aprender se deben mover a la segunda parte del código, donde pueden ser representados junto con los datos usando un código One-part supuesto. Esto es a menudo más eficiente que un código bipartito. En la descripción original de MML, todos los parámetros se codifican en la primera parte así que todos los parámetros son doctos.

  • Zenithic
  • CityFest
    Random links:Asociación del archivo | Niklaus Aeschbacher | 1824 en Suráfrica | Hemvärnets Musikkår Borås | Destapado por Heartbeat

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">