El proceso de lenguaje natural (NLP del ) es un subcampo de la inteligencia artificial y de la lingu5ística computacional . Estudia los problemas de la generación y de la comprensión automatizadas de las idiomas humanas naturales .
los sistemas de la Natural-lengua-generación convierten la información de bases de datos de computadora en lengua humana normal-que suena. los sistemas de Natural-lengua-comprensión convierten muestras de lengua humana en representaciones más formales que sean más fáciles para que los programas de la computadora manipulen.
La comprensión de lenguaje natural se refiere a veces como problema AI-completo, porque el reconocimiento de lenguaje natural parece requerir conocimiento extenso sobre el mundo exterior y la capacidad de manipularla. La definición del " que entiende el " de ; es uno de los problemas graves en el proceso de lenguaje natural.
el de las oraciones dimos a monos los plátanos porque eran hambrientos y el nosotros dio a monos los plátanos porque eran demasiado maduros tienen la misma estructura gramatical superficial. Sin embargo, el del pronombre refieren a los monos del en una oración y los plátanos del en la otra, y es imposible decir cuál sin un conocimiento de las características de monos y de plátanos.
Una cadena de palabras se puede interpretar en maneras diferentes. Por ejemplo, el tiempo del de la secuencia vuela como una flecha se puede interpretar de una variedad de maneras: El símil común : los movimientos del tiempo apenas como una flecha hacen rápidamente;
medir la velocidad de los insectos de vuelo como usted mediría el de una flecha (así interpretado como imperativo) - es decir el tiempo del (usted debe) vuela como usted (tiempo) una flecha. ;
medir la velocidad de los insectos de vuelo como una flecha - es decir el tiempo del vuela de la misma manera que una flecha (medir el tiempo de ellos). ;
medir la velocidad de los insectos de vuelo que son como las flechas - es decir tiempo del esas moscas que sean como las flechas ;
todo el tipo de insecto de vuelo, " tiempo-vuela, " goza colectivamente de una sola flecha (comparar las moscas del vinagre del como un plátano );
cada uno de un tipo de insecto de vuelo, " tiempo-vuela, " goza individualmente de una diversa flecha (la comparación similar se aplica);
el compartimiento, tiempo, viaja a través del aire en flecha-como manera.
El inglés es particularmente desafiador a este respecto porque tiene poca morfología inflexional a distinguir entre las partes del discurso .
inglés y varias otras idiomas no especifican qué palabra se aplica un adjetivo. Por ejemplo, en el " de la secuencia; school" de las niñas bonitas;. ¿La escuela mira poco?
¿Las muchachas miran poco?
¿Las muchachas miran bastante?
¿La escuela mira bastante?
resolveremos a menudo ambigüedades en lengua a propósito que ponemos la tensión en palabras. El " de la oración; I nunca dicho ella robó mi money" demuestra la tensión de la importancia puede jugar en una oración, y así la dificultad inherente que un procesador de lenguaje natural puede tener en el análisis de ella. Dependiendo de qué palabra pone el altavoz la tensión, esta oración podría tener varios significados distintos: " El I nunca dijo que ella robó mi money" - Algún otro lo dijo, pero el I no hizo.
" I el nunca dijo que ella robó mi money" - No lo dije simplemente nunca.
" Nunca el I dijo que ella robó mi money" - Puede ser que lo haya implicado de cierta manera, pero I lo dijo nunca explícitamente.
" El nunca dicho I ella robó mi money" - Dije alguien lo tomó, yo no dijo que era ella.
" I nunca dicho ella robó mi money" - I acaba de decir que ella lo pidió prestado probablemente.
" I nunca dicho ella robó el mi money" de ; - Dije que ella robó a algún otro dinero.
" I nunca dicho ella robó mi " del dinero ; - Acusé la de robar mi corazón, pero no mi dinero.
; Segmentación del texto: Algunas idiomas escritas tienen gusto chino, el japonés y el tailandés no tienen límites single-word tampoco, así que cualquier significativo del texto que analiza requiere generalmente la identificación de los límites de palabra, que es a menudo una tarea no trivial.
; Desambiguación del sentido de palabra: Muchas palabras tienen más de un significado ; tenemos que seleccionar el significado que tiene la mayoría del sentido en contexto.
; Ambigüedad sintáctica : La gramática para las idiomas naturales es el ambiguo, es decir hay a menudo posible múltiple analiza los árboles para una oración dada. Elegir el más apropiado requiere generalmente el semántico y la información del contexto. Los componentes específicos del problema de la ambigüedad sintáctica incluyen la desambiguación del límite de la oración.
; Entrada imperfecta o irregular: Acentos extranjeros o regionales e impedimientos vocales en discurso; el mecanografiar o errores gramaticales, errores del OCR en textos.
; Actos de discurso y planes: Las oraciones no significan a menudo lo que dicen literalmente; por ejemplo una buena respuesta al " Puede usted pasar el salt" es pasar la sal; en la mayoría del " de los contextos; Yes" no es una buena respuesta, aunque " No" es mejores y el " Tengo miedo que no puedo ver el it" es mejor todavía. Y para el " de la pregunta; ¿Cuántos estudiantes fallaron la clase el año pasado? ", " La clase no fue ofrecida el año pasado el " es una mejor respuesta que " None".
considera también:
estadístico del proceso de lenguaje natural estadístico estocástico de las aplicaciones de proceso de lenguaje natural, de probabilidad y métodos estadísticos para resolver algunas de las dificultades discutidas arriba, especialmente los que se presentan porque oraciones más largas son alto ambiguas cuando están procesadas con gramáticas realistas, rindiendo millares o millones de análisis posibles. Los métodos para la desambiguación implican a menudo el uso de las recopilaciones y de los modelos de Markov la tecnología para el NLP estadístico viene principalmente del aprendizaje de máquina y de la explotación minera de datos, que son campos de la inteligencia artificial eso implica el aprender de datos.
contra la evaluación extrínseca
La evaluación intrínseca considera un sistema aislado del NLP y caracteriza su funcionamiento principalmente con respecto a un resultado del patrón oro del, predefinido por los evaluadores. La evaluación extrínseca, también llamada la evaluación del funcionando considera el sistema del NLP en un ajuste más complejo, como un sistema o porción encajado una función exacta para un usuario humano. El funcionamiento extrínseco del sistema entonces se caracteriza en términos de su utilidad con respecto a la tarea total del sistema complejo o del usuario humano.
Caja negra del
contra la evaluación de la vidrio-caja
La evaluación de la caja negra requiere uno funcionar con un sistema del NLP en un conjunto de datos dado y medir un número de parámetros relacionados con la calidad del proceso (velocidad, confiabilidad, consumición del recurso) y, más importante, con la calidad del resultado (e. la exactitud de la anotación de los datos o de la fidelidad de una traducción). la evaluación de la Vidrio-caja mira el diseño del sistema, de los algoritmos se ejecutan que, de los recursos lingüísticos que utiliza (e. tamaño del vocabulario), de etc. Dado la complejidad de los problemas del NLP, es a menudo difícil predecir funcionamiento solamente en base de la evaluación de la vidrio-caja, pero este tipo de evaluación es más informativo con respecto a progresos del análisis o del futuro de error de un sistema.
automático contra la evaluación manual
En muchos casos, los procedimientos automáticos pueden ser definidos para evaluar un sistema del NLP comparando su salida con el patrón oro (o ser deseados) uno. Aunque el coste de producir el patrón oro pueda ser absolutamente alto, la evaluación automática se puede repetir tan a menudo como necesitada sin costes mucho adicionales (en los mismos datos de entrada). Sin embargo, para muchos problemas del NLP, la definición de un patrón oro es una tarea compleja, y puede probar imposible cuando el acuerdo del inter-anotador es escaso. La evaluación manual es realizada por los jueces humanos, que se dan instrucciones para estimar la calidad de un sistema, o lo más a menudo posible de una muestra de su salida, basada en un número de criterios. Aunque, los gracias a su capacidad lingüística, los jueces humanos se puedan considerar como la referencia por un número de tareas del tratamiento de lenguas, hay también considerable variación a través de sus grados. Esta es la razón por la cual la evaluación automática se refiere a veces como evaluación objetiva del, mientras que la clase humana aparece ser más subjetivo.
.
| Random links: | Montezuma, Kansas | Taylorsville, Kentucky | Dominator | Niño de flor | Dresher, Pennsylvania |