El proceso de lenguaje natural (NLP del ) es un subcampo de la inteligencia artificial y de la lingu5ística computacional . Estudia los problemas de la generación y de la comprensión automatizadas de las idiomas humanas naturales .

los sistemas de la Natural-lengua-generación convierten la información de bases de datos de computadora en lengua humana normal-que suena. los sistemas de Natural-lengua-comprensión convierten muestras de lengua humana en representaciones más formales que sean más fáciles para que los programas de la computadora manipulen.

Tareas y limitaciones

En teoría, el proceso de lenguaje natural es un método muy atractivo de la interacción persona-ordenador . Sistemas tempranos tales como SHRDLU, trabajando en " restricto; El bloquea el quot de los mundos ; con los vocabularios restrictos, trabajados extremadamente bien, investigadores destacados al optimismo excesivo, que pronto fue perdido cuando los sistemas fueron extendidos a situaciones más realistas con la ambigüedad del mundo real y la complejidad .

La comprensión de lenguaje natural se refiere a veces como problema AI-completo, porque el reconocimiento de lenguaje natural parece requerir conocimiento extenso sobre el mundo exterior y la capacidad de manipularla. La definición del " que entiende el " de ; es uno de los problemas graves en el proceso de lenguaje natural.

Problemas concretos

Algunos ejemplos de los problemas hechos frente por los sistemas de natural-lengua-comprensión:

el de las oraciones dimos a monos los plátanos porque eran hambrientos y el nosotros dio a monos los plátanos porque eran demasiado maduros tienen la misma estructura gramatical superficial. Sin embargo, el del pronombre refieren a los monos del en una oración y los plátanos del en la otra, y es imposible decir cuál sin un conocimiento de las características de monos y de plátanos.
Una cadena de palabras se puede interpretar en maneras diferentes. Por ejemplo, el tiempo del de la secuencia vuela como una flecha se puede interpretar de una variedad de maneras: El símil común : los movimientos del tiempo apenas como una flecha hacen rápidamente;
medir la velocidad de los insectos de vuelo como usted mediría el de una flecha (así interpretado como imperativo) - es decir el tiempo del (usted debe) vuela como usted (tiempo) una flecha. ;
medir la velocidad de los insectos de vuelo como una flecha - es decir el tiempo del vuela de la misma manera que una flecha (medir el tiempo de ellos). ;
medir la velocidad de los insectos de vuelo que son como las flechas - es decir tiempo del esas moscas que sean como las flechas ;
todo el tipo de insecto de vuelo, " tiempo-vuela, " goza colectivamente de una sola flecha (comparar las moscas del vinagre del como un plátano );
cada uno de un tipo de insecto de vuelo, " tiempo-vuela, " goza individualmente de una diversa flecha (la comparación similar se aplica);
el compartimiento, tiempo, viaja a través del aire en flecha-como manera.

El inglés es particularmente desafiador a este respecto porque tiene poca morfología inflexional a distinguir entre las partes del discurso .

inglés y varias otras idiomas no especifican qué palabra se aplica un adjetivo. Por ejemplo, en el " de la secuencia; school" de las niñas bonitas;. ¿La escuela mira poco?
¿Las muchachas miran poco?
¿Las muchachas miran bastante?
¿La escuela mira bastante?

resolveremos a menudo ambigüedades en lengua a propósito que ponemos la tensión en palabras. El " de la oración; I nunca dicho ella robó mi money" demuestra la tensión de la importancia puede jugar en una oración, y así la dificultad inherente que un procesador de lenguaje natural puede tener en el análisis de ella. Dependiendo de qué palabra pone el altavoz la tensión, esta oración podría tener varios significados distintos: " El I nunca dijo que ella robó mi money" - Algún otro lo dijo, pero el I no hizo.
" I el nunca dijo que ella robó mi money" - No lo dije simplemente nunca.
" Nunca el I dijo que ella robó mi money" - Puede ser que lo haya implicado de cierta manera, pero I lo dijo nunca explícitamente.
" El nunca dicho I ella robó mi money" - Dije alguien lo tomó, yo no dijo que era ella.
" I nunca dicho ella robó mi money" - I acaba de decir que ella lo pidió prestado probablemente.
" I nunca dicho ella robó el mi money" de ; - Dije que ella robó a algún otro dinero.
" I nunca dicho ella robó mi " del dinero ; - Acusé la de robar mi corazón, pero no mi dinero.

Subproblemas

; Segmentación del discurso: En la mayoría de las idiomas habladas, los sonidos que representan letras sucesivas mezclan en uno a, así que la conversión de la señal analógica a los carácteres discretos puede ser un proceso muy difícil. También, en el discurso natural hay apenas cualquier pausa entre las palabras sucesivas; la localización de esos límites debe considerar generalmente el los apremios semánticos gramaticales de y, así como el contexto .

; Segmentación del texto: Algunas idiomas escritas tienen gusto chino, el japonés y el tailandés no tienen límites single-word tampoco, así que cualquier significativo del texto que analiza requiere generalmente la identificación de los límites de palabra, que es a menudo una tarea no trivial.

; Desambiguación del sentido de palabra: Muchas palabras tienen más de un significado ; tenemos que seleccionar el significado que tiene la mayoría del sentido en contexto.

; Ambigüedad sintáctica : La gramática para las idiomas naturales es el ambiguo, es decir hay a menudo posible múltiple analiza los árboles para una oración dada. Elegir el más apropiado requiere generalmente el semántico y la información del contexto. Los componentes específicos del problema de la ambigüedad sintáctica incluyen la desambiguación del límite de la oración.

; Entrada imperfecta o irregular: Acentos extranjeros o regionales e impedimientos vocales en discurso; el mecanografiar o errores gramaticales, errores del OCR en textos.

; Actos de discurso y planes: Las oraciones no significan a menudo lo que dicen literalmente; por ejemplo una buena respuesta al " Puede usted pasar el salt" es pasar la sal; en la mayoría del " de los contextos; Yes" no es una buena respuesta, aunque " No" es mejores y el " Tengo miedo que no puedo ver el it" es mejor todavía. Y para el " de la pregunta; ¿Cuántos estudiantes fallaron la clase el año pasado? ", " La clase no fue ofrecida el año pasado el " es una mejor respuesta que " None".

NLP estadístico

considera también:

estadístico del proceso de lenguaje natural estadístico estocástico de las aplicaciones de proceso de lenguaje natural, de probabilidad y métodos estadísticos para resolver algunas de las dificultades discutidas arriba, especialmente los que se presentan porque oraciones más largas son alto ambiguas cuando están procesadas con gramáticas realistas, rindiendo millares o millones de análisis posibles. Los métodos para la desambiguación implican a menudo el uso de las recopilaciones y de los modelos de Markov la tecnología para el NLP estadístico viene principalmente del aprendizaje de máquina y de la explotación minera de datos, que son campos de la inteligencia artificial eso implica el aprender de datos.

Tareas importantes en NLP

Recapitulación automática
Ayuda de la lectura del idioma extranjero
Ayuda de la escritura del idioma extranjero
Extracción de información
de recuperación de la información
Traducción automática
Reconocimiento nombrado de la entidad
Generación de lenguaje natural
Reconocimiento de caracteres ópticos
Respuesta a preguntas
Reconocimiento de discurso
Sistema de diálogo hablado
Simplificación del texto
Texto al discurso
Texto-impermeabilización

Evaluación del proceso de lenguaje natural

Objetivos

La meta de la evaluación del NLP es medir uno o más calidades del de un algoritmo o un sistema, para determinar si (o en qué medida) el sistema contesta a las metas de sus diseñadores, o las necesidades de sus usuarios. La investigación en la evaluación del NLP ha recibido la considerable atención, porque la definición de los criterios apropiados de la evaluación es unidireccional especificar exacto un problema del NLP, yendo así más allá de la imprecisión de las tareas definidas solamente como la comprensión de idiomas del o generación de lengua del . Un sistema exacto de criterios de la evaluación, que incluye principalmente datos de la evaluación y métricas de evaluación, permite a varios equipos comparar sus soluciones a un problema dado del NLP.

Historia corta de la evaluación en NLP

La primera campaña de la evaluación en los textos escritos parece ser una campaña dedicada al mensaje que entiende en 1987 (plataforma 1998). Entonces, el proyecto de Parseval/GEIG comparó las gramáticas de la frase-estructura (negro 1991). Una serie de campañas dentro del proyecto del Tipster fue observada en tareas como la recapitulación, la traducción y la búsqueda (Hirshman 1998). En 1994, en Alemania, el Morpholympics comparó taggers alemanes. Entonces, las campañas de Senseval y de Romanseval fueron conducidas con los objetivos de la desambiguación semántica. En 1996, la campaña de la chispa comparó programas de análisis sintácticos en cuatro diversas idiomas (inglés, francés, alemán e italiano). En Francia, el proyecto de la tolerancia comparó un sistema de 21 taggers para el francés en 1997 (Adda 1999). En 2004, durante el Technolangue/proyecto fácil de, 13 programas de análisis para el francés fueron comparados. La evaluación en grande de los programas de análisis de la dependencia fue realizada en el contexto de las tareas compartidas CoNLL en 2006 y 2007. Entonces, dentro del proyecto del ANR-Paso (finales de 2007), 10 programas de análisis para el francés fueron comparados., partidos 1999 de d'évaluation de l'assignation des de la TOLERANCIA de Rajman M.L'action du discours vierte a le français., procedimiento 1991 de Strzalkowski T.A para cuantitativo comparar la cobertura sintáctica de gramáticas inglesas. Discurso de DARPA y Workshop
de lenguaje natural Evaluación 1998 de la comprensión de idiomas de Hirshman L.: lecciones doctas de MUC y de ATIS. LREC Granada
Plataforma D. 1998 el papel del NIST en pruebas de prueba patrón del reconocimiento de discurso automático. LREC Granada

Diversos tipos de evaluación

Dependiendo de los procedimientos de la evaluación, un número de distinciones se hacen tradicionalmente en la evaluación del NLP.
Lo intrínseco del

contra la evaluación extrínseca

La evaluación intrínseca considera un sistema aislado del NLP y caracteriza su funcionamiento principalmente con respecto a un resultado del patrón oro del, predefinido por los evaluadores. La evaluación extrínseca, también llamada la evaluación del funcionando considera el sistema del NLP en un ajuste más complejo, como un sistema o porción encajado una función exacta para un usuario humano. El funcionamiento extrínseco del sistema entonces se caracteriza en términos de su utilidad con respecto a la tarea total del sistema complejo o del usuario humano.
Caja negra del

contra la evaluación de la vidrio-caja

La evaluación de la caja negra requiere uno funcionar con un sistema del NLP en un conjunto de datos dado y medir un número de parámetros relacionados con la calidad del proceso (velocidad, confiabilidad, consumición del recurso) y, más importante, con la calidad del resultado (e. la exactitud de la anotación de los datos o de la fidelidad de una traducción). la evaluación de la Vidrio-caja mira el diseño del sistema, de los algoritmos se ejecutan que, de los recursos lingüísticos que utiliza (e. tamaño del vocabulario), de etc. Dado la complejidad de los problemas del NLP, es a menudo difícil predecir funcionamiento solamente en base de la evaluación de la vidrio-caja, pero este tipo de evaluación es más informativo con respecto a progresos del análisis o del futuro de error de un sistema.

automático contra la evaluación manual

En muchos casos, los procedimientos automáticos pueden ser definidos para evaluar un sistema del NLP comparando su salida con el patrón oro (o ser deseados) uno. Aunque el coste de producir el patrón oro pueda ser absolutamente alto, la evaluación automática se puede repetir tan a menudo como necesitada sin costes mucho adicionales (en los mismos datos de entrada). Sin embargo, para muchos problemas del NLP, la definición de un patrón oro es una tarea compleja, y puede probar imposible cuando el acuerdo del inter-anotador es escaso. La evaluación manual es realizada por los jueces humanos, que se dan instrucciones para estimar la calidad de un sistema, o lo más a menudo posible de una muestra de su salida, basada en un número de criterios. Aunque, los gracias a su capacidad lingüística, los jueces humanos se puedan considerar como la referencia por un número de tareas del tratamiento de lenguas, hay también considerable variación a través de sus grados. Esta es la razón por la cual la evaluación automática se refiere a veces como evaluación objetiva del, mientras que la clase humana aparece ser más subjetivo.

Tareas compartidas (campañas)

BioCreative
Conferencia de comprensión del mensaje
Technolangue/ fácil
Conferencia de la recuperación del texto

Estandardización en NLP

Un subcomité de la ISO está trabajando para facilitar interoperabilidad entre los recursos léxicos y los programas del NLP. El subcomité es parte ISO/TC37 y se llama ISO/TC37/SC4. Algunos estándares de ISO se publican ya pero la mayor parte de están bajo construcción, principalmente en la representación del léxico (véase el LMF ), la anotación y el registro de la categoría de datos.

Organizaciones y conferencias

Asociaciones

Asociación para la lingu5ística computacional
Asociación para la traducción automática en las Américas
AFNLP - federación asiática de las asociaciones del proceso de lenguaje natural

Conferencias

Recursos y evaluación de la lengua

Herramientas de software

Arquitectura general para la ingeniería del texto
Juego de herramientas de lenguaje natural
Sistema experto S.
OpenNLP

Ver también

AskWiki
Explotación minera biomédica del texto
Chatterbot
Lingu5ística computacional
de repaso de ayuda de computadora
de lenguaje natural controlado
Tecnología de lengua humana
El informa a lenguaje de programación de 7
de recuperación de la información
Indexación de direcciones semántica latente
Marco léxico del margen de beneficio
Lojban / Loglan
Name resolution
Búsqueda de Transderivational
Traductor universal (ficticio)

Puestas en práctica

LinguaStream : una plataforma genérica para la experimentación del proceso de lenguaje natural
MARF : marco para la voz y el proceso estadístico del NLP

.

  • Zenithic
  • Indianapolis News
    Random links:Montezuma, Kansas | Taylorsville, Kentucky | Dominator | Niño de flor | Dresher, Pennsylvania

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">