El WordNet es un léxico semántico para la lengua inglesa . Agrupa palabras inglesas en sistemas de sinónimos llamados Synsets del, proporciona brevemente, las definiciones generales, y los expedientes que las relaciones semánticas del vario entre estos el sinónimo fijan. El propósito es doble: para producir una combinación del diccionario y de tesoro que es más intuitivo usable, y apoyar usos del análisis automático del texto y de la inteligencia artificial . La base de datos y las herramientas de software se han lanzado debajo de una licencia del estilo del DEB y se pueden transferir y utilizar libremente. La base de datos puede también ser el hojeado en línea.

WordNet fue creado y se está manteniendo en el laboratorio de ciencia cognoscitiva de la Universidad de Princeton bajo dirección George A. Miller del profesor de la psicología . El desarrollo comenzó en el 1985 . Durante los años, el proyecto recibió cerca de $3 millones de financiación, principalmente de las agencias de estatal interesadas en la traducción automática . Estos últimos años, el Dr. Christiane Fellbaum ha supervisado el desarrollo de WordNet.

Contenido de la base de datos

El en fecha 2006, la base de datos contiene cerca de 150.000 palabras organizadas adentro sobre 115.000 que el Synsets para un total de 207.000 palabra-detecta pares; en forma comprimida de, es cerca de 12 megabytes de tamaño.

WordNet distingue entre los sustantivos, los verbos, los adjetivos y los adverbios porque siguen diversas reglas gramaticales. Cada synset contiene un grupo de palabras o de las colocaciones sinónimas (una colocación del es una secuencia de palabras que vayan juntas a formar un significado específico, tal como " " del carpool ;); diversos sentidos de una palabra están en diversos synsets. El significado de los synsets se aclara más a fondo con el cortocircuito que define los lustres del (las definiciones y/o las oraciones de ejemplo). Un synset típico del ejemplo con lustre es:

l bueno, derecho, maduro -- (el más conveniente o derecho para un propósito particular; " un buen rato de plantar el tomatoes" ; " el momento adecuado al act" ; " el tiempo es maduro para el gran changes" sociológico;)

La mayoría de los synsets están conectados con otros synsets vía un número de relaciones semánticas. Estas relaciones varían basado en el tipo de palabra, e incluyen:
Sustantivos ** Hypernyms del ': El de Y es un hypernym del de X si cada de X es de a (clase de) Y Hyponyms de ': El Y es un hyponym del X si cada Y es el X de a (clase de)
términos coordinados del : El Y es un término coordinado del X si el X y el Y comparten un hypernym
holonym : El Y es un holonym del X si el X es una parte del Y
meronym : El Y es un meronym del X si el Y es una parte del X
Verbos ** hypernym del : el Y del verbo es un hypernym del X del verbo si el X de la actividad es el Y (recorrido de a (clase de) del al movimiento del ) troponym del : el Y del verbo es un troponym del X del verbo si el Y de la actividad está haciendo el X de cierta manera (el balbucea a la charla del )
entailment del : el Y del verbo es exigido por el X si haciendo el X usted debe hacer el Y (el dormir del por el que roncan)
términos coordinados del : esos verbos que comparten un hypernym común
Adjetivos ** sustantivos relacionados del participio del del verbo
Adverbios ** adjetivos de la raíz del

Mientras que las relaciones semánticas se aplican a todos los miembros de un synset porque comparten un significado pero son todas mutuamente los sinónimos que las palabras de se puede también conectar con otras palabras con relaciones léxicas, incluyendo los antónimos (contrarios de uno a) y derivationally relacionado, también.

WordNet también proporciona la cuenta de la polisemia del de una palabra: el número de synsets que contienen la palabra. Si una palabra participa en varios synsets (es decir tiene varios sentidos) entonces que algunos sentidos son típicamente mucho más común que otros. WordNet cuantifica esto por la cuenta de la frecuencia del : en cuál tienen varios textos de la muestra todas las palabras marcadas con etiqueta semántico con el synset correspondiente, y entonces una cuenta proporcionada indicando cuantas veces una palabra aparece en un sentido específico.

Las funciones de la morfología del software distribuido con el intento de la base de datos para deducir el lema o la forma de la raíz de una palabra de la entrada del usuario; solamente la forma de la raíz se almacena en la base de datos a menos que tenga formas descendidas irregulares.

Estructura del conocimiento

Los sustantivos y los verbos se organizan en las jerarquías, definidas por el hypernym o el ES relaciones de A . Por ejemplo, el primer sentido del perro del de la palabra tendría la jerarquía siguiente del hypernym; las palabras en el mismo nivel son sinónimos de uno a: un cierto sentido del perro del es sinónimo con algunos otros sentidos del perro doméstico del y de los familiaris del Canis del, y así sucesivamente. Cada sistema de los sinónimos (synset del ), tiene un índice único y comparte sus características, tales como una definición del lustre (o diccionario).

perro, perro doméstico, familiaris del Canis colmillo del =>, cánido carnívoro del => => placentario, mamífero placentario, mamífero eutherian, eutherian mamífero del => vertebrado del =>, craniate chordate del => animal del =>, el ser animado, bestia, bruto, criatura, fauna =>…

En el nivel superior, estas jerarquías se organizan en los tipos de la base, 25 grupos primitivos para los sustantivos, y 15 para los verbos. Estos grupos forman los archivos lexicográficos del en un nivel del mantenimiento. Estos grupos primitivos están conectados con un nodo de raíz abstracto que, han sido asumidos por algún tiempo por los varios usos que utilizan WordNet.

En el caso de adjetivos, la organización es diferente. Dos sentidos “principales” opuestos trabajan como postes binarios, mientras que los sinónimos “basados en los satélites” conectan con cada uno de las cabezas vía relaciones de la sinonimia. Así, las jerarquías, y el concepto implicado con los archivos lexicográficos, no aplican aquí la misma manera que hacen para los sustantivos y los verbos.

La red de sustantivos es lejos más profunda que la de las otras partes del discurso. Los verbos tienen una estructura más espesa del lejano, y los adjetivos se organizan en muchos racimos distintos. Los adverbios se definen en términos de adjetivos que se derivan de, y heredan así su estructura de el de los adjetivos.

Justificación psicologica

La meta de WordNet era desarrollar un sistema que sería constante con el conocimiento adquirido durante los años sobre cómo los seres humanos procesan lengua. La afasia anómica, por ejemplo, crea una condición que parezca estorbar selectivamente la capacidad de los individuos de nombrar objetos; esto toma la decisión para repartir las partes del discurso en jerarquías distintas más de una decisión de principios que arbitraria.

En el caso del hyponymy, los experimentos psicologicos revelaron que los individuos pueden tener acceso a características de sustantivos más rápidamente dependiendo de cuando una característica se convierte en una característica de definición. Es decir, los individuos pueden verificar rápidamente que los canarios del puedan cantar porque un canario es un pájaro cantante (solamente un nivel de hyponymy), pero requieran levemente más hora de verificar que los canarios del puedan volar (dos niveles de hyponymy) y aún más hora de verificar canarios del tiene piel (niveles múltiples de hyponymy). Esto sugiere que almacenemos también la información semántica en una manera que esté como WordNet, porque conservamos solamente la información más específica necesaria para distinguir un concepto particular de conceptos similares.

WordNet como ontología

Las relaciones de hypernym/hyponym entre los synsets del sustantivo se pueden interpretar como relaciones de la especialización entre las categorías conceptuales. Es decir WordNet se puede interpretar y utilizar como ontología léxica en el sentido de informática . Sin embargo, tal ontología debe ser corregida normalmente antes de ser utilizado puesto que contiene centenares de inconsistencias semánticas básicas tales como (i) la existencia de las especializaciones comunes para las categorías exclusivas y (ii) redundancias en la jerarquía de la especialización. Además, WordNet de transformación en una ontología léxica usable para la representación de conocimiento debe normalmente también implicar (i)  distinción de las relaciones de la especialización en relaciones del subtypeOf y del instanceOf, y (ii)  asociar identificadores únicos intuitivos a cada categoría. Aunque tales correcciones y transformaciones se hayan realizado y se hayan documentado como parte de la integración de WordNet  1.7 en la base de conocimiento cooperativo actualizable de WebKB-2, la mayoría de los proyectos que demandan reutilizar WordNet para los usos basados en el conocimiento (típicamente, de recuperación de la información conocimiento-orientada) lo reutilizan simplemente como tal.

Un ejemplo prominente de WordNet que usa, pues es, pues una ontología es determinar la semejanza entre las palabras. Se han propuesto los varios algoritmos, y éstos incluyen en vista de la distancia entre las categorías conceptuales de estas palabras, así como la consideración de la estructura jerárquica de la ontología de WordNet. Un número de estos algoritmos WordNet-basados de la semejanza de la palabra se ejecutan en un Perl WordNet llamado paquete:: Semejanza.

Ver la sección relacionada de los proyectos para más.

Limitaciones

Desemejante de otros diccionarios, WordNet no incluye la información sobre la etimología, la pronunciación y las formas de los verbos irregulares y no contiene solamente la información limitada sobre uso.

La información lexicográfica y semántica real se mantiene en los archivos del lexicógrafo del, que entonces son procesados por una herramienta llamada la rutina del para presentar la base de datos distribuida. La rutina y los archivos del lexicógrafo están libremente disponibles en una distribución separada, pero la modificación y mantener de la base de datos requiere maestría.

Aunque WordNet contiene una suficiente amplia gama de palabras comunes, no cubre vocabulario especial del dominio. Puesto que se diseña sobre todo para actuar como base de datos subyacente para diversos usos, esos usos no se pueden utilizar en los dominios específicos que no son cubiertos por WordNet.

Interfaces reconocidos por Princeton

Princeton mantiene una lista de proyectos relacionados que incluya acoplamientos a algunos de los interfaces de programación ampliamente utilizados de uso disponibles para tener acceso a WordNet usar varios lenguajes de programación y ambientes.

Otros interfaces

El proyecto de la quijada proporciona un Java API a los datos de WordNet 2. El código fuente se lanza debajo de la licencia del MIT.

El juego de herramientas de lenguaje natural proporciona un pitón API al WordNet 3.

Lengua:: Wordnet proporciona un interfaz del Perl a WordNet.

Diccionario:: CozyEnglish ejecutó un interfaz de WordNet 3.0 ese los ingtegrates con el WordPress . Los dueños del blog y del Web site pueden encajar este API vía un sistema del código del HTML.

El tesoro visual es un uso comercial suscripción-basado que presenta los datos de WordNet a través de un interfaz innovador y de uso fácil.

Proyectos relacionados

Un proyecto en la universidad de Brown comenzó por el Jeff Stibel, James A. Anderson, Steve Reiss y otros el laboratorio aplicado llamado de la cognición crearon un desambiguador usar WordNet en 1998. El proyecto morphed más adelante en una compañía llamada el Simpli, que ahora es poseído por el ValueClick . George Miller ensambló a compañía como miembro del comité consultivo. Simpli construyó un Search Engine del Internet que utilizó una base de conocimiento basada principalmente en WordNet para quitar ambigüedades y para ampliar de palabras claves y de synsets para ayudar a recuperar la información en línea. WordNet fue ampliado sobre para agregar dimensionalidad creciente, tal como intentionality (usado para x), la gente ( Albert Einstein ) y la terminología familiar más relevante a la búsqueda del Internet (es decir, el blogging, comercio electrónico). Los algoritmos de la red de los nervios buscaron el WordNet ampliado para que los términos relacionados quiten ambigüedades de las palabras claves de la búsqueda (Java, en el sentido del café) y amplíen el synset de la búsqueda (café, bebida, Joe) para mejorar resultados del Search Engine. ¡Antes de que adquirieran a la compañía, realizó búsquedas a través de los motores de la búsqueda tales como Google, Yahoo !, Ask.

El EuroWordNet del proyecto ha producido WordNets para varias idiomas europeas y las ha ligado juntas; éstos no están libremente disponibles sin embargo. El proyecto global de Wordnet intenta coordinar la producción y el lazo de los wordnets para todas las idiomas. La prensa de la Universidad de Oxford, los editores del diccionario del inglés de Oxford ha expresado planes para producir su propio WordNet en línea.

El WordNet extendido es un proyecto en la Universidad de Texas en Dallas que apunte mejorar WordNet semántico analizando los lustres, así haciendo la información contenida en estas definiciones disponibles para los sistemas de proceso automáticos del conocimiento. Está también libremente disponible debajo de una licencia similar a WordNet.

El proyecto GCIDE produce un diccionario combinando el diccionario del public domain del de un Webster 1913 con un poco de definiciones y material de WordNet proporcionados por los voluntarios. Se lanza bajo GLP de la licencia de Copyleft .

WordNet también se reutiliza comúnmente vía mappings entre las categorías de WordNet y las categorías de otras ontologías. Lo más a menudo posible, solamente las categorías a nivel superior de WordNet se trazan. Sin embargo, los autores de la ontología del SUMO han producido un trazado entre todos los synsets de WordNet, (sustantivos incluyendo, los verbos, los adjetivos y los adverbios), y las clases del SUMO la adición más reciente de los mappings proporcionan acoplamientos a todos los términos más específicos en la ontología de nivel medio (MILO), que amplía SUMO. La ontología superior de OpenCyc también se liga a algo de WordNet.

En la mayoría de los trabajos que demandan haber integrado WordNet en otras ontologías, el contenido de WordNet no se ha corregido simplemente cuando se han encontrado los problemas semánticos; en lugar, WordNet se ha utilizado como fuente de la inspiración pero se ha reinterpretado pesadamente y se ha puesto al día siempre que sea conveniente. Éste era el caso cuando, por ejemplo, la ontología a nivel superior de WordNet fue reestructurada según el acercamiento basado de OntoClean o cuando WordNet fue utilizado como fuente primaria para construir las clases más bajas de la ontología de SENSUS.

El FrameNet es un proyecto similar a WordNet. Consiste en un léxico que se base en la anotación sobre 100.000 oraciones con sus características semánticas. la unidad en foco es el marco léxico del, un tipo de estado o acontecimiento junto con las características asociadas a ella.

Un proyecto independiente titulado wordNet con una minúscula inicial w es un proyecto en curso a las palabras y a las frases de los acoplamientos vía una correa eslabonada de Web de encargo .

El marco léxico (LMF) del margen de beneficio es obras en fase de creación dentro ISO/TC37 para definir un marco estandardizado común para la construcción de léxicos, incluyendo WordNet.

  • Zenithic
  • WordNet
    Random links:Beloit, Wisconsin | Cordova, Carolina del Sur | George W. DeLong | Liberalismo en Irán | Arboreto de Ladd

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">