El (IR) de recuperación de la información es la ciencia de la búsqueda para la información en documentos, de la búsqueda para los documentos ellos mismos, de la búsqueda para los meta datos que describen documentos, o de la búsqueda dentro de las bases de datos si las bases de datos independientes emparentadas o las bases de datos conectadas de Hypertextually tales como el World Wide Web . Hay una confusión común, sin embargo, entre la recuperación de datos, la investigación documental, la recuperación de recuperación de la información, y del texto, y cada uno de éstos tiene sus propios cuerpos de la literatura, de la teoría, de la praxis y de las tecnologías. El IR es el interdisciplinario, basado en el de informática, las matemáticas, la ciencia de biblioteca, las ciencias de la información, la psicología cognoscitiva, la lingüística, las estadísticas y la física .

Los sistemas automatizados del IR se utilizan para reducir la sobrecarga de información . Muchas universidades y bibliotecas públicas utilizan sistemas del IR para proporcionar el acceso a los libros, a los diarios, y a otros documentos. Los motores de la búsqueda del Web tal como Google, búsqueda de Yahoo o búsqueda viva (antes búsqueda MSN) son los usos más visibles del IR.

Historia

La idea de usar las computadoras para buscar para los fragmentos de información relevantes fue popularizada en un del artículo como podemos pensar por el Vannevar Bush en 1945. Las primeras puestas en práctica de sistemas de recuperación de la información fueron introducidas en los años 50 y los años 60. Antes de 1990 varias diversas técnicas había sido demostrado para realizarse bien en las pequeñas recopilaciones de texto (vario mil documentos). con énfasis sobre sistemas de punto de la visualización y de la multi-referencia.
Finales de los 90: La puesta en práctica del Search Engine del Web de muchas características encontró antes solamente en sistemas experimentales del IR

Descripción

Un proceso de recuperación de la información comienza cuando un usuario incorpora una pregunta en el sistema. Las preguntas son declaraciones formales de las necesidades de información, por ejemplo secuencias de búsqueda en motores de la búsqueda de la tela. En de recuperación de la información una pregunta no identifica únicamente un solo objeto en la colección. En lugar, varios objetos pueden emparejar la pregunta, quizás con diversos grados de la importancia .

Un objeto es una entidad que mantiene o almacena la información una base de datos. Las preguntas de usuario se emparejan a los objetos almacenados en la base de datos. Dependiendo del uso los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes o vídeos. Los documentos ellos mismos no son mantenidos ni se almacenan a menudo directo el sistema del IR, sino en lugar de otro son representados en el sistema por los sustitutos del documento.

La mayoría de los sistemas del IR computan una cuenta numérica en como de bien cada objeto en el fósforo de la base de datos la pregunta, y alinean los objetos según este valor. Los objetos superiores de la graduación entonces se demuestran al usuario. El proceso puede entonces ser iterado si el usuario desea refinar la pregunta.

Medidas de funcionamiento

considera también:

la precisión y de memoria

Varias diversas medidas para evaluar el funcionamiento de sistemas de recuperación de la información se han propuesto. Las medidas requieren una colección de documentos y de una pregunta. Todas las acciones comunes descritas aquí asumen una noción de la verdad de tierra de la importancia: cada documento se sabe para ser relevante o irrelevante a una pregunta particular. En la práctica las preguntas pueden ser Enfermo-presentados y puede haber diversas cortinas de la importancia.

Precisión

La precisión es la fracción de los documentos recuperados que son el relevante a la necesidad de información de usuario. del

l \ mbox {precisión} = \

del frac Memoria

Memoria es la fracción de los documentos que son relevantes a la pregunta que se recupera con éxito. del

l \ mbox {memoria} = \

del frac Polvillo radiactivo

La proporción de documentos irrelevantes se recuperan que, fuera de todos los documentos irrelevantes disponibles: del

l \ mbox {polvillo radiactivo} = \

del frac F-medida

El medio armónico cargado de la precisión y memoria, la F-medida tradicional o F-cuenta equilibrada es:

F = 2 \ cdot (\ mathrm {} \)/(del cdot de la precisión \ del mathrm {memoria} \ + \ mathrm {memoria} del mathrm {precisión}). \,

Esto también se sabe mientras que la medida de F_1, porque memoria y la precisión se cargan uniformemente.

La fórmula general para el α verdadero no negativo es:

F_ \ alfa = (1 + \ alfa) \ cdot (\ mathrm {} \)/(\ + \ mathrm {memoria} de la alfa del cdot de la precisión \ del mathrm {memoria} \ del cdot \ del mathrm {precisión}). \,

Dos otras medidas de uso general de F son la medida del F_ {2} , que los pesos recuerdan dos veces tanto como la precisión, y la medida del F_ {0.5} , que carga la precisión dos veces tanto como memoria.

Precisión media

La precisión y memoria son en general lista basada de documentos devueltos por el sistema. La precisión media acentúa devolver documentos más relevantes anterior. Es promedio de precisiones computadas después de truncar la lista después de cada uno de los documentos relevantes alternadamente: = \ frac {\ ^N del sum_ {r=1} (P del \ del operatorname del

l {avenida} P (r) \ épocas \ mathrm {rel} (r))}¡{\} \! del mbox {número de documentos relevantes}¡,

donde está la fila el r, el N que el número recuperó, el rel del () una función binaria en la importancia de una fila dada, y precisión del P () en una fila dada del atajo.

Si hay varias preguntas con las importancias sabidas disponibles, la precisión media mala del es el valor medio de las precisiones medias computadas para cada uno de las preguntas por separado.

Tipos modelo

Para que el de recuperación de la información sea eficiente, los documentos se transforman típicamente en una representación conveniente. Hay varias representaciones. El cuadro a la derecha ilustra la relación de algunos modelos comunes. En el cuadro, los modelos se categorizan según dos dimensiones: la base matemática y las características del modelo.

Primera dimensión: base matemática

los modelos Fijar-teóricos del representan documentos como sistemas de palabras o de frases. Las semejanzas se derivan generalmente de operaciones fijar-teóricas en esos sistemas. Los modelos comunes son: Modelo boleano estándar
Modelo boleano extendido
Recuperación borrosa
los modelos algebraicos del

representan documentos y preguntas generalmente como vectores, matrices o tuples. La semejanza del vector de la pregunta y del vector del documento se representa como valor escalar. Modelo del espacio de vector
Modelo generalizado del espacio de vector
modelo Asunto-basado del espacio de vector (literatura: ,)
Modelo boleano extendido
Modelo asunto-basado realzado del espacio de vector (literatura: ,)
Análisis semántico latente de la indexación de direcciones semántico latente del aka
convite de probabilidad de los modelos del

el proceso de la investigación documental como inferencia de probabilidad. Las semejanzas se computan como probabilidades que un documento es relevante para una pregunta dada. Los teoremas de probabilidad como el teorema de Bayes son de uso frecuente en estos modelos. Recuperación binaria de la independencia
Modelo de probabilidad de la importancia (BM25)
Inferencia incierta
La lengua modela ** la divergencia de la aleatoriedad modela
Asignación latente de Dirichlet

Segunda dimensión: características del modelo

Los modelos del sin las término-interdependencias tratan diversos términos/palabras como independiente. Este hecho es representado generalmente en modelos del espacio de vector por la asunción de la ortogonalidad de los vectores del término o en modelos de probabilidad por una asunción de la independencia para las variables del término.
los modelos del

con las interdependencias inmanentes del término permiten una representación de interdependencias entre los términos. Sin embargo el grado de la interdependencia entre dos términos es definido por el modelo sí mismo. Generalmente se deriva directo o indirectamente (e. por la reducción dimensional ) de la Co-ocurrencia de esos términos en el sistema del conjunto de documentos.
los modelos del

con las interdependencias trascendentes del término permiten una representación de interdependencias entre los términos, pero no alegan cómo la interdependencia entre dos términos se define. Retransmiten una fuente externa para el grado de interdependencia entre dos términos. (Algoritmos por ejemplo humanos o sofisticados.)

Sistemas de la fuente abierta


DataparkSearch, Search Engine del

l escrito en el C, GLP
Egothor de alto rendimiento, Search Engine completamente equipado del texto escrito enteramente en Java
ht: Software de arrastre de la tela de la fuente abierta de //dig
Lengua del Lemur que modela el juego de herramientas del IR
Proyecto de Lucene Apache Jakarta
Sistema de recuperación con texto completo del magnesio ahora mantenido por el proyecto del software de la biblioteca de Digitaces de la diorita
Motor temprano elegante del IR de la Universidad Cornell
Search Engine del texto completo del SQL de la Abrir-fuente de la esfinge (GLP)
Perro perdiguero del Terabyte del terrier, plataforma de recuperación de la información, escrita en Java
Sistema de recuperación de la información multiusos de Wumpus
Plataforma del IR de la fuente abierta de Xapian basada en el moscatel
La cebra GLP estructuró el motor boleano del IR de la búsqueda de text/XML/MARC que apoyaba Z39.50 y servicios de Web
Zettair, acuerdo y motor de la búsqueda rápida escrito en el C, capaz de manejar granes cantidades de texto

Otras herramientas de la recuperación

ASPseek
Agregación del web browser de IMacros para de recuperación de la información automatizada y la extracción
sistema de recuperación de la información del iHOP para el dominio biomédico.
MEDIE un Search Engine inteligente, recuperando acontecimientos biomédicos de Medline.
Search Engine de EB-eye_EBI's_Search_Engine EMBL-EBI: EB-ojo
Sistema de recuperación de la información de EBIMed (y extracción) sobre Medline
La base de datos de la interacción de la proteína Info-PubMed con 200.000 nombres del gene/de la proteína minó de Medline.
El Search Engine del Search Engine A (FDSE) de la dinámica flúida escrito en versiones del Perl, del freeware y del shareware está disponible.
Búsqueda con texto completo de GalaTex XQuery (búsqueda del texto de la pregunta de XML).
Almacenaje y recuperación de información usar las paperas (texto en línea del GLP)
mnoGoSearch escrito en el C, puede poner en un índice Web site multilingües y muchos tipos de la base de datos.
Search Engine libre del texto completo del SQL de la esfinge.
Sistema de recuperación de la información libre del metabilito/de la droga/de la proteína de BioSpider (usado en la anotación de DrugBank y de la base de datos humana de Metabolome).

Grupos de investigación (en ninguna orden particular)

Centro para de recuperación de la información inteligente en UMASS
De recuperación de la información en las tecnologías de lengua instituto, universidad del Carnegie Mellon
De recuperación de la información en la investigación Cambridge de Microsoft
Grupo de recuperación de la información de Glasgow
Centro del círculo para de recuperación de la información
Centro para la investigación de los sistemas interactivos en la universidad de ciudad, Londres
Laboratorio de recuperación de la información de IIT
Grupo de recuperación de la información en Université de Neuchâtel
Laboratorio de investigación inteligente de los sistemas de la fuente de alimentación
Sistemas del tratamiento de la información y de lenguas en la universidad de Amsterdam
Laboratorio de recuperación de la información, Instituto de Tecnología de Harbin (principalmente en chino)
Grupo de recuperación de la información en la universidad de Waterloo, Canadá
Grupo de recuperación de la información en la Universidad de Londres de Queen Mary
Laboratorio de recuperación de la información en la universidad de un Coruña
Laboratorio de filtración de la información del Web en la universidad de Dalhousie, Canadá
Grupo del COL (uso de NLP a de recuperación de la información)

Figuras importantes


Gerard Salton
Juan Peter Luhn
Cercado W. Bruce
Karen Spärck Jones
C. van Rijsbergen
Donald Kraft
Stephen E. Robertson
Abraham Bookstein
Stephen P Harter
David Blair

Concesiones en el campo


concesión del Strix de Tony Kent
Concesión de Gerard Salton

Ver también

Áreas del uso del IR
Adversarial de recuperación de la información
Vocabulario controlado
Foro en las diferentes lenguas de la evaluación
Psicología educativa
Búsqueda del texto libre
Extracción de información
Ciencias de la información
Visualización del conocimiento
Regeneración de importancia
Índice de la búsqueda
Tf-CA
Teoría del SP

.

  • Zenithic
  • Dover Athletic F.C.
    Random links:Super Bowl XXXV | Lista de físicos teóricos | Líder de la casa | Telavi | Eva Kjer Hansen

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">