El análisis semántico latente (LSA) del es una técnica en el proceso de lenguaje natural, particularmente en la semántica vectorial, de analizar relaciones entre un sistema de documentos y los términos contienen produciendo un sistema de conceptos relacionados con los documentos y los términos.

El Lynn Streeter patentó al LSA en el 1988 el Scott Deerwester, el Susan Dumais, el George Furnas, el Richard Harshman, el Thomas Landauer, el Karen Lochbaum y. En el contexto de su uso al de recuperación de la información, a veces se llama el la indexación de direcciones semántica latente (LSI) .

Matriz de la ocurrencia

El LSA puede utilizar una matriz del Término-documento que describa las ocurrencias de términos en documentos; es una matriz escasa cuyas filas corresponden a los términos y cuyas columnas corresponden a los documentos, típicamente las palabras provenidas que aparecen en los documentos. Un ejemplo típico de la carga de los elementos de la matriz es Tf-CA (frecuencia frecuencia-inversa del documento del término): el elemento de la matriz es proporcional al número de épocas que los términos aparecen en cada documento, donde los términos raros upweighted para reflejar su importancia relativa.

Esta matriz es también campo común a los modelos semánticos estándar, aunque necesario no se expresa explícitamente como matriz, puesto que las características matemáticas de matrices no se utilizan siempre.

El LSA transforma la matriz de la ocurrencia en una relación entre los términos y algunos conceptos del, y una relación entre esos conceptos y los documentos. Así los términos y los documentos ahora se relacionan indirectamente con los conceptos.

Usos

El espacio del nuevo concepto se puede utilizar típicamente:
Comparar los documentos en el espacio del concepto (datos que arraciman, clasificación del documento).
Encontrar los documentos similares a través de idiomas, después de analizar un sistema bajo de los documentos traducidos (recuperación en las diferentes lenguas ).
Relaciones del hallazgo entre los términos (sinonimia y polisemia ).
Dado una pregunta de términos, traducirla al espacio del concepto, y encontrar los documentos que emparejan ( de recuperación de la información).

La sinonimia y la polisemia son problemas fundamentales en el proceso de lenguaje natural :
La sinonimia es el fenómeno donde diversas palabras describen la misma idea. Así, una pregunta en un Search Engine puede no poder recuperar un documento relevante que no contenga las palabras que aparecieron en la pregunta. Por ejemplo, una búsqueda para el " doctors" no puede devolver un documento contener el " de la palabra; physicians", aunque las palabras tienen el mismo significado.
La polisemia es el fenómeno donde la misma palabra tiene significados múltiples. Una búsqueda puede recuperar tan los documentos inaplicables que contienen las palabras deseadas en el significado incorrecto. Por ejemplo, un botánico y un informático que buscan el " de la palabra; tree" probablemente diversos sistemas del deseo de documentos.

Baja espesa

Después de la construcción de la matriz de la ocurrencia, el LSA encuentra una aproximación low- de la fila a la matriz del Término-documento. Podía haber varias razones de estas aproximaciones:

la matriz original del término-documento es demasiado grande presumido para los recursos de computación; en este caso, la matriz aproximada de la fila del punto bajo se interpreta como aproximación (un " del ; lo menos y evil" necesario;).
La matriz original del término-documento es el presumido ruidoso: por ejemplo, los casos anecdóticos de términos deben ser eliminados. Desde este punto de vista, la matriz aproximada se interpreta como de-noisified matrix (una mejor matriz que la original).
La matriz original del término-documento es excesivamente presumido el escaso concerniente al " true" matriz del término-documento. Es decir, la matriz de la original enumera solamente el de las palabras realmente en cada documento, mientras que puede ser que estemos interesados en todo el de las palabras relacionado con cada documento--generalmente un sistema mucho más grande debido a la sinonimia .

La consecuencia de la baja de la fila es que algunas dimensiones están combinadas y dependen de más de un término:

l del
{(coche), (carro), (flor)} --> {(1.2828 * carro), (flor)}

Esto atenúa sinonimia, pues se espera que la baja de la fila combine las dimensiones asociadas a los términos que tienen significados similares. También atenúa polisemia, desde los componentes de las palabras polisémicas que señalan en el " right" la dirección se agrega a los componentes de las palabras que comparten un significado similar. Inversamente, los componentes que señalan en otras direcciones tienden a se anulan simplemente, o, en peor de los casos, para ser más pequeños que componentes en las direcciones que corresponden al sentido previsto.

Derivación

Dejar X ser una matriz donde del elemento (i, j) describe la ocurrencia del término i en el documento j (ésta puede ser por ejemplo la frecuencia). X parecerá esto:

\ comenzar {la matriz} y \ del textbf {d} del _j \ \ y \ del downarrow \ \ \ _i^T \ rightarrow del textbf {t} y \ comenzar {el bmatrix} 1.1} y \ puntea del x_ {y del x_ {1, n} \ \ \ vdots y \ ddots y \ de los vdots \ \ y \ puntea del x_ {m, 1} y del x_ {m, n} \ \ \ extremo {bmatrix} \ extremo {matriz}

Ahora una fila en esta matriz será un vector que corresponde a un término, dando su relación a cada documento:

\ textbf {t} _i^T = \ comienzan {x_ del bmatrix} {i, 1} y \ punto y x_ {i,} \ extremo {bmatrix} de n

Asimismo, una columna en esta matriz será un vector que corresponde a un documento, dando su relación a cada término:

\ textbf {d} _j = \ comienzan {x_ del bmatrix} {1, j} \ \ \ vdots \ \ x_ {m,} \ extremo {bmatrix} de j

El _i^T ahora de punto del producto del \ del textbf {t} \ el textbf {t} _p entre dos vectores del término da la correlación entre los términos sobre los documentos. El X X^T del producto de matriz contiene todos estos productos de punto. El del elemento (i, p) (que es igual al del elemento (p, i) ) contiene el _i^T del \ del textbf del producto de punto {t} \ el textbf {t} _p ( = \ _p^T del textbf {t} \ el textbf {t} _i). Asimismo, el X^T X de la matriz contiene los productos de punto entre todos los vectores del documento, dando su correlación sobre los términos: _j^T del \ del textbf {d} \ _q del textbf {d} = \ _q^T del textbf {d} \ textbf {d} _j.

Ahora asumir que existe una descomposición de X tales que U y V son las matrices ortonormales y el \ Sigma es una matriz diagonal . Esto se llama una descomposición (SVD) del valor singular:

X = U \ sigma V^T

Los productos de matriz que nos dan las correlaciones del término y del documento entonces se convierten

\ comenzar {la matriz} X X^T &=& (U \ sigma V^T) (U \ sigma V^T)^T = (U \ sigma V^T) (V^ {} \ Sigma^T de T^T U^T) = U \ sigma V^T V \ Sigma^T de U^T = de U \ de la sigma \ de Sigma^T U^T \ \ X^T X &=& (U \ sigma V^T)^T (U \ sigma V^T) = (V^ {} \ Sigma^T U^T) (U \ sigma de T^T V^T) = V \ sigma U^T U \ sigma V^T = V \ Sigma^T \ sigma V^T \ extremo {matriz}

Desde el \ la sigma \ Sigma^T y el \ Sigma^T \ Sigma somos diagonales vemos que U debe contener los vectores propios del X X^T, mientras que V debe ser los vectores propios del X^T X. Ambos productos tienen los mismos valores propios diferentes a cero, dados por las entradas diferentes a cero del \ de la sigma \ Sigma^T, o igualmente, por las entradas diferentes a cero del \ de Sigma^T \ Sigma. Ahora la descomposición parece esto:

\ comenzar {la matriz} Y X y y y U y y \ sigma y y de V^T \ \ y (\ _j del textbf {d}) y y y y y y y (\ _j del sombrero \ del textbf {d}) \ \ y \ downarrow y y y y y y y \ del downarrow \ \ (\ _i^T) \ rightarrow del textbf {t} y \ comenzar {el bmatrix} 1.1} y \ puntea del x_ {y del x_ {1, n} \ \ \ \ \ vdots y \ ddots y \ de los vdots \ \ \ \ y \ puntea del x_ {m, 1} y del x_ {m, n} \ \ \ extremo {bmatrix} y

y (\ sombrero \ _i^T) \ rightarrow del textbf {t} y \ comenzar {el bmatrix} \ comienza {} \, \ \ \, \ \ \ textbf {u} _1 \ \ \, \ \ \, \ extremo {bmatrix} del bmatrix \ puntos \ comienza {} \, \ \ \, del bmatrix \ \ \ _l del textbf {u} \ \ \, \ \ \, \ extremo {bmatrix} \ extremo {bmatrix} y \ cdot y \ comenzar {el bmatrix} \ sigma_1 y \ puntea y 0 \ \ \ vdots y \ ddots y \ de los vdots \ \ 0 y \ puntos y \ del sigma_l \ \ \ extremo {bmatrix} y \ cdot y \ comenzar {el bmatrix} \ comenzar {bmatrix} y y \ textbf {v} _1 y y \ del final {bmatrix} \ \ \ de los vdots \ \ \ comenzar {bmatrix} y y \ _l y y \ extremo {el bmatrix} del textbf {v} \ extremo {bmatrix} \ extremo {matriz}

, \ sigma_1 de los valores \ puntea, \ sigma_l se llaman los valores singulares, y u_1, \ puntea, u_l y v_1, \ puntea, v_l los vectores singulares izquierdos y derechos. Aviso cómo la única parte de U que contribuya al \ al textbf {t} _i es la fila del i \ del textrm {'th} . Dejar este vector de fila ser llamado \ sombrero \ el textrm {t} _i. Asimismo, la única parte de V^T que contribuya al \ al textbf {d} _j es la columna del j \ del textrm {'th} , \ sombrero \ textrm {d} _j. Éstos son el no los vectores propios, pero el depende de todo el los vectores propios.

Resulta que cuando usted selecciona los valores singulares más grandes de k, y sus vectores singulares correspondientes de U y de V, usted consigue la aproximación de la fila k a X con el error más pequeño (norma de Frobenius). La cosa asombrosa sobre esta aproximación, es que no sólo él tenga un error mínimo, pero traduce los vectores del término y del documento a un espacio del concepto. El \ el sombrero \ el textbf del vector {t} _i entonces tiene entradas de k, cada uno que da la ocurrencia del término i en uno de los conceptos de k. Asimismo, el del vector \ el sombrero \ el textbf {d} _j da la relación entre el documento j y cada concepto. Escribimos esta aproximación como

X_k = U_k \ Sigma_k V_k^T

Usted puede ahora hacer el siguiente:
Ver cómo los documentos relacionados j y q están en el espacio del concepto comparando el \ el sombrero \ el textbf de los vectores {d} _j y el \ el sombrero \ el textbf {d} _q (típicamente por la semejanza del coseno). Esto le da un agrupamiento de los documentos.
El comparar llama i y p comparando el \ el sombrero \ el textbf de los vectores {t} _i y el \ el sombrero \ el textbf {t} _p, dándole un agrupamiento de los términos en el espacio del concepto.
Dado una pregunta, ver esto como mini documento, y compararlo a sus documentos en el espacio del concepto.

Para hacer estes 3ultimo, usted debe primero traducir su pregunta al espacio del concepto. Es entonces intuitivo que usted debe utilizar la misma transformación que usted utiliza en sus documentos:

\ _j = U_k \ Sigma_k \ sombrero \ textbf del textbf {d} {d} _j

= \ Sigma_k^ {- 1} U_k^T \ textbf {d} _j del _j del \ del sombrero \ del textbf {d}

Esto significa que si usted tiene un vector q de la pregunta, usted debe hacer el de la traducción \ = \ Sigma_k^ {- 1} U_k^T \ textbf {q} del sombrero \ del textbf {q} antes de que usted lo compare con los vectores del documento en el espacio del concepto. Usted puede hacer iguales para los pseudo vectores del término:

= \ _i^T del sombrero del _i^T del \ del textbf {t} \ del textbf {t} \ Sigma_k V_k^T

\ sombrero \ textbf {t} _i^T = \ textbf {t} _i^T V_k^ {-} \ Sigma_k^ de T {- 1} = \ _i^T V_k \ Sigma_k^ {- 1} del textbf {t}

= \ Sigma_k^ {- 1} V_k^T \ textbf {t} _i del _i del \ del sombrero \ del textbf {t}

Puesta en práctica

El SVD se computa típicamente usar métodos de matriz grandes (por ejemplo, los métodos de Lanczos pero se pueden también computar incremental y con los recursos grandemente reducidos vía una red de los nervios - como el acercamiento que no requiere el grande, lleno-alinear la matriz que se sostendrá en memoria.

Limitaciones

El LSA tiene dos desventajas:

las dimensiones resultantes pudo ser difícil de interpretar. Por ejemplo, en del
{(coche), (carro), (flor)} --> {(1.2828 * carro), (flor)} el
de (1.2828 * carro) el componente se podría interpretar como " vehicle". Sin embargo, es muy probable que los casos cerca del {(coche), (botella), (la flor)} --> {(1.2828 * botella), (flor)} el
de ocurrirá. Esto lleva a los resultados que se pueden justificar en el nivel matemático, pero no tiene ningún significado interpretable en de lenguaje natural.

el modelo de probabilidad del LSA no empareja datos observados: El LSA asume que las palabras y los documentos forman un modelo gausiano común (hipótesis ergódica ), mientras que se ha observado una distribución de Poisson . Así, una más nueva alternativa es el análisis semántico latente de probabilidad, basado en un modelo polinomial, que se divulga para dar mejores resultados que LSA estándar (citación?).

Ver también

Semántica vectorial
DSIR modelo
Asignación latente de Dirichlet
Spamdexing
Un ejemplo del uso del análisis semántico latente en el proceso de lenguaje natural
Análisis semántico latente de probabilidad
de trazado semántico latente
Indexación de direcciones semántica latente de la estructura

.

  • Zenithic
  • Evstafi class battleship
    Random links:Transporte en Líbano | Harold Scott MacDonald Coxeter | HMS Smiter (D55) | Juan Erskine | Ley rígida

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">