Una gramática independiente del contexto estocástica ( SCFG ; también la gramática independiente del contexto de probabilidad, el PCFG ) es una gramática independiente del contexto en la cual cada producción se aumenta con una probabilidad. La probabilidad de una derivación (analizar) es entonces el producto de las probabilidades de las producciones usadas en esa derivación; así algunas derivaciones son más constantes con la gramática estocástica que otras. SCFGs amplía gramáticas independientes del contexto de la misma manera que los modelos de Markov ocultados amplían las gramáticas regulares SCFGs tiene uso en dos áreas: Proceso de lenguaje natural y el estudio de las moléculas del ARN dentro del campo de la bioinformática . SCFGs es una forma especializada de las gramáticas independientes del contexto cargadas
Una variante del algoritmo CYK encuentra el Viterbi para analizar de una secuencia para un SCFG dado. El Viterbi analiza es la derivación más probable (analizar) de la secuencia por el SCFG dado.
Los algoritmos interiores y exteriores son análogos del algoritmo delantero y del algoritmo posterior, y se pueden utilizar para computar la probabilidad total de todas las derivaciones que sean constantes con una secuencia dada, basada en alguÌn SCFG. Esto es equivalente a la probabilidad del SCFG que genera la secuencia, y es intuitivo una medida de cómo es constante la secuencia está con la gramática dada.
Los algoritmos del interior/del exterior se pueden también utilizar para computar las probabilidades que una producción dada será utilizada en una derivación al azar de una secuencia. Esto se utiliza como parte de un algoritmo de la Expectativa-maximización para aprender las probabilidades de la toda probabilidad para un SCFG basado en un sistema de las secuencias del entrenamiento que el SCFG debe modelar. El algoritmo es análogo a ése usado por los modelos de Markov ocultados .
Las gramáticas independientes del contexto fueron concebidas original en un intento por modelar las idiomas naturales, es decir ésas habladas normalmente por los seres humanos. Una cierta investigación ha ampliado esta idea con SCFGs.
Aquí está un ejemplo minúsculo 2 de una gramática de la regla PCFG. Cada regla es precedida por una probabilidad que refleje la frecuencia relativa con la cual ocurre.3 VP DE V NP --> V NP NP Dado esta gramática, podemos ahora decir que el número de NPs esperó mientras que derivara VPs es 0.
Particularmente, un cierto uso SCFGs de los sistemas del reconocimiento de discurso de mejorar su estimación de la probabilidad y de tal modo su funcionamiento.
Recientemente, CFG de probabilidad han desempeñado un papel en la explicación Jerarquía de la accesibilidad, que intenta explicar porqué ciertas estructuras son más difíciles de entender que otras, e. ésos con cláusulas relativas como " habían olvidado que la caja que la palmadita trajo con las manzanas adentro era lost".
Resulta que si hay una cuenta de probabilidad de construcciones más probables, después una puede computar una medida teórica de la información (entropía ) para las construcciones. Si el aparato cognoscitivo para el sintaxis se basa en consideraciones teóricas de la información, después puede emplear muy bien algo similar a PCFG.
Las gramáticas independientes del contexto son peritas en el modelado de la estructura secundaria del ARN. La estructura secundaria implica los nucleótidos dentro de una molécula de una sola fila del ARN que son complementarios el uno al otro, y por lo tanto basa pares. Este apareamiento de la base es biológico importante para la función apropiada de la molécula del ARN. Mucho de este apareamiento de la base se puede representar en una gramática independiente del contexto (la excepción principal que es Pseudoknots .
Por ejemplo, considerar la gramática siguiente, donde a, c, g, u representa los nucleótidos y S es el el símbolo de inicio (y solamente no terminal): aSu del → del
S del
| cSg | gSc | los E. Este CFG simple representa una molécula del ARN que consiste enteramente en dos enteramente regiones complementarias, en las cuales solamente se permiten los pares complementarios canónicos (es decir A-U y CG).
Atando probabilidades a un CFGs más sofisticado, es posible modelar bases o los pairings de la base que son más o menos constantes con un patrón previsto de la molécula del ARN. SCFGs se utiliza para modelar los patrones en familias del gene del ARN en la base de datos de Rfam, y busca las secuencias del genoma para los probables miembros adicionales de estas familias. SCFGs también se ha utilizado para encontrar genes del ARN usar genómica comparativa. En este trabajo, los homólogos de un gene potencial del ARN en dos organismos relacionados fueron examinados usar técnicas de SCFG para considerar si se conserva su estructura secundaria. Si es, la secuencia es probable ser un gene del ARN, y la estructura secundaria se presume para ser conservada debido a las necesidades funcionales de ese gene del ARN. Se ha demostrado que SCFGs podría predecir la estructura secundaria de una molécula del ARN semejantemente a las técnicas existentes, aunque este uso no se haya adoptado extensamente.
Con la publicación del teorema 1967 del oro fue demandado que las gramáticas para las idiomas naturales gobernadas por reglas deterministas no podrían ser doctas basadas en casos positivos solamente. Éste era parte de la discusión de la pobreza del estímulo, presentada en el an o 80 e implícita desde las primeras obras de Chomsky de los años 50. Esto llevó a la opinión nativista, de que que una forma de gramática (léxico conceptual completo incluyendo en ciertas versiones) hardwired de nacimiento. Esta visión se limita en gran parte a las teorías del GB y de la P.
Una gramática es una descripción del sintaxis de una lengua. Los modelos teóricos se centran en una lengua o una Yo-lengua mental . En cambio, otros se acercan a las búsquedas del sintaxis para construir las gramáticas que describirán uso de la lengua.
Un problema hecho frente en cualquier sintaxis formal es que a menudo más de una regla de producción puede aplicarse a una estructura, así dando por resultado un conflicto. Cuanto mayor es la cobertura, el más altos este conflicto, y todos los gramáticos (que comienzan con el Panini ) han pasado considerable esfuerzo que ideaba una priorización para las reglas, que resultan generalmente ser anulables. Otra dificultad es el overgeneration, donde las estructuras no autorizadas también se generan. Las gramáticas de probabilidad evitan estos problemas usando la frecuencia de varias producciones para pedirlas, dando por resultado un " " más probable; interpretación (a todo o nada), que por definición, es datos adicionales dados anulables. Mientras que los patrones del uso se alteran en cambios diacrónicos, estas reglas de probabilidad pueden ser vueltas a aprender, así aumentar la gramática.
Uno puede construir una gramática de probabilidad de un sintaxis formal tradicional asignando a cada uno no terminal una probabilidad tomada de una cierta distribución, para ser estimado eventual de datos del uso. En la mayoría de las muestras de lengua amplia, las gramáticas de probabilidad que templan estas probabilidades de datos superan típicamente gramáticas hand-crafted (aunque algunas gramáticas basadas en las reglas ahora se están acercando a las exactitudes de PCFG).
Recientemente, las gramáticas de probabilidad aparecen haber ganado una cierta plausibilidad cognoscitiva. Es bien sabido que hay grados de dificultad en el acceso de diversas estructuras sintácticas (e. la jerarquía de la accesibilidad para las cláusulas relativas . Las versiones de probabilidad de las gramáticas minimalistas se han utilizado para computar los valores información-teóricos de la entropía que aparecen correlacionar bien con datos psicolingüísticos sobre dificultad de la comprensiblidad y de la producción.
Las gramáticas estadísticas no están conforme al teorema del oro puesto que el aprendizaje es incremental.
| Random links: | Monumento de la guerra del USMC | Vikki Carr | Bebé de Lego | Yodo de Lugol | Peróxido del sodio |