La alineación estructural es una forma de la alineación de la secuencia basada en la comparación de la forma. Estas alineaciones intentan establecer equivalencias entre dos o más estructuras del polímero basadas en su forma y conformación tridimensional . Este proceso se aplica a las estructuras terciarias de la proteína pero se puede generalmente también utilizar para las moléculas grandes del ARN . En contraste con la superposición estructural simple, donde por lo menos algunos residuos equivalentes de las dos estructuras se saben, la alineación estructural no requiere ninguÌn conocimiento a priori del de posiciones equivalentes. La alineación estructural es una herramienta valiosa para la comparación de proteínas con la semejanza baja de la secuencia, donde las relaciones evolutivas entre las proteínas no se pueden detectar fácilmente por técnicas de alineación estándar de la secuencia. La alineación estructural se puede por lo tanto utilizar para implicar relaciones evolutivas entre las proteínas que comparten secuencia común muy pequeña. Sin embargo, la precaución debe ser utilizada al usar los resultados como evidencia para la ascendencia evolutiva compartida debido a los efectos posibles de la confusión de la evolución convergente por los cuales las secuencias sin relación múltiples del aminoácido convergen en una estructura terciaria común.
Las alineaciones estructurales pueden comparar dos secuencias o las secuencias del múltiplo. Porque estas alineaciones confían en la información sobre todo el la pregunta ordenó conformaciones tridimensionales, el método se puede utilizar solamente en las secuencias donde se saben estas estructuras. Éstos son encontrados generalmente por la cristalografía de la radiografía o la espectroscopia RMN. Es posible realizar una alineación estructural en las estructuras producidas por métodos de la predicción de la estructura. De hecho, la evaluación de tales predicciones requiere a menudo una alineación estructural entre el modelo y la estructura sabida verdadera determinar la calidad del modelo. Las alineaciones estructurales son especialmente útiles en analizar datos de la genómica estructural y de esfuerzos de Proteomics, y pueden ser utilizadas como puntos de la comparación para evaluar las alineaciones producidas por métodos puramente secuencia-basados de la bioinformática .
Las salidas de una alineación estructural son una superposición de los sistemas atómicos del coordenada y una distancia mínima de la media cuadrada de la raíz ( RMSD ) entre las estructuras. El RMSD de dos estructuras alineadas indica su divergencia a partir de la una otra. La alineación estructural se puede complicar por la existencia de los dominios múltiples de la proteína dentro de uno o más de las estructuras de la entrada, porque los cambios en la orientación relativa de los dominios entre dos estructuras que se alinearán pueden inflar artificial el RMSD.
Los datos produjeron por la alineación estructural
La
información mínima produjo de una alineación estructural acertada es un sistema de los coordenadas tridimensionales sobrepuestos para cada estructura de la entrada. (La
nota que un elemento entrado se puede fijar como una referencia y por lo tanto sus coordenadas sobrepuestos no cambia.) Las estructuras cabidas se pueden utilizar para calcular valores mutuos de RMSD, tan bien como otras medidas más sofisticadas de semejanza estructural tales como
la prueba global (GDT, el métrico de la distancia usado en el CASP ). La alineación estructural también implica una alineación unidimensional correspondiente de la
secuencia de la cual una identidad de la secuencia, o del porcentaje de los residuos que son idénticos entre la entrada estructure, se puede calcular como medida de cómo las dos secuencias son de cerca relacionadas.
Tipos de comparaciones
Porque las estructuras de la proteína se componen de los aminoácidos cuyas cadenas laterales son ligados por una espina dorsal común de la proteína, un número de diversos subconjuntos posibles de los átomos que componen una macromolécula de la proteína pueden ser utilizados en producir una alineación estructural y el
cálculo de los valores correspondientes de RMSD. Al alinear las estructuras con secuencias muy diversas, los átomos de
la cadena lateral no se consideran generalmente porque sus identidades diferencian entre muchos residuos alineados. Por esta razón es común para que los métodos estructurales de la alineación utilicen por abandono solamente los átomos de
la espina dorsal incluidos en el enlace de péptido . Para la simplicidad y la eficacia, a menudo solamente se consideran las posiciones alfa del carbón, puesto que el
enlace de péptido tiene una conformación planar como mínimo variable . Solamente cuando las estructuras que se alinearán son alto similares o aún
idéntico es significativo alinear posiciones del átomo de la cadena lateral, en este caso el RMSD refleja no sólo la conformación de la espina dorsal de la proteína pero también los estados de Rotameric de las cadenas laterales. Otros criterios de la comparación que reducen ruido y los fósforos positivos del collarín incluyen la asignación de la
estructura secundaria, los mapas del contacto o los patrones nativos de la interacción del residuo, las medidas de embalaje de la cadena lateral, y las medidas de retención del enlace de hidrógeno .
Superposición estructural
La comparación posible más básica entre las estructuras de la proteína no hace ninguna tentativa de alinear las estructuras de la
entrada y requiere una alineación calculada de antemano pues entrado para determinar cuáles de los residuos en la secuencia se piensan para ser considerados en el cálculo de RMSD. La superposición estructural es de uso general comparar conformaciones múltiples de la misma proteína (en este caso no hay alineación necesaria, puesto que las secuencias son iguales) y evaluar la calidad de las alineaciones producidas usar solamente la información de la secuencia entre dos o más secuencias cuyas se saben estructuras. Este método utiliza tradicionalmente los m3inimos cuadr3aticos
simples que caben el algoritmo, en el cual las rotaciones y las traducciones óptimas son encontradas reduciendo al mínimo la suma de las distancias ajustadas entre todas las estructuras en la superposición. Más recientemente, la toda
probabilidad y los métodos Bayesian han aumentado grandemente la exactitud de las rotaciones, de las traducciones, y de las matrices de covariación estimadas para la superposición.
Los algoritmos basados en rotaciones multidimensionales y el modificado Quaternions se han desarrollado para identificar relaciones topológicas entre las estructuras de la proteína sin la necesidad de una alineación predeterminada. Tales algoritmos han identificado con éxito dobleces canónicos tales como el paquete de la cuatro-hélice. El método del sobreponer es suficientemente extensible corregir para las rotaciones relativas del dominio y otras trampas estructurales.
Ambo el " óptimo; que rosca el " de ; de una secuencia de la proteína sobre una estructura sabida y de la producción de una alineación múltiple óptima de la secuencia se han demostrado para ser el NP-completo. Sin embargo, esto no implica que el problema de alineación estructural es NP-completo. En base de
la discusión que una solución óptima verdadera no es biológico significativo debido al error experimental inherente en la determinación de la estructura de la proteína, un algoritmo aproximado del Polinómico-tiempo para la alineación estructural que produce una familia de " optimal" las soluciones dentro de un parámetro de la aproximación para una función que anotaba dada se han desarrollado. Sin embargo, en el
del n^ {para una proteína globular de los residuos del n, el
algoritmo siguen siendo demasiado de cómputo costosos para el uso práctico. Por consiguiente, los algoritmos prácticos que convergen a las soluciones globales de la alineación, dados una función que anota, no existen. La
mayoría de los algoritmos son, por lo tanto, heurístico, pero los algoritmos que garantizan la convergencia por lo menos a los maximalistas locales de las funciones que anotan, y ser práctico, se han convertido.
Representación de estructuras
Las estructuras de la proteína tienen que ser representadas en un cierto
espacio de la coordinar-independiente para hacerlas comparables. Esto es alcanzada típicamente construyendo una matriz de la secuencia-a-secuencia o una serie de las matrices que abarcan métrica comparativa: algo que distancias absolutas concerniente a un espacio coordinado fijo. Una representación intuitiva es
la matriz de distancia, que es una matriz de dos dimensiones que contiene todos en parejas se distancia entre un cierto subconjunto de los átomos en cada estructura (tal como los carbones alfa). La matriz aumenta de dimensionalidad como el
número de estructuras para ser aumentos simultáneamente alineados.
La reducción de la proteína a un métrico grueso tal como elementos de la estructura secundaria (SSEs) o fragmentos estructurales puede también producir alineaciones sensibles, a pesar de la pérdida de información de desechar distancias, pues el ruido también se desecha. Elegir una representación para facilitar
el cómputo es crítico a desarrollar un mecanismo eficiente de la alineación.
Métodos
Las técnicas de alineación estructurales se han utilizado en comparar las estructuras o los sistemas individuales de estructuras así como en la producción de " todo-a-all" bases de datos de la comparación que miden la divergencia entre cada par de estructuras presentes en el banco de datos de la proteína (PDB). Tales bases de
datos son utilizadas para clasificar las proteínas por su doblez .
DALI
Un método estructural común y popular de la alineación es el DALI, o matriz de la alineación de la distancia, el método, que rompe las estructuras de la entrada en fragmentos del hexapeptide y calcula una matriz de distancia evaluando los patrones del contacto entre los fragmentos sucesivos. Las características de la estructura secundaria que implican los residuos que son contiguos en orden aparecen en la
diagonal principal de la matriz; otras diagonales en la matriz reflejan contactos espaciales entre los residuos que no están cerca de uno a en la secuencia.
Cuando estas diagonales son paralelas a la diagonal principal, las características que representan son paralelas; cuando son perpendiculares, sus características son antiparalelas. Esta representación es memoria-intensiva porque las características en la matriz cuadrada son simétricas (y así redundante) sobre la diagonal principal.
Cuando dos matrices de distancia de las proteínas comparten el mismo o las características similares en aproximadamente las mismas posiciones, pueden ser dichas para tener dobleces similares con los lazos de la similar-longitud que conectan sus elementos de la estructura secundaria. El proceso real de la alineación de DALI requiere una búsqueda por similitud después de que matrices de distancia se construyan las dos de las proteínas; esto se conduce normalmente vía una serie de submatrices traslapados del tamaño 6x6. Los fósforos de Submatrix entonces se vuelven a montar en una alineación final vía un algoritmo estándar de la cuenta-maximización - la versión original de DALI utilizó una simulación de Monte Carlo para maximizar una cuenta estructural de la semejanza que es una función de las distancias entre los átomos correspondientes supuestos. Particularmente, átomos más distantes dentro de características correspondientes exponencial downweighted para reducir los efectos del ruido introducidos por movilidad del lazo, torsiones de la hélice, y otras variaciones estructurales de menor importancia. Se ha aplicado en una todo-a-toda manera para producir un esquema de clasificación jerárquico del doblez conocido como catedral (clase, arquitectura, topología, homología), que se ha utilizado para construir la base de datos de la clasificación de la estructura de la proteína de la catedral.
El método combinatorio (CE) de la extensión es similar a DALI en que rompe también cada estructura en la pregunta fijada en una serie de fragmentos que entonces intente volver a montar en una alineación completa. Una serie en parejas de combinaciones de fragmentos llamó pares alineados del fragmento, o AFPs, se utiliza para definir una matriz de la semejanza a través de la cual una
trayectoria óptima se genere para identificar la alineación final. Solamente AFPs que resuelve los criterios dados para la semejanza local se incluye en la matriz como
medio para la reducción del espacio de búsqueda necesario y de tal modo el aumento de eficacia. Un número de métricas de la semejanza son posibles; la definición original de las superposiciones del CE solamente y de las distancias estructurales incluidas método del inter-residuo pero se ha ampliado
desde entonces para incluir características ambientales locales tales como estructura secundaria, exposición solvente, patrones de la hidrógeno-vinculación, y los ángulos Dihedral la carga se proponen para acelerar la convergencia de la programación dinámica y para corregirla para los efectos que se presentan de longitudes de la alineación. En un estudio de la evaluación comparativa, TM-alinear se ha divulgado para mejorar en
velocidad y exactitud sobre DALI y el CE. y el alfabeto más limitado del ARN disminuye el contenido de información de cualquier
nucleótido dado en cualquier posición dada.
Un método reciente para la alineación en parejas estructural de las secuencias del ARN con identidad baja de la secuencia se ha publicado y se ha ejecutado en el programa FOLDALIGN. Sin embargo, este método no es verdad análogo a las técnicas de alineación estructurales de la proteína porque predice de cómputo las estructuras de las secuencias de entrada del ARN algo que requiriendo las estructuras experimental resueltas como entrada. Aunque la predicción de cómputo del proceso del plegamiento de proteína no haya sido particularmente acertada hasta la fecha, las estructuras del ARN sin el Pseudoknots se pueden predecir a menudo sensible usar la energía libre - los métodos que anotan basados que explican la base que se aparea y que apila así como por métodos estadísticos Bayesian . Los avances recientes también han permitido la predicción de estructuras pseudoknotted por la introducción de carga del fósforo o de apremios geométricos, como en KINEFOLD.
Software
considera también:
estructural del software de la alineación Elegir una herramienta de software para la alineación estructural puede ser un desafío debido a la variedad grande de paquetes disponibles que diferencien perceptiblemente en la metodología y la confiabilidad. Debido a su integración con otras herramientas en Internet europeas del instituto de la bioinformática, el web server de EBI DALI DaliLite tiene una ventaja en la producción de solas alineaciones estructurales para los investigadores interesados al usar las alineaciones para dirigir el trabajo experimental (algo que estudiando los métodos ellos mismos de la alineación). Otro método útil de EBI es la unidad emparejadora de la estructura secundaria, que confía en la presencia por lo menos de dos elementos de la estructura secundaria . Una lista más completa de software estructural actualmente disponible y libremente distribuido de la alineación se puede encontrar en el software estructural de la alineación.
Ver también
Alineación múltiple de la secuencia
Software de la alineación de la secuencia
Alineación de la secuencia
Clasificación estructural de las proteínas
.
ZenithicBridgeport Public Schools