Una base de datos química es una base de datos diseñada específicamente para almacenar la información química . La mayoría de la información química del almacén de las bases de datos sobre las estructuras químicas estable de las moléculas se representa tradicionalmente usar las líneas que indican los vínculos químicos entre los átomos y se dibuja en el papel (fórmulas estructurales del 2. Mientras que éstas son representaciones visuales ideales para el químico, son inadecuados para el uso de cómputo y especialmente para la búsqueda y el almacenaje .

Se espera que las bases de datos químicas grandes manejen el almacenaje y la búsqueda de la información sobre millones de moléculas que toman los Terabyte de la memoria física.

Representación

Hay dos técnicas principales para representar las estructuras químicas en bases de datos digitales

como tablas de la conexión/las matrices /listas de la adyacencia con la información adicional sobre enlaza (bordes) y el átomo atribuye (los nodos) eg.:
: MDL Molfile, PDB, CML
Como notación linear de la secuencia basada en la profundidad primer traversal de la anchura de o primer eg.:
: El SONRÍE /SMARTS, SLN, WLN, InChI

Estos acercamientos se han refinado para permitir la representación de las diferencias y de las cargas stereochemical tan bien como clases especiales de enlace tales como ésos vistos en compuestos organometálicos . La ventaja principal de una representación de computadora es la posibilidad del almacenaje creciente y de la búsqueda rápida, flexible.

Búsqueda

Los químicos pueden buscar bases de datos usar partes de las estructuras, partes de sus nombres IUPAC así como basado en apremios en características. Las bases de datos químicas son particularmente diferentes de otras bases de datos de fines generales en su ayuda para la búsqueda de la subestructura. Esta clase de búsqueda es alcanzada buscando el isomorfismo del subgráfico (a veces también llamado un monomorfismo ) y es un uso extensamente estudiado de la teoría de gráfico . Los algoritmos para buscar son de cómputo intensivos, a menudo de complejidad del tiempo O ( n 3) o O ( n 4) (donde está el número el n de átomos implicados). El componente intensivo de la búsqueda se llama la átomo-por-átomo-búsqueda (ABAS), en la cual un trazado de los átomos y de los enlaces de la subestructura de la búsqueda con la molécula de la blanco se busca. ABAS que busca hace uso generalmente del algoritmo de Ullman o de variaciones de él. Los Speedups son alcanzados por la amortización del tiempo, es decir, algo del tiempo en tareas de la búsqueda es ahorrado usando la información precomputed. Este precomputation implica típicamente la creación Bitstrings que representa presencia o la ausencia de fragmentos moleculares. Mirando los fragmentos presentes en una estructura de la búsqueda es posible eliminar la necesidad de la comparación de ABAS con las moléculas de la blanco que no poseen los fragmentos que están presentes en la estructura de la búsqueda. Esta eliminación se llama investigación (no ser confundido con los procedimientos de cribado usados en droga-descubrimiento). Las pedacito-secuencias usadas para estos usos también se llaman las estructural-llaves. El funcionamiento de tales llaves depende de la opción de los fragmentos usados para construir las llaves y la probabilidad de su presencia en las moléculas de la base de datos. Otra clase de llave hace uso de los picadillo-códigos basados en los fragmentos derivados de cómputo. Éstos se llaman las “huellas digitales” aunque el término se utilice a veces sinónimo con estructural-llaves. La cantidad de memoria necesitó almacenar estas estructural-llaves y las huellas digitales pueden ser reducidas “doblando”, que es alcanzado combinando las partes de la llave usar bitwise-operaciones y de tal modo reduciendo la largura total.

Descriptores

Todas las características de moléculas más allá de su estructura se pueden dividir en descriptores también llamados farmacológicos fisicoquímicos o de las cualidades. Encima de ese, existen vario artificial y más o menos sistemas de nombramiento estandardizados para las moléculas que suministran los nombres y los sinónimos más o menos ambiguos el IUPAC conocido son generalmente una buena opción para representar la estructura de una molécula en una secuencia legible y única aunque llegue a ser poco manejable para moléculas más grandes. Los nombres triviales por una parte abundan con los homónimos y los sinónimos y son por lo tanto una mala opción como que define la clave de base de datos . Mientras que los descriptores fisicoquímicos tienen gusto del peso molecular, ( parcial) la carga, la solubilidad, el etc. se pueden computar sobre todo directo basaron en la estructura de la molécula, los descriptores farmacológicos se pueden derivar solamente indirectamente usar estadísticas multivariantes implicadas o (la investigación, la prueba biológica ) resultados experimentales. Todos esos descriptores pueden por razones de esfuerzo de cómputo se almacenen junto con la representación de la molécula y están generalmente.

Semejanza

No hay definición de la semejanza molecular, no obstante el concepto se puede definir según el uso y se describe a menudo como inverso de una medida de la distancia en espacio del descriptor. Dos moléculas se pudieron considerar más similares por ejemplo si su diferencia en los pesos moleculares es más baja que en comparación con otras. Una variedad de otras medidas se podían combinar para producir una medida multivariante de la distancia. Las medidas de la distancia se clasifican a menudo en las medidas euclidianas y las medidas no-Euclidianas dependiendo de si la desigualdad del triángulo se sostiene.

Los productos químicos en las bases de datos pueden ser arracimados en grupos de moléculas “similares” basadas en semejanzas. Los acercamientos de agrupamiento jerárquicos y no jerárquicos se pueden aplicar a las entidades químicas con cualidades múltiples. Estas cualidades o características moleculares se pueden determinar empírico o derivar de cómputo los descriptores . Uno de los acercamientos de agrupamiento más populares es el algoritmo de Jarvis-Patrick (los vecinos k-más cercanos).

En el farmacológico orientado los depósitos químicos, semejanza se definen generalmente en términos de efectos biológicos de los compuestos ( ADME /tox) que se pueden alternadamente deducir semiautomático de combinaciones similares de descriptores fisicoquímicos usar métodos QSAR .

Sistemas de registro

Los sistemas de bases de datos para mantener expedientes únicos en los compuestos químicos se llaman como sistemas de registro. Éstos son de uso frecuente para la indexación de direcciones química, los sistemas de la patente y las bases de datos industriales.

Los sistemas de registro hacen cumplir generalmente la unicidad del producto químico representado en la base de datos con el uso de representaciones únicas. Aplicando reglas de precedencia para la generación de notaciones stringified, una puede obtener representaciones de secuencia únicas del “ canónico” tales como “SONRISAS canónicas ”. Algunos sistemas de registro tales como el sistema del CAS hacen uso de algoritmos para generar los códigos únicos del picadillo para alcanzar el mismo objetivo.

Una diferencia dominante entre un sistema de registro y una base de datos química simple es la capacidad de representar exactamente el se sepa que, desconocido, y sabido parcialmente. Por ejemplo, una base de datos química pudo almacenar una molécula con la estereoquímica sin especificar, mientras que un sistema químico del registro requiere el secretario especificar si la configuración estérea sea desconocida, una mezcla (sabida) específica, o el racémico. Cada uno de éstos sería considerada un diverso expediente en un sistema químico del registro.

Los sistemas de registro también preprocesan las moléculas para evitar considerar diferencias triviales tales como diferencias en iones del halógeno en productos químicos.

Un ejemplo es el sistema de registro del servicio (CAS) de los extractos del producto químico. Ver también el número del registro del CAS.

Herramientas

Las representaciones de cómputo generalmente son hechas transparentes a los químicos por la exhibición gráfica de los datos. La entrada de datos también se simplifica con el uso de los redactores de la estructura química. Estos redactores interno convierten los datos gráficos en representaciones de cómputo.

Hay también algoritmos numerosos para la interconversión de varios formatos de la representación. Una utilidad de la abrir-fuente para la conversión es OpenBabel . Éstos buscan y los algoritmos de la conversión se ejecutan o dentro del sistema de base de datos sí mismo o como ahora está la tendencia se ejecutan como componentes externos que quepan en sistemas estándar de la base de datis relacional. Oracle y los sistemas basados de PostgreSQL hacen uso de la tecnología del cartucho del que permite datatypes definidos por el usario. Éstos permiten que el usuario haga preguntas del SQL con búsqueda química condicionan (por ejemplo una pregunta a buscar para los expedientes que tenían un anillo de benceno en su estructura representada como secuencia de las SONRISAS en una columna de SMILESCOL podría ser

l SELECTO * DE CHEMTABLE DONDE SMILESCOL.CONTAINS (“c1ccccc1”).

Los algoritmos para la conversión de los nombres IUPAC a las representaciones de estructura y viceversa también se utilizan para el que extrae la información estructural del texto . Al menos hay dificultades debido a la existencia de dialectos múltiples de IUPAC. El trabajo está prendido establecer un estándar único de IUPAC (véase el InChI ).

  • Zenithic
  • SLAMF8
    Random links:Montfiquet | Eugene Dynkin | Inscribir el coco | Albert Dubois-Pillet | Centro de los acontecimientos de Budweiser

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">