Un almacén de datos del es el depósito principal de los datos históricos de una organización, su memoria corporativa . Contiene la materia prima para el sistema de apoyo de la decisión de la gerencia. El factor crítico que lleva al uso de un almacén de datos es que un analista de los datos puede realizar preguntas y análisis complejos, tal como explotación minera de datos, en la información sin el retraso de los sistemas operacionales
; Tema-orientado: Los datos en la base de datos se organizan para enlazar todos los datos referentes el mismo acontecimiento u objeto del mundo real juntos; ; Time-variant: Los cambios a los datos en la base de datos se siguen y se registran de modo que los informes puedan ser cambios producidos de la demostración en un cierto plazo; ; Permanente: Los datos en la base de datos nunca se sobreescriben o se suprimen - confiado una vez, los datos son estáticos, inalterable, pero conservado para la información futura; y ; Integrado: La base de datos contiene datos la mayoría o todos los usos operacionales de una organización, y eso estos datos se hace constante.
El Rafael Kimball, autor principal del acercamiento dimensional a los almacenes de datos del edificio, proporciona una definición del succint para un almacén de datos: " una copia de los datos de la transacción estructurados específicamente para la pregunta y analysis."
Estos dos datos influyentes que almacenan a expertos representan las opiniónes que prevalecen actuales sobre el almacenamiento de los datos. Kimball, en 1997, indicó ese " … el almacén de datos no es nada más que la unión de todo el marts" de los datos;, indicando una metodología ascendente del almacenamiento de datos en la cual los centros comerciales de datos individuales que proporcionaban visiónes finas en los datos de organización se podrían crear y combinar más adelante en un almacén de datos all-encompassing más grande.
Inmon respondió en 1998 diciendo, " Usted puede coger todos los piscardos en el océano y apilar los juntos y los todavía no hacer una ballena, " indicación de la opinión de oposición que el almacén de datos se debe diseñar del de arriba hacia abajo para incluir todos los datos corporativos. En esta metodología, se crean los centros comerciales de datos solamente después que se ha creado el almacén de datos completo.
Mientras que los sistemas operacionales se optimizan para la simplicidad y velocidad de la modificación (véase el OLTP ) con el uso pesado de la normalización de la base de datos y un modelo de la Entidad-relación, el almacén de datos se optimiza para la información y análisis (proceso analítico en línea, u OLAP). Los datos en almacenes de datos son con frecuencia pesadamente denormalised, resumido o almacenado en un modelo dimensión-basado . Sin embargo, esto no se requiere siempre para alcanzar tiempos de reacción aceptables de la pregunta.
¡hacia arquitectura del almacén de datos de Bill Inmon. Particularmente da una descripción del método de Kimball pues ha sido retratado por Inmon al estar a favor del método de Inmon. Este artículo podía utilizar una representación más equilibrada de ambos métodos según lo presentado por sus autores respectivos tan bien como una cierta discusión de acercamientos híbridos. -->
la carga de proceso de la información redujo el tiempo de reacción de los sistemas operacionales,
Los diseños de base de datos de sistemas operacionales no fueron optimizados para el análisis y la información de la información,
La mayoría de las organizaciones tenían más de un sistema operacional, así que la información empresarial no se podría apoyar de un solo sistema
El desarrollo de informes en sistemas operacionales requirió a menudo programas de computadora específicos de la escritura que era lento y costoso
Consecuentemente, las bases de datos de computadora separadas comenzaron a ser construidas que fueron diseñadas específicamente para apoyar propósitos de la información y del análisis de gerencia. Estos almacenes de datos podían traer en datos de una gama de diversas fuentes de datos, tales como miniordenadores de los ordenadores centrales así como los ordenadores personales y el software de la ofimática tal como hoja de balance, e integrar esta información en un solo lugar. Esta capacidad, juntada con las herramientas de uso fácil y la libertad de la información de impactos operacionales, ha llevado a un crecimiento de este tipo de sistema informático.
Como la tecnología mejoró (más barato para más funcionamiento) y las exigencias del consumidor crecientes (datos más rápidos cargan duraciones de ciclo y más características), los almacenes de datos se han desarrollado a través de varias etapas fundamentales:
; Bases de datos operacionales fuera de línea: Los almacenes de datos en esta etapa inicial son desarrollados simplemente copiando la base de datos de un sistema operacional a un servidor fuera de línea donde la carga de proceso de la información no afecta el funcionamiento de sistema operacional. ; Almacén de datos fuera de línea: Los almacenes de datos en esta etapa de la evolución son actualizados en un ciclo regular del tiempo (generalmente diario, semanal o mensual) de los sistemas operacionales y los datos se almacenan en una estructura de datos información-orientada integrada. ; Almacén de datos en tiempo real: Los almacenes de datos son en esta etapa actualizados sobre una base de la transacción o del acontecimiento, cada vez que un sistema operacional realiza una transacción (e. una orden o una entrega o una reservación los etc.) ; Almacén de datos integrado: Los almacenes de datos se utilizan en esta etapa para generar actividad o las transacciones que se pasan nuevamente dentro de los sistemas operacionales para el uso en la actividad diaria de la organización.
la arquitectura del almacén de datos
La arquitectura del almacén de datos consiste en los varios elementos interconectados que son: 1) Capa operacional y externa de la base de datos: los datos de fuente para el almacén de datos. 2) Capa informativa del acceso: las herramientas, el acceso del usuario final para extraer y para analizar los datos. 3) Capa del acceso de datos: el interfaz entre la capa operacional e informativa del acceso. 4) Capa de los meta datos: El directorio de datos o el depósito de la información de los meta datos.
El concepto de " warehousing" de los datos; data por lo menos de los a mediados de los años ochenta, y posiblemente anterior. Esencialmente, fue pensado para proporcionar un modelo arquitectónico para el flujo de datos de los sistemas operacionales a los ambientes de la ayuda de decisión . Intentó tratar los varios problemas asociados a este flujo, y los altos costes asociados a él. En la ausencia de tal arquitectura, allí existida generalmente una cantidad enorme de redundancia en la entrega de la información de gerencia. En corporaciones más grandes era típica para que los proyectos de ayuda múltiples de decisión funcionen independiente, diversos usuarios de cada porción pero a menudo requerir mucho de los mismos datos. El proceso de la acopio, de la limpieza y de datos de integración de las varias fuentes, a menudo sistemas de herencia, fue replegado típicamente para cada proyecto. Por otra parte, los sistemas de herencia eran revisitados con frecuencia como nuevos requisitos emergieron, cada uno que requería una vista sutil diversa de los datos de herencia.
De acuerdo con analogías con los almacenes de la vida real, los almacenes de datos fueron pensados como zonas en grande de la colección/del almacenaje/de espera para los datos corporativos. Aquí de datos podía ser distribuido al " stores" al por menor; o " Quot de los centros comerciales de datos ; cuáles fueron adaptados para el acceso por los usuarios de la ayuda de decisión (o el " consumers"). Mientras que el almacén de datos fue diseñado para manejar la fuente a granel de datos de sus surtidores (e. sistemas operacionales), y para manejar la organización y el almacenaje de estos datos, el " stores" al por menor; o " Quot de los centros comerciales de datos ; podía ser centrado en el empaquetado y la presentación de las selecciones de los datos a los usuarios finales para cubrir necesidades específicas de información de gerencia.
En alguna parte a lo largo de la manera esta analogía y visión arquitectónica fueron perdidas, pues algunos vendedores y locutores de la industria redefinieron el almacén de datos como simplemente base de datos de la información de gerencia. Esto es una desviación sutil pero importante de la visión original del almacén de datos como el eje de una arquitectura de la información de gerencia, donde estaban realmente los centros comerciales de datos o " los sistemas de apoyo de la decisión; stores" al por menor;.
Las bases de datos de OLTP son eficientes porque se están ocupando típicamente solamente de la información alrededor de una sola transacción. En la información y el análisis, los millares a los mil millones de transacciones pueden necesitar ser vuelto a montar imponiendo una carga de trabajo enorme ante la base de datis relacional. Dado bastante tiempo el software puede volver generalmente los resultados pedidos, pero debido a el impacto negativo del funcionamiento en la máquina y todos sus usos recibidos, los datos que almacenan a profesionales recomiendan que la información de bases de datos esté separada físicamente de la base de datos OLTP .
Además, el almacenamiento de los datos sugiere que los datos sean reestructurados y cambiados formato para facilitar pregunta y análisis por los usuarios del principiante. Las bases de datos de OLTP son diseñadas para proporcionar buen funcionamiento por los usos rígido definidos construidos por los programadores fluidos en los apremios y las convenciones de la tecnología. Agregar en realces frecuentes, y demasiada una base de datos es apenas una colección de nombres secretos, de estructuras aparentemente sin relación y obscuras que almacenen datos usar esquemas de codificación incomprensibles; todos los factores que mientras que mejoran funcionamiento, complican uso de la gente inexperimentada. Pasado, el almacén de datos necesita apoyar altos volúmenes de periodos de tiempo extendidos demasiado recolectados de los datos y está conforme a preguntas complejas y necesita acomodar los formatos y las definiciones heredados de sistemas independiente diseñados del paquete y de herencia.
El diseño de la sinergia de la arquitectura de los datos del almacén de datos es el reino de los arquitectos del almacén de datos. La meta de un almacén de datos es traer datos juntos de una variedad de bases de datos existentes a la gerencia de la ayuda y a las necesidades de la información. El principio generalmente aceptado es que los datos se deben almacenar en su nivel más elemental porque éste preve la base más útil y más flexible para el uso en la información y el análisis de la información. Sin embargo, debido a diverso foco en requisitos específicos, puede haber métodos alternativos para el diseño y ejecutar almacenes de datos. Hay dos acercamientos principales a organizar los datos en un almacén de datos: el acercamiento dimensional abogado por el Rafael Kimball y el acercamiento normalizado abogado por el Bill Inmon . Mientras que el acercamiento de la dimensión es muy útil en diseño del centro comercial de datos, puede dar lugar a una jerarquía de las ratas de las complicaciones de largo plazo de la integración y de la abstracción de datos cuando está utilizado en un almacén de datos.
En el " dimensional" acercarse, los datos de la transacción se reparte en cualquiera un " medido; facts" cuáles son generalmente los datos numéricos que capturan valores o el " específicos; dimensions" cuáles contienen la información de referencia que da a cada transacción su contexto. Como ejemplo, una transacción de venta estaría rota para arriba en hechos tales como el número de productos pedidos, y el precio pagado, y las dimensiones tales como fecha, cliente, producto, localización geográfica y vendedor. Las ventajas principales de un acercamiento dimensional son que el almacén de datos es fácil para el personal del negocio con experiencia limitada de la tecnología de la información de entender y de utilizar. También, porque los datos pre-se ensamblan en la forma dimensional, el almacén de datos tiende a funcionar muy rápidamente. La desventaja principal del acercamiento dimensional es que es absolutamente difícil agregar o cambiar más adelante si la compañía cambia la manera de la cual hace negocio.
El " normalized" el acercamiento utiliza la normalización de la base de datos. En este método, los datos en el almacén de datos se almacenan en la tercera forma normal . Las tablas entonces son agrupadas juntas por los temas que reflejan la definición general de los datos (cliente, producto, finanzas, etc.) que la ventaja principal de este acercamiento es que es absolutamente directa agregar la nueva información en la base de datos - la desventaja primaria de este acercamiento es ésa debido a el número de tablas implicadas, puede ser algo lenta producir la información e informes. Además, desde la segregación de hechos y de dimensiones no es explícito en este tipo del modelo de datos, él es difícil para que los usuarios ensamblen los datos required en la información significativa sin una comprensión exacta de la estructura de datos .
Los temas son apenas un método de organizar la información y se pueden definir a lo largo de cualquier línea. El acercamiento tradicional tiene temas definidos como los temas o los sustantivos dentro de un espacio del problema. Por ejemplo, en un negocio de los servicios financieros, usted puede ser que tenga clientes, productos y contratos. Un acercamiento alternativo es organizar alrededor de las transacciones de negocio, tales como inscripción del cliente, ventas y comercios.
.
| Random links: | Símbolos y simbolismo en demonología cristiana | Discusión del verbo | Orden del dragón del Annam | Gyrobicupola triangular alargado | Tony astuto |