Diferencia entre revisiones de «Almacén de Datos»

Línea 1: Línea 1:
{{Aplicación|nombre=Almacén de Datos|logo=AlmacenDatos.jpg |descripcion=Herramienta de Inteligencia de negocio para la ayuda a la toma de decisiones|creador=|fecha_de_creacion=|sitio_web=}}Un '''almacén de datos''' o '''data warehouse''' es una colección de datos orientadas a un dominio, integrado, no volátil y varía en el tiempo que ayuda a la toma de decisiones de la empresa u organización. Un almacén de los datos es, sobre todo, un expediente de una empresa más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer análisis y la divulgación eficientes de datos (especialmente [[OLAP]]).
+
{{Aplicación|nombre=Almacén de Datos|logo=AlmacenDatos.jpg |descripcion=Herramienta de Inteligencia de negocio para la ayuda a la toma de decisiones|creador=|fecha_de_creacion=|sitio_web=}}Un '''almacén de datos''' o '''data warehouse. '''Es una colección de datos orientadas a un dominio, integrado, no volátil y varía en el tiempo que ayuda a la toma de decisiones de la empresa u organización. Un almacén de los datos es, sobre todo, un expediente de una empresa más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer análisis y la divulgación eficientes de datos (especialmente [[OLAP]]).  
  
 
== Características  ==
 
== Características  ==
Línea 20: Línea 20:
 
*Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
 
*Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
  
Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización.<br><br>  
+
Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización.<br>
  
==== Definición de [http://en.wikipedia.org/wiki/Ralph_Kimball Ralph Kimball ]<br>  ====
+
== Definición de [http://en.wikipedia.org/wiki/Ralph_Kimball Ralph Kimball ]<br>  ==
  
Éste es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.<br>  
+
Éste es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". <br>
 +
 
 +
También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.<br>  
  
 
== Función de un Almacén de Datos<br>  ==
 
== Función de un Almacén de Datos<br>  ==
  
Un Almacén de Datos debe entregar la información correcta a la gente indicada en el momento adecuado en el formato correcto. El Almacén de Datos da respuesta a las necesidades de usuarios conocedores, utilizando Sistemas de ayuda en la decisión (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consulta o informes. Los usuarios finales fácilmente pueden hacer consultas sobre sus Almacenes de Datos sin tocar o afectar la operación del sistema. <br>  
+
Un Almacén de Datos debe entregar la información correcta a la gente indicada en el momento adecuado en el formato correcto. El Almacén de Datos da respuesta a las necesidades de usuarios conocedores, utilizando Sistemas de ayuda en la decisión (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consulta o informes. <br>
 +
 
 +
Los usuarios finales fácilmente pueden hacer consultas sobre sus Almacenes de Datos sin tocar o afectar la operación del sistema. <br>  
  
 
== Estructura de un Almacén de Datos<br>  ==
 
== Estructura de un Almacén de Datos<br>  ==
Línea 36: Línea 40:
 
==== Cubos De Información (DataMarts) <br>  ====
 
==== Cubos De Información (DataMarts) <br>  ====
  
Un DataMart es una vista lógica de los datos en bruto de su los datos provistos por su sistema de operaciones/finanzas hacia el Almacén de Datos con la adición de nuevas dimensiones o información calculada. Se les llama DataMart, porque representan un conjunto de datos relacionados con un tema en particular como Ventas, Operaciones, Recursos Humanos, etc, y están a disposición de los "clientes" a quienes les puede interesar la misma.
+
Un DataMart es una vista lógica de los datos en bruto de su los datos provistos por su sistema de operaciones/finanzas hacia el Almacén de Datos con la adición de nuevas dimensiones o información calculada. <br>
 +
 
 +
Se les llama DataMart, porque representan un conjunto de datos relacionados con un tema en particular como Ventas, Operaciones, Recursos Humanos, etc, y están a disposición de los "clientes" a quienes les puede interesar la misma.  
 +
 
 +
Esta información puede accesarse por el Ejecutivo (Dueño) mediante "Tablas Dinámicas" de MS-Excel o programas personalizados. Las Tablas Dinámicas le permiten manipular las vistas (cruces, filtrados, organización) de la información con mucha facilidad. Los cubos de información (DataMarts) se producen con mucha rapidez. <br>
 +
 
 +
A ellos se les aplican las reglas de seguridad de acceso necesarias La información estratégica está clasificada en: Dimensiones y Variables. El análisis está basado en las dimensiones y por lo tanto es llamado: Análisis multidimensional. <br>
  
Esta información puede accesarse por el Ejecutivo (Dueño) mediante "Tablas Dinámicas" de MS-Excel o programas personalizados. Las Tablas Dinámicas le permiten manipular las vistas (cruces, filtrados, organización) de la información con mucha facilidad. Los cubos de información (DataMarts) se producen con mucha rapidez. A ellos se les aplican las reglas de seguridad de acceso necesarias La información estratégica está clasificada en: Dimensiones y Variables. El análisis está basado en las dimensiones y por lo tanto es llamado: Análisis multidimensional. Llevando estos conceptos a un DW: Un Data Warehouse es una colección de datos que está formada por Dimensiones y Variables, entendiendo como Dimensiones a aquellos elementos que participan en el análisis y Variables a los valores que se desean analizar. <br><br>
+
Llevando estos conceptos a un DW: Un Data Warehouse es una colección de datos que está formada por Dimensiones y Variables, entendiendo como Dimensiones a aquellos elementos que participan en el análisis y Variables a los valores que se desean analizar.  
  
==== Dimensiones <br>  ====
+
=== Dimensiones <br>  ===
  
 
Son atributos relativos a las variables. Son las perspectivas de análisis de las variables. (Forman parte de la Dimension Table – Tabla de Dimensiones)<br>  
 
Son atributos relativos a las variables. Son las perspectivas de análisis de las variables. (Forman parte de la Dimension Table – Tabla de Dimensiones)<br>  
Línea 46: Línea 56:
 
==== Variables <br>  ====
 
==== Variables <br>  ====
  
También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la Fact Tabla (Tabla de Hecho) Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a la variable, y son utilizadas para ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables.  
+
También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la Fact Tabla (Tabla de Hecho) Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido.
 +
 
 +
En forma contraria, las dimensiones son atributos relativos a la variable, y son utilizadas para ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables.  
  
 
== Arquitectura de un Almacén de Datos<br>  ==
 
== Arquitectura de un Almacén de Datos<br>  ==
Línea 56: Línea 68:
 
[[Image:ArquitecturaDW.gif|Arquitectura de un Almacén de Datos]]<br><br>  
 
[[Image:ArquitecturaDW.gif|Arquitectura de un Almacén de Datos]]<br><br>  
  
<u>Nivel operacional</u><br>Contiene datos primitivos (operacionales) que están siendo permanentemente actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones transaccionales.<br><u>Almacén de datos</u><br>Contiene datos primitivos correspondientes a sucesivas cargas del Almacén de Datos y algunos datos derivados. Los datos derivados son datos generados a partir de los datos primitivos al aplicarles algún tipo de procesamiento (resúmenes).<br><u>Nivel departamental (Data Mart)</u><br>Contiene casi exclusivamente datos derivados. Cada departamento de la empresa determina su nivel departamental con información de interés a dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacén son organizados y almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras aplicaciones.<br><u>Nivel individual</u><br>Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un Almacén de Datos. Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así como navegar a través de los datos contenidos en el Almacén de Datos.<br><br>
+
<u>Nivel operacional</u><br>Contiene datos primitivos (operacionales) que están siendo permanentemente actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones transaccionales.<br><u>Almacén de datos</u><br>Contiene datos primitivos correspondientes a sucesivas cargas del Almacén de Datos y algunos datos derivados. Los datos derivados son datos generados a partir de los datos primitivos al aplicarles algún tipo de procesamiento (resúmenes).<br><u>Nivel departamental (Data Mart)</u><br>Contiene casi exclusivamente datos derivados. Cada departamento de la empresa determina su nivel departamental con información de interés a dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacén son organizados y almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras aplicaciones.<br><u>Nivel individual</u><br>Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un Almacén de Datos. Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así como navegar a través de los datos contenidos en el Almacén de Datos.
  
 
== Elementos que integran un Almacén de Datos  ==
 
== Elementos que integran un Almacén de Datos  ==
Línea 62: Línea 74:
 
==== Metadata <br>  ====
 
==== Metadata <br>  ====
  
Uno de los componentes más importantes de la arquitectura de un DW es el Metadata. Es definido comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos y cómo se relacionan. El Metadata documenta exactamente, entre otras cosas, qué tablas existen para esa aplicación, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el Metadata es de interés para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el Metadata en un ambiente de DW es muy diferente al rol que cumple en los ambientes operacionales. En un ambiente de DW el Metadata juega un rol fundamental. <br>  
+
Uno de los componentes más importantes de la arquitectura de un DW es el Metadata. Es definido comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos y cómo se relacionan.  
 +
 
 +
El Metadata documenta exactamente, entre otras cosas, qué tablas existen para esa aplicación, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el Metadata es de interés para los programas que tienen que manejar estos datos.
 +
 
 +
Sin embargo, el rol que cumple el Metadata en un ambiente de DW es muy diferente al rol que cumple en los ambientes operacionales. En un ambiente de DW el Metadata juega un rol fundamental. <br>  
  
 
==== Middleware <br>  ====
 
==== Middleware <br>  ====
Línea 74: Línea 90:
 
==== Mecanismos de Extracción <br>  ====
 
==== Mecanismos de Extracción <br>  ====
  
Otro de los componentes de la arquitectura de un DW son los sistemas OLAP. Estos tipos de sistemas están orientados a la realización de análisis estratégicos de la información contenida en un DW de una manera ad-hoc. Los análisis estratégicos requieren de una visión dinámica y multidimensional de la información diferente a la que se encuentra en los sistemas OLTP. Este tipo de análisis esta orientado a procesar grandes volúmenes de datos de forma de poder medir la evolución del negocio a través del tiempo, mediante la confección de comparaciones, el estudio de indicadores, desviaciones, etc. Esto requiere la posibilidad de realizar análisis Top Down, es decir que estos sistemas deben poseer el dinamismo necesario para permitir la reformulación de la consulta realizada de acuerdo al análisis de los resultados obtenidos en una primera instancia.  
+
Otro de los componentes de la arquitectura de un DW son los sistemas OLAP. Estos tipos de sistemas están orientados a la realización de análisis estratégicos de la información contenida en un DW de una manera ad-hoc. Los análisis estratégicos requieren de una visión dinámica y multidimensional de la información diferente a la que se encuentra en los sistemas OLTP.
 +
 
 +
Este tipo de análisis esta orientado a procesar grandes volúmenes de datos de forma de poder medir la evolución del negocio a través del tiempo, mediante la confección de comparaciones, el estudio de indicadores, desviaciones, etc.  
 +
 
 +
Esto requiere la posibilidad de realizar análisis Top Down, es decir que estos sistemas deben poseer el dinamismo necesario para permitir la reformulación de la consulta realizada de acuerdo al análisis de los resultados obtenidos en una primera instancia.  
  
 
==== Mecanismos de Carga <br>  ====
 
==== Mecanismos de Carga <br>  ====

Revisión del 10:41 11 jun 2010

Almacén de Datos
Información sobre la plantilla

Un almacén de datos o data warehouse. Es una colección de datos orientadas a un dominio, integrado, no volátil y varía en el tiempo que ayuda a la toma de decisiones de la empresa u organización. Un almacén de los datos es, sobre todo, un expediente de una empresa más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer análisis y la divulgación eficientes de datos (especialmente OLAP).

Características

El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de los datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas llamadas los centros comerciales dependientes de los datos. Generalmente, dos ideas básicas dirigen la creación de un almacén de los datos:

  • Integración de los datos de bases de datos distribuidas y diferentemente estructuradas, que facilita una descripción global y un análisis comprensivo en el almacén de los datos.
  • Separación de los datos usados en operaciones diarias de los datos usados en el almacén de los datos para los propósitos de la divulgación, de la ayuda en la toma de decisiones, para el análisis y para controlar.

Periódicamente, uno importa datos de sistemas del planeamiento del recurso de la empresa (ERP) y de otros sistemas de software relacionados al negocio en el almacén de los datos para la transformación posterior. Es práctica común "efectuar" datos antes de combinarla en un almacén de los datos. En este sentido, "de efectuar medios de los datos" de hacerlo cola para el proceso previo, generalmente con una herramienta de Extracción, Transformación y Carga (ETL). El programa del proceso previo lee los datos efectuados (a menudo bases de datos primarias de OLTP de un negocio), realiza el proceso previo cualitativo o la filtración (desnormalización, si juzga necesario incluyendo), y la escribe en el almacén.

Definiciones de almacén de datos

Definición de Bill Inmon

Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de las características del repositorio de datos:
• Orientado a temas: Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.

  •  Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
  • No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.
  • Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.

Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización.

Definición de Ralph Kimball

Éste es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis".

También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos.

Función de un Almacén de Datos

Un Almacén de Datos debe entregar la información correcta a la gente indicada en el momento adecuado en el formato correcto. El Almacén de Datos da respuesta a las necesidades de usuarios conocedores, utilizando Sistemas de ayuda en la decisión (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consulta o informes.

Los usuarios finales fácilmente pueden hacer consultas sobre sus Almacenes de Datos sin tocar o afectar la operación del sistema.

Estructura de un Almacén de Datos

El ambiente de un Almacén de Datos queda definido por la suma de los diferentes DataMarts integrados, no sólo a nivel físico sino también a nivel lógico.

Cubos De Información (DataMarts)

Un DataMart es una vista lógica de los datos en bruto de su los datos provistos por su sistema de operaciones/finanzas hacia el Almacén de Datos con la adición de nuevas dimensiones o información calculada.

Se les llama DataMart, porque representan un conjunto de datos relacionados con un tema en particular como Ventas, Operaciones, Recursos Humanos, etc, y están a disposición de los "clientes" a quienes les puede interesar la misma.

Esta información puede accesarse por el Ejecutivo (Dueño) mediante "Tablas Dinámicas" de MS-Excel o programas personalizados. Las Tablas Dinámicas le permiten manipular las vistas (cruces, filtrados, organización) de la información con mucha facilidad. Los cubos de información (DataMarts) se producen con mucha rapidez.

A ellos se les aplican las reglas de seguridad de acceso necesarias La información estratégica está clasificada en: Dimensiones y Variables. El análisis está basado en las dimensiones y por lo tanto es llamado: Análisis multidimensional.

Llevando estos conceptos a un DW: Un Data Warehouse es una colección de datos que está formada por Dimensiones y Variables, entendiendo como Dimensiones a aquellos elementos que participan en el análisis y Variables a los valores que se desean analizar.

Dimensiones

Son atributos relativos a las variables. Son las perspectivas de análisis de las variables. (Forman parte de la Dimension Table – Tabla de Dimensiones)

Variables

También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la Fact Tabla (Tabla de Hecho) Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido.

En forma contraria, las dimensiones son atributos relativos a la variable, y son utilizadas para ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables.

Arquitectura de un Almacén de Datos

Los bloques funcionales que se corresponden con un sistema de información completo que utiliza un Almacén de Datos se muestran gráficamente en la siguiente figura:


Arquitectura de un Almacén de Datos

Nivel operacional
Contiene datos primitivos (operacionales) que están siendo permanentemente actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones transaccionales.
Almacén de datos
Contiene datos primitivos correspondientes a sucesivas cargas del Almacén de Datos y algunos datos derivados. Los datos derivados son datos generados a partir de los datos primitivos al aplicarles algún tipo de procesamiento (resúmenes).
Nivel departamental (Data Mart)
Contiene casi exclusivamente datos derivados. Cada departamento de la empresa determina su nivel departamental con información de interés a dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacén son organizados y almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras aplicaciones.
Nivel individual
Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un Almacén de Datos. Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así como navegar a través de los datos contenidos en el Almacén de Datos.

Elementos que integran un Almacén de Datos

Metadata

Uno de los componentes más importantes de la arquitectura de un DW es el Metadata. Es definido comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos y cómo se relacionan.

El Metadata documenta exactamente, entre otras cosas, qué tablas existen para esa aplicación, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el Metadata es de interés para los programas que tienen que manejar estos datos.

Sin embargo, el rol que cumple el Metadata en un ambiente de DW es muy diferente al rol que cumple en los ambientes operacionales. En un ambiente de DW el Metadata juega un rol fundamental.

Middleware

La función del Middleware es la de asegurar la conectividad entre todos los componentes de la arquitectura de un DW. El Middleware puede verse como capa API, en base a la cual los programadores pueden desarrollar aplicaciones que trabajen en diferentes ambientes sin preocuparse de los protocolos de red y comunicaciones en que se correrán. De esta manera se ofrece una mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más complejas, en menos tiempo.

API

Application Programmer Interface. Interfaz de Programación de Aplicación. Lenguaje y formato de mensaje utilizados por un programa para activar e interactuar con las funciones de otro programa o de un equipo físico. middleware Asegura la conectividad entre todos los componentes de una infraestructura informática. Es la estructura para enlazar todas las aplicaciones en forma integrada.

Mecanismos de Extracción

Otro de los componentes de la arquitectura de un DW son los sistemas OLAP. Estos tipos de sistemas están orientados a la realización de análisis estratégicos de la información contenida en un DW de una manera ad-hoc. Los análisis estratégicos requieren de una visión dinámica y multidimensional de la información diferente a la que se encuentra en los sistemas OLTP.

Este tipo de análisis esta orientado a procesar grandes volúmenes de datos de forma de poder medir la evolución del negocio a través del tiempo, mediante la confección de comparaciones, el estudio de indicadores, desviaciones, etc.

Esto requiere la posibilidad de realizar análisis Top Down, es decir que estos sistemas deben poseer el dinamismo necesario para permitir la reformulación de la consulta realizada de acuerdo al análisis de los resultados obtenidos en una primera instancia.

Mecanismos de Carga

Existen dos formas básicas de desarrollar esta tarea, las que se explican a continuación.

  • Acumulación Simple. La acumulación simple es, sin duda, la más sencilla y común, y consiste en realizar una sumarización o resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción hacia el DW.
  • Rolling. El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena información resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo.

Diseño de un Almacén de Datos

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia la bodega de datos. Ya construido, se requieren medios para manejar grandes volúmenes de información. Dependiendo de la estructura interna de los datos de la Bodega y especialmente del tipo de consultas a realizar, se diseña la arquitectura de la Bodega de datos. Con este criterio los datos deben ser repartidos entre numerosos Data Marts. Para abordar un proyecto de Data Warehouse (Bodega de Datos) es necesario hacer el levantamiento de algunos temas generales de la Organización, los cuales se analizarán a continuación:
Ambiente Actual
Cualquier solución propuesta de Data Warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.

Ambiente De Negocios
Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la Organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.

Ambiente Técnico
Se debe incluir tanto el aspecto de ambiente hardware: mainframes, servidores, redes, así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de Soporte en la Decisión, si existen en la actualidad, cómo operan, etc.
Expectativas De Los Usuarios Un proyecto de Bodega de Datos no es un proyecto tecnológico, es una forma de Vida de las Organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.

Etapas de Desarrollo
Con el conocimiento previo, ya se entra en el desarrollo de una Estrategia Conceptual para la construcción de un DW.

Ambiente de Negocios
Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.

Prototipo
Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto que será entregado a los usuarios.

Piloto
El piloto de la Bodega de Datos, simplemente es el primero de muchos esfuerzos iterativos que se harán para llegar a la construcción de una Bodega de Datos.

Prueba del concepto tecnológico
Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del DW funcionará finalmente como se espera.

Véase también

  • Minería de datos
  • OLAP
  • Esquema del copo de nieve
  • Esquema de la estrella

Referencias

Pyle, Dorian. Business Modeling and Data Mining. Morgan Kaufmann, 2003. ISBN 155860653X

Business Intelligence Almacenes de Datos ETL

Características de un almacen de datos


Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005).

investigacion/bd_efsi04.pdf Bases de datos y data warehouse: Herramientas estratégicas para la eficacia comercial.