Aplicaciones de Base de Datos 1

20
Introducción Debido a que para llevar a cabo BI, es necesario gestionar datos guardados en diversos formatos, fuentes y tipos, para luego depurarlos e integrarlos, además de almacenarlos en un solo destino o base de datos que permita su posterior análisis y exploración, es imperativo y de vital importancia contar con un proceso que satisfaga todas estas necesidades. Este proceso se denomina Data Warehouse (DW). Una de las principales motivaciones de este proceso es brindar herramientas que den soporte a la toma de decisiones de negocio concretas, de forma sencilla y rápida. Los sistemas de información tradicionales que dan soporte a procesos transaccionales no almacenan la información en estructuras adecuadas para lograr estos objetivos en forma eficiente. La ausencia de información histórica es una de las limitaciones más notorias en los sistemas transaccionales dado que los datos almacenados en estos sistemas están diseñados para llevar la información de una institución al día pero no permiten contrastar claramente la situación actual con la de meses o años atrás. Otro aspecto negativo de los sistemas transaccionales son los largos tiempos de respuesta, ya que las consultas de datos complejas usualmente implican uniones de tablas operacionales de gran tamaño, lo cual se convierte en incómodos retrasos que dificultan la fluidez del trabajo. También se encuentra en estos sistemas una gran rigidez a la hora de extraer datos, de manera que el usuario muchas veces debe limitarse a los informes predefinidos que se configuraron en el momento de la implantación, DATA WAREHOUSE

description

Data Warehouse

Transcript of Aplicaciones de Base de Datos 1

Data Warehouse

DATA WAREHOUSE

Introduccin

Debido a que para llevar a cabo BI, es necesario gestionar datos guardados en diversos formatos, fuentes y tipos, para luego depurarlos e integrarlos, adems de almacenarlos en un solo destino o base de datos que permita su posterior anlisis y exploracin, es imperativo y de vital importancia contar con un proceso que satisfaga todas estas necesidades. Este proceso se denomina Data Warehouse (DW).Una de las principales motivaciones de este proceso es brindar herramientas que den soporte a la toma de decisiones de negocio concretas, de forma sencilla y rpida. Los sistemas de informacin tradicionales que dan soporte a procesos transaccionales no almacenan la informacin en estructuras adecuadas para lograr estos objetivos en forma eficiente.La ausencia de informacin histrica es una de las limitaciones ms notorias en los sistemas transaccionales dado que los datos almacenados en estos sistemas estn diseados para llevar la informacin de una institucin al da pero no permiten contrastar claramente la situacin actual con la de meses o aos atrs.Otro aspecto negativo de los sistemas transaccionales son los largos tiempos de respuesta, ya que las consultas de datos complejas usualmente implican uniones de tablas operacionales de gran tamao, lo cual se convierte en incmodos retrasos que dificultan la fluidez del trabajo. Tambin se encuentra en estos sistemas una gran rigidez a la hora de extraer datos, de manera que el usuario muchas veces debe limitarse a los informes predefinidos que se configuraron en el momento de la implantacin, y que no siempre responden a sus verdaderas necesidades, no pudiendo realizar reportes configurables en funcin de ciertos parmetros.

Marco conceptual

Los sistemas de DW apuntan a la construccin y mantenimiento de estructuras destinadas al anlisis de datos, transformando stos en informacin y la informacin en conocimiento. los sistemas de procesamiento transaccionales en lnea (OLTP) usualmente no mantienen la informacin histrica requerida para la toma de decisiones en una organizacin. Las consultas gerenciales con informacin resumida y desde distintas vistas, demandan el procesamiento de importantes volmenes de datos, requiriendo recursos y decrementando notablemente el rendimiento de los sistemas operacionales.Otro aspecto a tener en cuenta es la capacidad de las soluciones de BI es de lograr integrar datos desde distintas fuentes muy diversas.DW surge como una necesidad de las BD al no poder dar respuesta a los requerimientos de BI, si bien fue Edgard Codd quien plantea la necesidad del mismo, fue recin con Ralph Kimball y William Inmon quienes definieron caractersticas y metodologas para su construccin, con una serie de pautas claramente estipuladas que permiten el auge del DW. Inmon lo define como orientado al sujeto, integrado, de tiempo variante y no voltil, todo con un enfoque Topdown mientras que Kimball lo caracteriza por centrarlo en el negocio, construir una infraestructura de informacin, realizar entregas incrementales y brindar soluciones completa, usando para ello un enfoque Bottom-up. El trabajo de ambos autores es recomendable usar en determinados casos segn el tipo de problema que se enfrente.

Data Warehouse

Un DW es una base de datos corporativa de apoyo a la toma de decisiones que se caracteriza por integrar datos crudos de una o ms fuentes distintas, depurando y almacenando la informacin necesaria de forma organizada para luego procesarla, permitiendo su anlisis desde mltiples perspectivas y con grandes velocidades de respuesta. Permite a los directivos que lo utilizan, tener una visin ms completa e integral de los procesos dado que el resultado de su implementacin es conocimiento acerca del funcionamiento de la organizacin.La creacin de un DW representa en la mayora de las ocasiones uno de los primeros pasos, desde el punto de vista tcnico, para implantar una solucin completa y fiable de BI. Al no generar datos por s mismos se dice que este tipo de sistemas son fuentes secundarias de informacin, alimentados desde fuentes de datos externas.Una de las definiciones ms famosas sobre DW, es la de William Harvey Inmon, quien define: Un Data Warehouse es una coleccin de datos orientada al negocio, integrada, variante en el tiempo y no voltil para el soporte del proceso de toma de decisiones de la gerencia. Debido a que W. H. Inmon, es reconocido mundialmente como el padre del DW, la explicacin de las caractersticas ms sobresalientes de este concepto se bas en su definicin.Caracteristicas

Orientada al Negocio: La primera caracterstica del DW, es que la informacin se clasifica en base a los aspectos que son de inters para la organizacin. Esta clasificacin afecta el diseo y la implementacin de los datos encontrados en el almacn de datos, debido a que la estructura del mismo difiere considerablemente a la de los clsicos procesos operacionales orientados a las aplicaciones.

Integrada: Los datos cargados en el DW pueden provenir de diferentes fuentes y son integrados para dar una visin global coherente. Esta caracterstica refiere al hecho de que la informacin se obtiene a partir de diferentes BD Operacionales, las cuales pueden no tener siempre la misma estructura y encontrarse sobre distintos motores de BD (SQL Server, Oracle, MySql, PostgreSQL, etc). La integracin implica que todos los datos de diversas fuentes que son producidos por distintos departamentos, secciones y aplicaciones, tanto internos como externos, deben ser consolidados en una instancia antes de ser agregados al DW, y deben por lo tanto ser analizados para asegurar su calidad y limpieza, entre otras cosas y cuenta con diversas tcnicas y subprocesos para llevar a cabo sus tareas. Una de estas tcnicas son los procesos ETL: Extraccin, Transformacin y Carga de Datos.

Variante en el Tiempo: El DW se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones, lo que implica que todos los datos deben estar asociados con un perodo de tiempo especfico. Esto contribuye a una de las principales ventajas del almacn de datos: los datos son almacenados junto a sus respectivos histricos. Esta cualidad que no se encuentra en fuentes de datos operacionales, garantiza poder desarrollar anlisis de la dinmica de la informacin, pues ella es procesada como una serie de instantneas, cada una representando un periodo de tiempo. Es decir, que gracias al sello de tiempo se podr tener acceso a diferentes versiones de la misma informacin. Es elemental aclarar, que el almacenamiento de datos histricos, es lo que permite al DW desarrollar pronsticos y anlisis de tendencias y patrones, a partir de una base estadstica de informacin.

No voltil: Los datos son estables en el DW,se agregan y modifican datos, pero los datos existentes no son removidos. La informacin es til para el anlisis y la toma de decisiones solo cuando es estable. Los datos operacionales varan momento a momento, en cambio, los datos una vez que entran en el DW no cambian. La actualizacin, o sea, insertar, eliminar y modificar, se hace de forma muy habitual en el ambiente operacional sobre una base, registro por registro, en cambio en el depsito de datos la manipulacin bsica de los datos es mucho ms simple, debido a que solo existen dos tipos de operaciones: la carga de datos y el acceso a los mismos.Diferencias de un Data Warehouse con un sistema tradicional

SISTEMA TRADICIONALDATA WAREHOUSE

Predomina la actualizacin Predomina la consulta

La actividad ms importante es de tipo operativo (da a da) La actividad ms importante es el anlisis y la decisin estratgica

Predomina el proceso puntual Predomina el proceso masivo

Mayor importancia a la estabilidad Mayor importancia al dinamismo

Datos en general desagregados Datos en distintos niveles de detalle y agregacin

Importancia del dato actual Importancia del dato histrico

Importante del tiempo de respuesta de la transaccin instantnea Importancia de la respuesta masiva

Estructura relacional Visin multidimensional

Usuarios de perfiles medios o bajos Usuarios de perfiles altos

Explotacin de la informacin relacionada con la operativa de cada aplicacin Explotacin de toda la informacin interna y externa relacionada con el negocio

Ventajas

Transforma datos orientados a las aplicaciones en informacin orientada a la toma de decisiones. Integra y consolida diferentes fuentes de datos (internas y/o externas) y departamentos empresariales, que anteriormente formaban islas, en una nica plataforma slida y centralizada. Provee la capacidad de analizar y explotar las diferentes reas de trabajo y de realizar un anlisis inmediato de las mismas. Permite reaccionar rpidamente a los cambios del mercado. Aumenta la competitividad en el mercado. Elimina la produccin y el procesamiento de datos que no son utilizados ni necesarios, producto de aplicaciones mal diseadas o ya no utilizadas. Mejora la entrega de informacin, es decir, informacin completa, correcta, consis consistente, oportuna y accesible. Informacin que los usuarios necesitan, en el momento adecuado y en el formato apropiado. Aumento de la eficiencia de los encargados de tomar decisiones. Permite la toma de decisiones estratgicas y tcticas.

Desventajas

Requiere una gran inversin, debido a que su correcta construccin no es tarea sencilla y consume muchos recursos, adems, su misma implementacin implica desde la adquisicin de herramientas de consulta y anlisis, hasta la capacitacin de los usuarios. Existe resistencia al cambio por parte de los usuarios. Los beneficios del almacn de datos son apreciados en el mediano y largo plazo. Este punto deriva del anterior, y bsicamente se refiere a que no todos los usuarios confiarn en el DW en una primera instancia, pero s lo harn una vez que comprueben su efectividad y ventajas. Adems, su correcta utilizacin surge de la propia experiencia. Si se incluyen datos propios y confidenciales de clientes, proveedores, etc, el depsito de datos atentar contra la privacidad de los mismos, ya que cualquier usuario podr tener acceso a ellos. Incremento continuo de los requerimientos de los usuarios. Subestimacin de las capacidades que puede brindar la correcta utilizacin del DW y de las herramientas de BI en general.

Arquitectura de los Data Warehouse

A travs del siguiente grfico se explicitar la estructura del Data Warehousing:

Tal y como se puede apreciar, el ambiente esta formado por diversos elementos que interactan entre s y que cumplen una funcin especfica dentro del sistema. Por ello es que al abordar la exposicin de cada elemento se lo har en forma ordenada y teniendo en cuenta su relacin con las dems partes.

Fuentes de datos: Contiene las distintas fuentes que se utilizaron en la obtencin de los datos que alimentan el sistema. En el grfico, bases de datos relacionales (Oracle y PostgreSQL), sin embargo, adems se pueden tener desde otro tipo de fuentes como por ejemplo base de datos NoSQL plataformas de bsqueda, planillas de calculo, sistemas de archivos distribuidos, archivos planos de texto, entre otros. Representa toda aquella informacin transaccional que genera la empresa en su accionar diario, adems, de las fuentes externas con las que puede llegar a disponer. Estas fuentes de informacin, son de caractersticas muy dismiles entre s, en formato, procedencia, funcin, etc.

El rea de ETL: Es la seccin donde se agrupan una serie de sub-procesos que llevan a cabo tareas relacionadas con la extraccin, manipulacin, control, integracin, limpieza de datos, carga y actualizacin del DW. Es decir, todas las tareas que se realizan desde que se toman los datos de las diferentes fuentes hasta que se cargan en el sistema para su utilizacin. En este sub-sistema se mantienen los datos obtenidos en una base de datos temporal que es usada para todos los procesos que ejecutan las tareas antes mencionadas.A continuacin, se detallar cada una de estas etapas, se expondr cul es el proceso que llevan a cabo los ETL y se enumerarn cules son sus principales tareas. Extraccin: Esta fase de extraccin convierte los datos a un formato diseado para el proceso de transformacin, analizando los mismos y rechazndolos si correspondiera. Debe disearse cuidadosamente ya que el volumen de datos puede ocasionar que el sistema operacional tenga una sobrecarga y los usuarios del personal operativo no puedan trabajar, es por ello que esta tarea se programa en horarios de poca o ninguna actividad. Transformacin: transformar los datos usando herramientas ETL significa aplicar funciones a los datos extrados con el fin de convertirlos a un formato til para su carga. A estas funciones tambin se les llama reglas de negocio ya que describe las definiciones de la informacin en la organizacin. Esta transformacin puede incluir manipulaciones sobre las mismas de distintos tipos, tales como juntar columnas o desagregarlas, aplicar funciones de agrupamiento (realizar conteos, sumarizaciones, promedios, etc), generacin de claves, unificacin de mltiples fuentes, transformar valores de los campos, etc. Carga: en este proceso los datos ya transformados de la etapa anterior se cargan en la nueva BD del DW. Dependiendo de cmo se disee esta fase se puede modificar la informacin antigua o agregar solamente los nuevos registros. Existen incluso reglamentaciones legales de esta fase, ya que la modificacin de registros ya existentes no es permitida porque las decisiones gerenciales se basan en las mismas y una modificacin en ellos puede provocar cambios en el rumbo de la organizacin. Hay dos formas de desarrollar este proceso, por acumulacin simple que consiste en realizar funciones de agrupamiento y guardar esos resultados en la BD del DW o realizar un rolling en donde se opta por mantener un cierto nivel de granularidad, manteniendo informacin resumida por niveles jerrquicos en una o ms dimensiones del DW.

El sub-sistema OLAP: Es el ncleo del sistema que corresponde al repositorio central de informacin donde residen los datos actualmente utilizados. En el DW se almacenan los datos operacionales en estructuras multidimensionales que optimizan su acceso para las consultas y que son muy flexibles, adems de contener la metadata de la informacin almacenada que ofrece informacin descriptiva sobre el contexto, la calidad, condicin y caractersticas de los datos. En esta rea se incluye el motor de cubos multidimensional que es el encargado de ejecutar las consultas realizadas por los componentes externos. Cubos OLAP: Los cubos o hipercubos OLAP son estructuras que representan los datos como una matriz en la cual sus ejes corresponden a los criterios de anlisis y en los cruces se encuentran los valores a analizar. Estos cubos constan de dimensiones y medidas. Las dimensiones estn relacionadas con los criterios de anlisis de los datos, son variables independientes, representan los ejes del cubo y estn organizadas en jerarquas. Las medidas son los valores o indicadores a analizar, se corresponden a datos asociados a relaciones entre los objetos del problema, son variables dependientes y se encuentran en la interseccin de las dimensiones.

La Presentacin: Es el rea correspondiente a la interaccin con el usuario, cuya finalidad es mostrar los datos almacenados de forma til y transparente a travs de las distintas herramientas. Este sub-sistema se comunica directamente con el servidor de cubos a travs de consultas, las cuales retornan la informacin requerida donde sta es transformada y presentada para la visualizacin final. Los reportes requeridos en el proyecto se encuentran en esta rea. Por ltimo, en el sub-sistema de administracin se encuentran las herramientas administrativas de la plataforma. Gestin de usuarios, administracin de conexiones de fuentes de datos, herramientas de limpieza de los diferentes cachs y el sistema de archivos interno del DW se encuentran en esta rea.

Metodologa para la construccin de un DW

Existen varias metodologas para la construccin de DW en el mercado actual, cada empresa de software de BI intenta imponer su propia metodologa por el beneficio que implica definir un estndar del mismo, que otros proveedores se vean forzados a usar.Solo analizaremos la Metodologa de Hefesto a grandes rasgos, debido a que el el proximo Practico ondaremas ms en la Metodologa.

Introduccin

HEFESTO es una metodologa propia, cuya propuesta est fundamentada en una muy amplia investigacin, comparacin de metodologas existentes, experiencias propias en procesos de confeccin de almacenes de datos. Cabe destacar que HEFESTO est en continua evolucin, y se han tenido en cuenta, como gran valor agregado, todos los feedbacks que han aportado quienes han utilizado esta metodologa en diversos pases y con diversos fines.La construccin e implementacin de un DW puede adaptarse muy bien a cualquier ciclo de vida de desarrollo de software, con la salvedad de que para algunas fases en particular, las acciones que se han de realizar sern muy diferentes. Lo que se debe tener muy en cuenta, es no entrar en la utilizacin de metodologas que requieran fases extensas de reunin de requerimientos y anlisis, fases de desarrollo monoltico que conlleve demasiado tiempo y fases de despliegue muy largas. Lo que se busca, es entregar una primera implementacin que satisfaga una parte de las necesidades, para demostrar las ventajas del DW y motivar a los usuarios.Descripcin

La metodologa HEFESTO puede resumirse a travs del siguiente grfico:1.- Anlisis de requerimientos: Como se puede apreciar, se comienza recolectando las necesidades de informacin de los usuarios y se obtienen las preguntas claves del negocio. Luego, se deben identificar los indicadores resultantes de los interrogativos y sus respectivas perspectivas de anlisis, mediante las cuales se construir el modelo conceptual de datos del DW.2.- Anlisis de los OLTP: Para determinar cmo se construirn los indicadores, sealar las correspondencias con los datos fuentes y para seleccionar los campos de estudio de cada perspectiva.3.- Modelo Lgico del DW: Una vez hecho esto, se pasar a la construccin del modelo lgico del depsito, en donde se definir cul ser el tipo de esquema que se implementar. Seguidamente, se confeccionarn las tablas de dimensiones y las tablas de hechos, para luego efectuar sus respectivas uniones.4.- Integracin de datos: Por ltimo, utilizando tcnicas de limpieza y calidad de datos, procesos ETL, etc, se definirn polticas y estrategias para la Carga Inicial del DW y su respectiva actualizacin.

Caractersticas

Esta metodologa cuenta con las siguientes caractersticas: Los objetivos y resultados esperados en cada fase se distinguen fcilmente y son sencillos de comprender. Se basa en los requerimientos de los usuarios, por lo cual su estructura es capaz de adaptarse con facilidad y rapidez ante los cambios en el negocio. Reduce la resistencia al cambio, ya que involucra a los usuarios finales en cada etapa para que tome decisiones respecto al comportamiento y funciones del DW. Utiliza modelos conceptuales y lgicos, los cuales son sencillos de interpretar y analizar. Es independiente del tipo de ciclo de vida que se emplee para contener la metodologa. Es independiente de las herramientas que se utilicen para su implementacin. Es independiente de las estructuras fsicas que contengan el DW y de su respectiva distribucin. Cuando se culmina con una fase, los resultados obtenidos se convierten en el punto de partida para llevar a cabo el paso siguiente.

Herramientas para desarrollo de un DW

Pentaho: La plataforma Open Source Pentaho Business Intelligence est basada en tecnologa Java y con un ambiente de implementacin tambin basado en Java lo que la hace una herramienta flexible y adaptable a varios ambientes. La plataforma posee mdulos de reportes, anlisis olap, cuadros de mando (Dashboards), extraccin de datos (Data Mining), integracin de datos (ETL), administracin y seguridad. Posee una interfaz de usuario bastante amigable.Caractersticas Generales: Versin: Pentaho BI Suite Community Edition - 3.5.2 Estable , Junio 2010 Licenciamiento: GPL2, LGPL, MPL (Mozilla Public Licence) Versin Comercial: Pentaho BI Suite Enterprise Edicin (Mayor cantidad de funcionalidades) Componentes Principales: ETL, Job Designer, Conectores, Repositorio Visual, Anlisis OLAP, Metadata, Data Mining, Reporting, Dashboards, BI Platform, Administration Server.

JasperSoft: La plataforma JasperSoft es un conjunto de herramientas que componen un sistema de BI en el cual su caracterstica predominante es ser unificador de datos de distintos orgenes, con capacidades de anlisis de dichos datos de forma interactiva. Basado en tecnologa Java, est formada por herramientas para generar informes, integracin y anlisis de datos, dashboards y herramientas para administracin de la solucin. Posee una interfaz amigable al usuario.Caractersticas Generales: Versin: JasperSoft BI Suite Community - 3.7.0 Estable , Junio 2010 Licenciamiento: GPLv2 Versin Comercial: JasperSoft BI Suite Express Edition, Professional Edition y Enterprise Edition (Mayor cantidad de funcionalidades) Componentes Principales: ETL, Job Designer, Conectores, Repositorio Visual, Anlisis OLAP, Reporting, Dashboards, BI Platform, Administration Server.Tecnologa: J2EE, iReport, Liferay.

SpagoBI: La Plataforma SpagoBI es una plataforma de integracin ya que se construye en torno a un conjunto de herramientas pre existentes. Provee varias funcionalidades tanto en trminos de anlisis y de gestin de datos como tambin de administracin y seguridad.Ofrece soluciones para generacin de informes, anlisis OLAP, minera de datos, tableros de mando, consultas ad-hoc, KPI(Key Performance Indicators), integracin de datos, as como tambin gestin para el control de versiones y la aprobacin de flujos de trabajo de los documentos generados. Permite el uso de varios motores de anlisis de forma concurrente y a su vez posee consolas para monitorizar procesos en tiempo real. Es una solucin completa en trminos de funcionalidades bsicas y totalmente Open Source dado que no posee versiones comerciales.Caractersticas Generales: Versin: SpagoBI Studio - 2.6.0, Junio 2010 Licenciamiento: LGPL (GNU Lesser General Public License) Versin Comercial: No existe, solo se cobra por Soporte a Usuarios, Proyectos y Mantenimientos. Componentes Principales: ETL, Reporting y Ad-Hoc Reporting, Anlisis OLAP, BI Platform, Administration , Charting, Dashboard, Cockpits interactivos, GEO/GIS, Data Mining, Query By example, Smart Filters, Accesible reporting, Consola de monitoreo en tiempo real, Repositorio Visual, SDK integrado, Dossier Analtico .

Conclusion

El DW es una herramiente que una empresa necesita para mejorar su eficiencia en la toma de decisiones y contar con informacin detallada a tal fin. Esto es vital, ya que es muy importante para procurar una mayor ventaja competitiva conocer cules son los factores que inciden directamente sobre su rentabilidad, como as tambin, analizar su relacin con otros factores y sus respectivos por qu. El DW aportar un gran valor a la empresa que permitir a los usuarios tener una visin general del negocio y transformar datos operativos en informacin analtica, enfocada a la toma de decisiones.

Aportes Bibliograficos

Descarga de Pentaho BI Suite Community Edition (CE)http://olex.openlogic.com/packages/pentaho#package_detail_tabsTutorial para instalar Pentaho https://www.youtube.com/watch?v=EvDzuR4cX0khttps://www.youtube.com/watch?v=yLKKHsd0fnETeoria de DataWarehouse[1] http://www.dataprix.com/que-es-un-datawarehouse[2]http://www.stratebi.es/todobi/jun10/Comparativa_OSBI.pdf[4] http://bievolutivo.com/es/documentation/datawarehouse[5] http://www.fing.edu.uy/~asabigue/prgrado/2010dw.pdf[6] http://izquierdas.blogspot.com.ar/[7] http://gravitar.biz/pentaho/[8] http://todobi.blogspot.com.ar/2006/05/pentaho-la-solucion-open-source.html[9] http://www.treikkystem.cl/INGENIERIA%20EN%20TI,BUSSINES%20INTELLIGENT[10] http://www.businessintelligence.info/docs/hefesto-v2.pdf

Pgina 15 de 15