Data Mining and Data Warehouse
-
Upload
fabian-flores -
Category
Documents
-
view
47 -
download
0
Transcript of Data Mining and Data Warehouse
-
5/20/2018 Data Mining and Data Warehouse
1/28
Objetivo Conceptualizar el entorno de la informacin
empresarial, aplicada en la gestin de la toma dedecisiones a travs de almacenes de datos y laminera de los mismos para una inteligencia delnegocio.
Alcances Reconocer las principales caractersticas de los sistemas de informacin
ejecutiva. Explicar el concepto y los principales beneficios del datawarehousing. Explicar el concepto y los principales beneficios del datamining. Explicar los fundamentos de la tecnologa de informacin de la
inteligencia de negocios. Analizar los procesos de negocios de una organizacin, para ofrecer
alternativas ptimas de explotacin de los datos.
-
5/20/2018 Data Mining and Data Warehouse
2/28
BibliografaTIPO
TTULO
AUTOR
EDITORIAL
AO
LibroE-data convertir datos eninformacin con
datawarehousing
Dyche, Jill Pearson 2000
LibroThe data warehouseLifecycle Toolkit (2ndEdition)
Kimball, RalphWiley 2002
Reeves, Laura
Libro
Datamining concepts andtechniques
Han Jiawei;Kamber,Micheline
MorganKaufmannPublishers
2001
LibroIntelligent Systems
Reference Library,Volume12
FlorinGorunescu Spinger 2011
-
5/20/2018 Data Mining and Data Warehouse
3/28
Temario parte 1 Qu es el data warehouse?
o Hacia dnde se dirigen los datos?o Sistemas de informacin ejecutivao Concepto data warehouseo Concepto data marto Data warehouse empresarialo El data warehouse como herramienta
Planeacin y administracin del proyecto de data warehouseo Planeacin del ciclo de vida del proyectoo Diseo y anlisiso Modelo de implementacin
Herramientas de optimizacin de un data warehouseo ndiceso Particin de datoso Agregados y vistas materializadaso
Optimizacin de joins Anlisis dimensional y tablas de hechos
o Definicin del modelo dimensionalo Tablas de hechos y tablas de dimensioneso Construccin de modelos dimensionaleso Llaves artificiales
-
5/20/2018 Data Mining and Data Warehouse
4/28
Temario parte 2 Proceso ETL
o Staging de datoso Planeacino Carga de tablas de dimensioneso Carga de tabla de hechoso Oracle Enterprise Manager Data Management Load
Funciones SQL de Oracle para Data Warehouseo Funciones para agregacino Funciones SQL para clculos analticoso Expresiones CASE y WITHo Aplicaciones OLAP
Qu es la minera de datos?o Definicin del concepto minera de datoso Extraccin y descubrimientoo Antologa como modeloso Bases cientficaso Metodologas de minera de datos
Pilares de la organizacin de la minera de datoso La tecnologa de informacin de la inteligencia de negocioso Herramientas de inteligencia de negocioso Aplicaciones de inteligencia de negocioso Plataformas de procesamientoo Filosofa de la inteligencia de negocios
Los datos en la minera de datoso Metadatao Representacin: cuantificacin y cdigoso Extraccin de caractersticas y mejoraso Calidad de los datoso Relevancia e independencia de las caractersticaso La preparacin de los datoso Seleccin de caractersticaso Demografa y comportamiento de los datos de los clientes
-
5/20/2018 Data Mining and Data Warehouse
5/28
Examen Diagnostico Qu es una base de datos? Qu es un sistema de gestin de bases de datos? Qu significan las siglas SQL? Qu es SQL? Qu es una llave y cuantos tipos de llaves existen en el
contexto de bases de datos? Qu es el modelo entidad relacin? Qu es una base de datos transaccional?
Cules son las instrucciones principales del lenguaje demanipulacin de datos? Cul es la sintaxis bsica para realizar consultas en el
lenguaje SQL ?
-
5/20/2018 Data Mining and Data Warehouse
6/28
Introduccion
-
5/20/2018 Data Mining and Data Warehouse
7/28
Sistemas de informacinejecutiva
Es una herramienta software, basada en un DSS,que provee a los gerentes de un acceso sencillo ainformacin interna y externa de su compaa, yque es relevante para sus factores clave de xito.
La finalidad principal es que el ejecutivo tenga a sudisposicin un panorama completo del estado delos indicadores de negocio que le afectan alinstante, manteniendo tambin la posibilidad de
analizar con detalle aquellos que no estncumpliendo con las expectativas establecidas,para determinar el plan de accin ms adecuado.
-
5/20/2018 Data Mining and Data Warehouse
8/28
Que es el datawarehouse?
Un Datawarehousees una base de datos corporativa que se caracteriza porintegrar y depurar informacin de una o ms fuentes distintas, para luegoprocesarla permitiendo su anlisis desde infinidad de perspectivas y congrandes velocidades de respuesta. Y Se caracteriza por ser :
Integrado
Temtico
Histrico
No voltil
Otra caracterstica del datawarehouse es que contiene metadatos, esdecir, datos sobre los datos. Los cuales apoyan a:
Dar soporte al usuario final, ayudndole a acceder al
datawarehouse con su propio lenguaje de negocio. Dar soporte a los responsables tcnicos del datawarehouse en
aspectos de auditora
-
5/20/2018 Data Mining and Data Warehouse
9/28
Ventajas de DWH Alto retorno de inversion
Ventaja competitivas
Mayor productividad de los responsables de la
toma de decisiones
-
5/20/2018 Data Mining and Data Warehouse
10/28
OLTP VS DWHOLTP Almacenes de datos
Almacenan datos actuales Almacenan datos histricos
Almacenan datos detallados Almacenan datos resumidos
Los datos son dinmicos Los datos principalmente son estticos
Procesamiento repetitivo Procesamiento ad-hoc, noestructurado y heurstico
Alta tasa de transacciones Tasa media o baja de transacciones
Patron de uso predecible Patron de uso impredecible
Dirigido por transacciones Dirigido por analisis
Orientado a la aplicacin Orientado a temas
Soporta las decisiones cotidianas Soporta las decisiones estrategicas
Sirve a un gran numero de usuarios Sirve a usuarios gerenciales ydirectivos
-
5/20/2018 Data Mining and Data Warehouse
11/28
Problemas de losalmacenes de datos
Subestimacin de los recursos necesarios para la cargade datos
Problemas ocultos de los sistemas de origen No se capturan los datos requeridos
Incremento de la demanda por parte de los usuariosfinales Homogeneizacin de datos Alta demanda de recursos Propiedad de los datos Altos costos de mantenimiento Proyectos de larga duracin Complejidad de la integracin
-
5/20/2018 Data Mining and Data Warehouse
12/28
Qu es un datamart? Almacena informacin especifica de un rea de
negocio
Dispone de una estructura optima para analizarinformacin
Los datamarts que estn dotados con estasestructuras ptimas de anlisis presentan lassiguientes ventajas:o Poco volumen de datos
o Mayor rapidez de consultao Consultas SQL y/o MDX sencillas
o Validacin directa de la informacin
o Facilidad para la historizacin de los datos
-
5/20/2018 Data Mining and Data Warehouse
13/28
Datawarehouse comoherramienta
Proporciona una herramienta para la toma de decisiones encualquier rea funcional, basndose en informacinintegrada y global del negocio.
Facilita la aplicacin de tcnicas estadsticas de anlisis ymodelizacin para encontrar relaciones ocultas entre losdatos del almacn; obteniendo un valor aadido para elnegocio de dicha informacin.
Proporciona la capacidad de aprender de los datos delpasado y de predecir situaciones futuras en diversosescenarios.
Simplifica dentro de la empresa la implantacin de sistemasde gestin integral de la relacin con el cliente.
Supone una optimizacin tecnolgica y econmica enentornos de Centro de Informacin, estadstica o degeneracin de informes con retornos de la inversinespectaculares.
-
5/20/2018 Data Mining and Data Warehouse
14/28
Ciclo de vida del proyecto
-
5/20/2018 Data Mining and Data Warehouse
15/28
Factores que deben sertomados en cuenta
Objetivo
Costo
Tiempo
Riesgo Calidad
Recursos
Grupos de interes
-
5/20/2018 Data Mining and Data Warehouse
16/28
Planificacion de undatawarehouse
-
5/20/2018 Data Mining and Data Warehouse
17/28
Planificacion de undatawarehouse
Descubriro Analisis y definicion de requerimiento
Diseoo Modelos semanticos: es una representacin de algunas cosas identificables en el ambiente de
trabajo de los usuarios.o Modelos esquematicos
Tercera Forma Normal:o La tabla est en la segunda forma normal (2NF)
una tabla 1NF est en 2NF si y solo si, dada una clave primaria y cualquieratributo que no sea un constituyente de la clave primaria, el atributo no clavedepende de toda la clave primaria en vez de solo de una parte de ella.
o No hay orden de arriba-a-abajo en las filas.o No hay orden de izquierda-a-derecha en las columnas.o No hay filas duplicadas.o Cada interseccin de fila-y-columna contiene exactamente un valor del
dominio aplicable (y nada ms).o Todas las columnas son regulares [es decir, las filas no tienen
componentes como IDs de fila, IDs de objeto, o timestamps ocultos].o Ningn atributo no-primario de la tabla es dependiente transitivamente de una clave
primaria Estrella: las tablas de dimensiones tendrn siempre una clave primaria simple, mientras que
en la tabla de hechos, la clave principal estar compuesta por las claves principales de lastablas dimensionales.
Copo de nieve: Se da cuando alguna de las dimensiones se implementa con ms de unatabla de datos.
-
5/20/2018 Data Mining and Data Warehouse
18/28
Planeacion de un DWH Desarrollo
o Modelar el diseo fisicoo Dimensionar la base de datoso Crear la convencion de nombres de objetoso Estrategias de indexacion
o Desarrollo de esquemas para realizar el ETL (Extraer, Transformar y Cargar) Despliegue
o Su despliegue es gradual hacia varios grupos de usuarioso Se pone la infraestrructurao Se instala el software y se evalua para ponerlo en producciono Los componentes de la pista de datos son desplegadoso Se contruyen las bases de datos del almaceno Lo procesos ETL se ponen en lineao Se ajustan los procesos y necesidadeso Se libera la capa de aplicacin
-
5/20/2018 Data Mining and Data Warehouse
19/28
Planeacion de UN DWH Dia a dia:
o Mantenimiento constante del hardware y software
o Monitoreo constante del rendimiento y crecimiento del sistema
o Validar si funciona completamente y si se encuentra actualizado
o Resolver eventos, incidentes y problemas
o Tener trabajos de respaldo definidos y agendadoso Los respaldos deben de ser verificados y probados en ambientes
especificados para esto
Defender: depende del tiempo de recuperacionnecesario y el punto de recuperacion objetivoo Externas (catastrofes naturales, incendios, inundaciones)
o Internas (ataques, perdidas de archivos, configuraciones, entre otras)
Intencionales
Accidentales
-
5/20/2018 Data Mining and Data Warehouse
20/28
Planeacion de un DWH Disponer fuera de servicio:
o Sin remplazo: ya no se requieren los servicios del DWH
o Corte y cambio: Se tiene un nuevo DWH y se realiza el cambio en un olomovimiento
o Funcin en paralelo: se trabajan el sistema nuevo y el viejo en paralelo
por un tiempo.
-
5/20/2018 Data Mining and Data Warehouse
21/28
Repositorio de metadatos Descripcion de la estructura del data warehouse Datos operacionales:
o Linea de tiempo de las migracioneso Estadisticas del datawarehouseo Actualizacion de la informacin
Algoritmos utilizados para la sumarizacion Mapeo del ambiente operacional:
o Fuentes de informacino Particiones de datoso Reglas de extaccion , limpieza y tranformacion
Desempeo del sistema:o Actualizacioneso Ciclos de replica
Metadatos del negocioo Definiciones y terminos
-
5/20/2018 Data Mining and Data Warehouse
22/28
Modelo dimensional Tabla de hechos
o Medidas numericas
o Define que es lo que deseamos analizar en la relacion de todas lasdimensiones
o Contiene las llaves de cada una de las tablas de dimension
Tablas de dimensioneso Son las perspectivas o entidades con lo cual la organizacin desea llevar
sus registros
o Estas tablas contienen informacin relevante de los atributos de unaentidad
-
5/20/2018 Data Mining and Data Warehouse
23/28
Tipos de modelosdimensionales
Estrellao Una larga tabla de hechos
o Algunas tablas de dimension, una por cada dimension.
Copo de nieveo Las tablas de dimensiones puede tener su propia tabla de dimensiones
Constelacion de hechoo Existen varias tablas de hechos que comparten dimensiones
-
5/20/2018 Data Mining and Data Warehouse
24/28
Algunas definiciones Jerarquia: defines a sequence of mappings from a
set of low-level concepts to higher-level, moregeneral concepts
Metricao Distribuivas as count, min, maxo Algebraicas as sum(), avg, desviacion estandar
o Holisticas: mediana, moda, rango
-
5/20/2018 Data Mining and Data Warehouse
25/28
Operaciones OLAP Rol-up
Drilldown
Slice-dice
Pivote Drillacross
Drill-througth
Top N
Bottom N
-
5/20/2018 Data Mining and Data Warehouse
26/28
Proceso
Seleccin de datos
Transformacin de datos
Minera de datos
Evaluacin de patrones
Presentacin de conocimiento
Limpieza dedatos
Integracin dedatos
-
5/20/2018 Data Mining and Data Warehouse
27/28
-
5/20/2018 Data Mining and Data Warehouse
28/28
MDX SELECT { [Measures].[Sales Amount], [Measures].[Tax
Amount] } ON 0, { [Date].[Fiscal].[FiscalYear].&[2002], [Date].[Fiscal].[Fiscal Year].&[2003] }ON 1 FROM [Adventure Works] WHERE ( [Sales
Territory].[Southwest] )