KNOWLEDGE DISCOVERY IN DATABASES (KDD) DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

28
KNOWLEDGE DISCOVERY IN DATABASES (KDD) DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.

description

KNOWLEDGE DISCOVERY IN DATABASES (KDD) DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS. VIVIANA ACHURY S. ANGIE NATALIA GARCIA S. KDD. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos ( Bajo costo de almacenamiento ). - PowerPoint PPT Presentation

Transcript of KNOWLEDGE DISCOVERY IN DATABASES (KDD) DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Page 1: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

KNOWLEDGE DISCOVERY IN DATABASES (KDD)

DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

VIVIANA ACHURY S.ANGIE NATALIA GARCIA S.

Page 2: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

KDD En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo costo de almacenamiento).

INFORMACIÓN OCULTA El descubrimiento de esta información oculta esposible gracias a la Minería de Datos (DataMining)

Page 3: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

KDDEl valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean.

Page 4: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

LOS DATOS SON LA MATERIA PRIMA BRUTA

INFORMACIÓN¿EN QUE MOMENTO?

Page 5: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Nos referimos al

Conocimiento

Page 6: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS
Page 7: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

4444

KDDEs un proceso de extracción no trivial para identificar patrones que sean validos, novedosos, potencialmente útiles y entendibles, a partir de los datos.

Su objetivo principal es poder llegar a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil para un usuario y satisfacer sus metas.

Page 8: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Con las sentencias SQL se puede realizar un primer análisis, aproximadamente el 80% de la información se obtiene con estas técnicas.

El 20% restante, que la mayoría de las veces, contiene la información más importante, requiere la utilización de técnicasmás avanzadas.

KDD, apunta a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil en ellos, de esta manera permitirá al usuario el uso de esta información valiosa para su conveniencia.

Page 9: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

LAS METAS DEL KDD SON: Procesar automáticamente grandes cantidades

dedatos crudos.

Identificar los patrones más significativos y relevantes.

Presentarlos como conocimiento apropiado parasatisfacer las metas del usuario.

Page 10: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

LAS ETAPAS DEL KDD Determinar las fuentes de información (que pueden ser útiles y dónde conseguirlas) Diseñar el esquema de un almacén de datos(Data Warehouse): que consiga unificar de mane-

ra operativa toda la información recogida. Implantación del almacén de datos: que permita la navegación y visualización Previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados.

Page 11: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Selección, limpieza y transformación de los datos que se van a analizar

Seleccionar y aplicar el método de minería de datos apropiado.

Clasificación, agrupamiento o clustering La selección de él o de los algoritmos a utilizar; Forma de representarlo (árboles de decisión,

reglas, etc.)

Page 12: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Evaluación, interpretación, transformación y representación de los patrones extraídos.

Difusión y uso del nuevo cono-cimiento.

Page 13: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS
Page 14: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

TECNICAS Los algoritmos de aprendizaje son una parteintegral de KDD. las técnicas de aprendizaje dirigidas disfrutan deun rango de éxito definido por la utilidad del descubrimiento del conocimiento. Estos algoritmos de aprendizaje son complejos ygeneralmente considerados como la parte más dificíl de cualquier técnica KDD.

Page 15: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

MÉTODO PROBABILISTICOEsta familia de técnicas KDD utiliza modelos de representación gráfica para comparar las diferentesrepresentaciones del conocimiento.

Estos modelos están basados en las probabilidadese independencias de los datos. Estos son útiles para aplicaciones que involucran incertidumbre y aplicaciones estructuradas tal que una probabilidad puede asignarse a cada uno de los “resultados” o pequeña cantidad del descubrimiento del conocimiento.

Page 16: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Las técnicas probabilísticas pueden usarse en los sistemas de diagnóstico, planeación y sistemas de control.

Las herramientas del probabilidad automatizadas están disponibles en el dominio público y comercial

Page 17: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

MÉTODO ESTADÍSTICOEl método estadístico usa la regla del descubrimiento y se basa en las relaciones de losdatos. El algoritmo de aprendizaje inductivo puede seleccionar automáticamente trayectorias útiles y atributos para construir las reglas de una base dedatos con muchas relaciones.Este tipo de inducción es usado para generalizar los modelos en los datos y construir las reglas de los modelos nombrados.

Page 18: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

El proceso analítico en línea (OLAP) es un ejemplode un método orientado a la estadística. Lasherramientas estadísticamente automatizadas están disponibles en el dominio público y comercial.Un ejemplo de una aplicación estadística es determinando que todas las transacciones en una base de datos de ventas que empiezan con una transacción de código especificada son las ventasen efectivo. El sistema notaría que todas las transacciones en la base de datos que sólo el 60%son las ventas en efectivo. Por consiguiente, el sistemapodrá concluir con precisión que el 40% son artículosfuera de serie.

Page 19: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Método de clasificaciónLa clasificación es probablemente el método másantiguo y mayormente usado de todos los métodosde KDD.Este método agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación de técnicas y numerosas herramientasdisponible que son automatizadas.

Page 20: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

MÉTODO BAYESIANEl método Bayesian de KDD es un modelo gráfico que usa directamente los arcos exclusivamente para formar una gráfica acíclica'. Aunque el método Bayesian usa los medios probabilísticos y gráficos de representación,también es considerado un tipo de clasificación.

Page 21: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Se usan muy frecuentementelas las redes de Bayesian cuando la incertidumbre se asocia con unresultado puede expresarse en términos de una probabilidad. Este método cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnóstico. Otras aplicaciones de reconocimiento de patrones, incluyendo el ModeloMarkov Oculto, puede ser modelado usando un método de Bayesian. Las herramientas automatizadas están disponiblesen el dominio público y comercial.

Page 22: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

EL DESCUBRIMIENTO DE PATRONES Y DE DATOSEste es otro tipo de clasificación que sistemáticamente reduce una base de datos grande a unos cuantos archivos informativos. Si el dato es redundante y poco interesante se elimina, la tarea de descubrir los patrones en los datos se simplifica-da. Este método trabaja en la premisa de un dicho viejo, “menos es más”.

Page 23: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

El descubrimiento de patrones y las técnicas delimpia de datos son útiles para reducir volúmenes Enormes de datos en las aplicaciones, tal como aquéllos encontrados al analizar las grabaciones de un sensor automatizado.

Page 24: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Una vez que las lecturas del sensor se reducen a un tamaño manejable usando la técnica de limpia de datos, pueden reconocerse con más facilidad los patrones de datos. Las herramientas automatizadas que usan estas técnicas están disponibles en el dominio público y comercial.

Page 25: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

EL MÉTODO DEL ÁRBOL DE DECISIÓN

Usa las reglas de producción, construidas como figuras gráficas basado en datos premisos y clasificación de los datos según sus atributos. Este método requiere ese clases de los datos que son discretos y predefinidos. Según, el uso primario de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnicas de regresión. Las herramientas para el análisis de árbol de decisión estándisponibles en el dominio público y comercial.

Page 26: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

LA DESVIACIÓN Y TENDENCIA DEL ANÁLISISEl método de detección por filtrado tiende ser importante como base para este método de KDD. Normalmente las técnicas de análisis y desviación son aplicadas temporalmente en las bases de datos

Una buena aplicación para este tipo de KDD es el análisis de tráfico en las grandes redes de telecomunicaciones.

Page 27: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

OTROS MÉTODOSLas redes neuronales podrán usarse como métododel descubrimiento del conocimiento. Las redes neuronales son particularmente útiles para el reconocimiento de patrones y algunas veces se agrupa con los métodos de clasificación. Hay herramientas disponible en el dominio público y comercial. Los algoritmos genéticos, también usados para la clasificación, son similares a las redes neuronales aunque estas son consideradas más poderosos. Hay herramientas comerciales disponibles para el método genético.

Page 28: KNOWLEDGE DISCOVERY IN DATABASES (KDD)  DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

EL MÉTODO HÍBRIDOUn método híbrido para KDD combina más de un método y también es llamado método multi-paradigmático. Aunque la implementación puede ser más difícil, las herramientas híbridas son capaces de combinar la potencia de varios métodos. Algunos delos métodos comunmente usados combinan técnicas de visualización, inducción, redes neuronales y los sistemas basados en reglas para llevar a cabo el descubrimiento de conocimiento deseado. También se han usado bases de datos deductivas y algoritmos genéticos enlos métodos híbridos. Hay herramientas híbridas disponible comercialmente y en el dominio público.