Ce Neval

35
Otoño 2009

description

Datos

Transcript of Ce Neval

  • Otoo 2009

    MC Beatriz Beltrn Martnez

  • Cada vez es ms frecuente el almacn de informacin en bases de datos como en:Data WarehouseEmpresas de MarketingEscuelasGobiernoEsto dificulta la realizacin de anlisis de aspectos relevantes.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • La bsqueda tradicional de datos se realiza mediante anlisis estadsticos.A finales de los 80s la estadstica se ampli a tcnicas como lgica difusa, razonamiento heurstico y redes neuronales.Actualmente, las tcnicas anteriores se aprovechan para generar conocimiento.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • La Minera de Datos es la extraccin automtica de informacin predictiva escondida desde bases de datos.

    La Minera de Datos estudia mtodos y algoritmos que permiten la extraccin automtica de informacin sintetizada que permite caracterizar las relaciones escondidas.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • En las aplicaciones de la Minera de Datos se hace sobre datos previamente recolectados.

    Los datos no cambian mientras estn siendo analizados.

    Por lo que los datos generados son confiables y consistentes para stos datos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • La Minera de Datos y las Bases de Datos comerciales estn disponibles para resolver problemas de decisin de negocios.

    La Minera de Datos es una tecnologa que ayuda a enfocarse en la informacin ms importante en los almacenes de datos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Minera de Datos:

    No es una solucin a negocios.Es slo tecnologa.Encuentra las gemas prdidas en montaas de informacin.Bases de Datos Comerciales:

    Involucra decisiones de informacin.Da decisiones de negocios.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Las Herramientas de la Minera de Datos:Predicen tendencias futuras y comportamientos.Pueden responder a preguntas que consumaran demasiado tiempo para resolverlas.

    La automatizacin, provee herramientas tpicas de soporte de decisin.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Las Herramientas obtienen de las bases de datos patrones escondidos.

    Las Tcnicas de la Minera de Datos pueden ser implementadas rpidamente en software y en las plataformas de hardware existente.

    Las Herramientas de Minera de Datos pueden ser implementadas en plataformas cliente-servidor o computadoras de procesamiento paralelo.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Las Tcnicas de la Minera de Datos son el resultado de un largo proceso de investigacin y desarrollo de productos.La Minera de Datos esta soportada por tres tecnologas que son lo suficientemente maduras:Coleccin masiva de datos.Computadoras con multiprocesamiento.Algoritmos de minera de datos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • En la siguiente tabla se muestra la evolucin del tipo de consultas.Otoo 2009MC Beatriz Beltrn Martnez*

    EvolucinPreguntas de NegociosTecnologas permitidasCaractersticasColeccin de datos (Aos 60)Cuales fueron los ingresos en los ltimos 5 aos?Computadoras, cintas y discos.Liberacin de datos estticos retrospectiva.Acceso a datos.(Aos 80)Que rebajas se tuvieron en Nueva Inglaterra en marzo?Bases de datos relacionales y lenguajes de consulta estructurados (SQL)Nivel de registro en liberacin de datos dinmicos retrospectiva.Data Warehouse y soporte a la toma de decisiones.(Aos 90)Que rebajas se tuvieron en Nueva Inglaterra en marzo? Repetir para Boston.(Procesamiento analtico en lnea, bases de datos multidimensionales y almacenes de datos.Niveles mltiples en liberacin de datos dinmicos retrospectiva.Data Mining (1995)Que es lo ms probable que pase con las rebajas en Boston el prximo mes?Algoritmos avanzados, computadoras con multiprocesador y bases de datos masivas.Liberacin de informacin proactiva prospectiva

    MC Beatriz Beltrn Martnez

  • El componente principal en la Tecnologa de la Minera de Datos ha sido desarrollado en:EstadsticaInteligencia ArtificialMquinas de AprendizajeActualmente, existe gran relevancia en:Ambientes de negocios Las descripciones bsicas de las arquitecturas de almacenes de datos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Las tcnicas para la Minera de Datos son:

    Redes Neuronales Artificiales.rboles de Decisin.Algoritmos Genticos.Modelos Lineales.Vecino ms Cercano.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • La Minera de Datos ha surgido del potencial del anlisis de grandes volmenes de informacin.Su fin es obtener resmenes y conocimiento para la toma de decisiones.Adems se pretende construir experiencia a partir de millones de transacciones.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • El conjunto de datos de donde la minera intenta extraer conocimiento se le llama conjunto de entrenamiento.La meta de la Minera es obtener conocimiento vlido no solo para la base de datos considerada sino para una muy similar.El conocimiento puede ser probado con otro conjunto de entrenamiento.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Algunas de las aplicaciones de la Minera de Datos son:Compaias Farmaceuticas.Compaias de crdito.Compaias de transporte.Compaias de consumo.Reacciones qumicas.Comercio, monitoreo.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Facilidad con que se puede caer en una falsa interpretacin.

    Es fcil equivocarse.

    Tiempo y espacio.

    PrivacidadOtoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Otoo 2009MC Beatriz Beltrn Martnez*BDDatosSeleccinPreprocesadoSeleccin de caractersticasExtraccin de conocimientoEvaluacinModeloclasificadorConocimiento

    MC Beatriz Beltrn Martnez

  • Algoritmos de aprendizaje:Mediante una tcnica de Minera de Datos, se obtiene un modelo de conocimiento.El modelo representa patrones de comportamiento observados en los valores de las variables o relaciones de asociacin.Tambin pueden usarse tcnicas para generar distintos modelos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Los mtodos no supervisados, descubren:patrones y tendencias en los datos actuales.El descubrimiento de esa informacin sirve para llevar a cabo acciones y obtener un beneficio de ellas. Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Otoo 2009MC Beatriz Beltrn Martnez*Data MiningVerification Driven DMDiscovery Driven DMSQLSQL GeneratorDescriptionPredictionQuery ToolsOLAPVisualizationClusteringAssociationSecuential AssociationDistillationClasificationStatisticalRegressionDecision TreeRule InductionNeural Network

    MC Beatriz Beltrn Martnez

  • Agrupamiento.Tambin se llama segmentacin.Identifica tipologas de grupos, donde se guarda similitud.Se requiere informacin sobre el colectivo a segmentar.La informacin corresponde a valores concretos.Se basan en herramientas de carcter estadsticos, generacin de reglas, redes neuronales,etc.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Mtodos estadsticos.Tcnica tradicional en el tratamiento de grandes volmenes de datos.Existen varios modelos:ANOVA (Anlisis de Varianza). Contrasta con variables continuas.Ji cuadrado. Contrasta con la independencia de variables.Componentes principales. Permite reducir el nmero de variables.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Mtodos estadsticos.Anlisis de clsters. Permite clasificar poblaciones.Anlisis de discrimante. Permite encontrar reglas de clasificacin de elementos en grupos.Regresin lineal. Se identifica una variable dependiente de las independientes, con una relacin lineal.Regresin logstica. Trabaja con variables discretas, se requiere que las variables sean lineales.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • rboles de decisin.Herramientas analticas empleadas para el descubrimiento de reglas y relaciones.Se construye partiendo el conjuntos de dos (CART) o ms (CHAID).Cada subconjunto a su vez es particionado.Se continua hasta no encontrar diferencias significativas de influencia.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Reglas de asociacin.Derivan de un tipo de anlisis que extrae informacin por coincidencias.Permite descubrir correlaciones o co-ocurrencias en los sucesos de la base de datos.Se formaliza la obtencin de reglas del tipo SI... ENTONCES.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Redes neuronales.Son capaces de detectar y aprender patrones y caractersticas de los datos.Una vez adiestradas las redes pueden hacer previsiones, clasificaciones y segmentacin.Esto se realiza estructurando nivels o capas.Se tienen dos tipos de aprendizaje: supervisado y no supervisado.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Algortmos genticos.Hacen uso de tcnicas de reproduccin (mutacin y cruce) para ser utilizadas para bsqueda y optimizacin.Se parte de una poblacin inicial, y se altera optimizndola.Esta herramienta se usa en las primeras fases de la minera y despus se aplica redes neuronales o regresin logstica.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Lgica difusa.Surge de la necesidad de modelar la realidad de forma mas exacta, evitando el determinismo y exactitud.Permite el tratamiento probabilstico de categorizacin colectiva.Trata la existencia de barreras difusas o suaves entre grupos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Series temporales.Consisten en el estudio de una variable a travs del tiempo para que partiendo de ese conocimiento y con el supuesto de no cambios poder realizar predicciones.Se basan en ciclos, tendencias y estaciones.Se puede aplicar enfoques hbridos entre mtodos anteriores, o con otro tipo de variables.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Redes bayesianas.Son una alternativa para la minera.Se tiene las ventajas:Permiten aprender sobre relaciones de dependencia y causalidad.Permiten combinar conocimiento de datos.Evitan el sobre-ajuste de datos.Permiten el manejo de bases de datos incompletas.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Induccin de reglas.Como informacin de entrada, se tiene un conjunto de casos donde se ha asociado una clasificacin o evaluacin.Con tal informacin se obtiene un rbol de decisin, que soportan la evaluacin o clasificacin.En caso de que la entrada tenga ruido, esta tcnica se puede habilitar con mtodos estadsticos.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Sistemas basados en conocimiento y sistemas expertos.Permiten la formalizacin de rboles y reglas de decisin, extradas del conocimiento de expertos.Poseen motores de inferencia, que gestionan las preguntas.De esta forma el proceso de decisin es eficiente y rpido.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Seleccin de tcnicas adecuadas.El mnimo aceptable para elegir una tecnologa de MD y un producto depende de qu tanto el producto beneficia al negocio:Ingresos.Costos disminuidos.Rendimiento de inversiones.Para desarrollar con xito un negocio, el MD debe buscar algo ms que patrones deseados.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez

  • Se tienen tres medidas claves, para una evaluacin de las herramientas.Precisin: Se deben modelos precisos, pero reconociendo pequeas diferencias en las tcnicas.Explicacin: Las herramientas deben explicar al usuario final de manera clara como funciona el modelo.Integracin: Las herramientas deben integrarse en el proceso real del negocio, flujos de datos e informacin de la empresa.Otoo 2009MC Beatriz Beltrn Martnez*

    MC Beatriz Beltrn Martnez