Limpieza de Datos y Selecci n de Atributos

30
Limpieza de los datos Richard Weber Francisco Cisternas ([email protected]) Departamento de Ingeniería Industrial Universidad de Chile

description

nnbn

Transcript of Limpieza de Datos y Selecci n de Atributos

  • Limpieza de los datos

    Richard WeberFrancisco Cisternas

    ([email protected])Departamento de Ingeniera

    IndustrialUniversidad de Chile

  • Limpieza de datos

    Tipos de Datos perdidos (Taxonoma Clsica) [Little and Rubin, 1987]:Missing Completely at Random (MCAR):Los valores perdidos no se relacionan con las

    variables en la base de datosMissing at Random (MAR):Los valores perdidos se relacionan con los valores

    de las otras variables dentro de la base de datos.Not Missing at Random or Nonignorable

    (NMAR):Los valores perdidos dependen del valor de la

    variable.

  • Valores Perdidos: la Historia

    La teora y prctica con valores perdidos:Antes de los 70s y los 70s: Procedimientos

    particulares para cada caso, no existe teora. Ej. eliminacin de casos (case deletion), single imputation (modelos ad-hoc).Los 80s: Algoritmos basados en

    estimaciones de mxima verosimilitud, algoritmo EM.Los 90s: Multiple Imputation, Cadenas de

    Markov (Markov Chain), Monte Carlo, Mtodos Bayesianos.

  • Tcnicas Populares de Imputation

    1. Eliminacin de datos: Eliminacin de Casos (listwise or casewise

    deletion) Eliminacin de pares (o tuplas) de casos

    (pairwise data delection)

    Donde encontrarlo: La mayora de paquetes estadsticos, SAS, SPSS, etc.

    Cuando Ocuparlo MCAR

  • Tcnicas Populares de Imputation

    2. Sustitucin por la media (mediana y moda):1

    2

    a

    ayyy ,,, 21 K

    na yy ,,1 K+

    Observados

    =

    =a

    iiobs ya

    y1

    1Reemplazar con

    Perdidosn

    Antes Despus

    Corrompe la distribucin marginal de Y

  • Tcnicas Populares de Imputation

    2. Sustitucin por la media:Antes Despus

    Corrompe la distribucin marginal de Y Las correlaciones y covarianzas con otras

    variables (incluyendo en target)

  • Tcnicas Populares de Imputation

    3. Simple Hot Deck:

    Reemplaza los valores perdidos con un valor aleatorio obtenido de la distribucin de probabilidades de la variable.

    Preserva la distribucin marginal de la variable.

    Distorsiona las correlaciones y covarianzas.

    Es factible de usar slo para anlisis univariado.

  • Tcnicas Populares de Imputation

    4. Mtodos de Regresin: Reemplazar los valores

    perdidos con un valor obtenido a travs de un modelo de regresin

    yx1

    ayyy ,,, 21 K

    na yy ,,1 K+

    2 Observados

    a

    Perdidosn

    y

    xProblema: Esto aumenta las correlaciones

  • Tcnicas Populares de Imputation

    4. Mtodos de Regresin:

    Mejor idea: Reemplazar los valores perdidos con un valor obtenido a travs de un modelo de regresin ms los residuos de ste

    y

    x

    Se requiere un modelo Se asume que los datos perdidos no dependen

    de los valores de y Es difcil de ocupar cuando se tiene que todos los

    campos presentan valores perdidos.

  • Tcnicas Populares de Imputation

    5. Mtodos de rboles de Decisin: Reemplazar los valores

    perdidos con un valor obtenido a travs de un modelo de rboles de Decisin

    yxr1

    ayyy ,,, 21 K

    na yy ,,1 K+

    2 Observados

    a

    Perdidosn

    Se requiere un modelo Se asume que los datos perdidos no dependen

    de los valores de y Problemas con datos multivariados y categricos

    con ms de dos valores.

  • Tcnicas Populares de Imputation

    5. El Mtodo EM: Propsito del Mtodo: Encontrar la distribucin

    subyacente de los datos de muestreo. Idea General: Si se tienen datos suficientes en un atributo, se pueden lograr

    estimaciones de mxima verosimilitud Si se tiene algo de conocimiento del problema entonces se

    pueden ajustar los parmetros para obtener valores de los datos perdidos ciertos.

  • Tcnicas Populares de Imputation

    5. El Mtodo EM: Como Funciona (sin frmulas):

    1. Darle valores a los parmetros del modelo.2. Repetir este paso hasta alcanzar el resultado

    deseado:a. Paso Expectation (E): Completar los datos dndole

    valores a los valores perdidos (dando por conocido el valor de los parmetros.

    b. Paso Maximitation (M): Calcular los mejores parmetros basados en los datos completos.

    Ejemplo, utilizar la distribucin normal. Tipos de resolucin: Suave Fuerte

  • Tcnicas Populares de Imputation

    6. Multiple Imputation: Est basado en tcnicas de simulacin

    (no estadstica necesariamente) Cmo funciona?: Reemplazar cada una de los valores perdidos

    con m>1 valores simulados. Se analizan cada uno de los m subconjuntos

    de la misma forma. Combinar los resultados obtenidos.

    Por qu usarla? Es altamente eficiente con pocos datos y

    pocas muestras vlidas.

  • Tcnicas Populares de Imputation

    6. Multiple Imputation:

    Donde se le pone talento, en la combinacin de resultados.

    Existen muchas formas de combinarlos.

  • Pro y Contra

    A favor:Nos olvidamos del problema de los valores

    perdidos.No descartamos informacin.

    En contra:La tcnicas Imputation alteran los resultados

    de los modelos.El esfuerzo por encontrar una buena tcnica

    de imputation puede no siempre valer la pena.

  • Software

    Nombre Software

    Mtodo Supuestos Cometarios

    AMELIA Multiple Imputation

    Datos perdidos son aleatorios (MAR)

    Fcil de usar, difcil de aplicar

    SAS Base (e.g., PROC STANDARD)

    Mean substitution

    Data are missing completely at random (MCAR)

    Es fcil de usar si te acostumbras a la interfaz

    SPSS Base Mean substitution

    Data are missing completely at random (MCAR)

    Es fcil de usar pero si los datos perdidos superan el 5% los resultados son malos

    Otros Software, AMOS, MX, NORM, SOLAS.

  • Seleccin de atributos

    Richard WeberFrancisco Cisternas

    ([email protected])Departamento de Ingeniera

    IndustrialUniversidad de Chile

  • PROCESO DE KDD KNOWLEDGE DISCOVERY IN DATABASES

    KDD es el proceso no-trivial de identificar patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles dentro de los datos

  • Seleccin de atributos

    Por qu es importante una buena seleccin de atributos? Reduccin de complejidad del clasificadorMs eficiente: tenemos que recolectar menos

    atributos. Ms efectiva: identificar atributos irrelevantes,

    redundantes y con ruido

  • Clasificacin de tcnicas para la seleccin de atributos

    Filter

    Wrapper

    Embedded methods

  • Filter

    Correlacin entre atributos y variable dependiente

    Relacin entre atributo y variable dependiente Test chi-cuadrado para atributos categricos ANOVA (Analysis of Variance) para atributos

    numricos

  • Test Chi-cuadrado

    Goodness of FitIndependence of two variables Hypotheses concerning proportions

  • Test Chi-cuadrado: Independencia de dos variables

    Tenemos 2 variables categricas Hiptesis: estas variables son

    independienteIndependencia significa: Conocimiento de

    una de las dos variables no afecta la probabilidad de tomar ciertos valores de la otra variable

  • Test Chi-cuadrado: Tabla de contingencia

    Tabla de contingencia: matriz con r filas y k columnas, donde

    r=nmero de valores de variable 1 k=nmero de valores de variable 2

  • Test Chi-cuadrado: Tabla de contingencia

    Ejemplo: Variable 1=Edad, variable 2=sexoGrado de libertad (degree of freedom): df=(r-1)(k-1)

    Idea: Comparar frecuencia esperada con frecuencia observada

    Hiptesis nula: variables son independientes

    SexoEdad masculino femenino Total

    < 30 60 50 110

    >= 30 80 10 90

    Total 140 60 200

    r=2

    k=2

  • Test Chi-cuadrado: Test

    Frecuencia esperada de una celda fe:

    fe = (fr*fk)/ncon: fr = frecuencia total en fila rfk = frecuencia total en columna k Ejemplo: r=k=1; fr=110; fk=140; n=200fe = (110*140)/200=77

    SexoEdad masculino femenino Total

    < 30 60 50 110

    >= 30 80 10 90

    Total 140 60 200

  • Test Chi-cuadrado: Frecuencia esperada

    Frecuencia esperada vs. observada para todas las celdas:

    SexoEdad masculino femenino Total

    < 30 60 50 110

    >= 30 80 10 90

    Total 140 60 20020060140Total

    902763>= 30

    1103377< 30

    Totalfemenino masculino EdadSexo

  • Test Chi-cuadrado

    H0: Edad y sexo son independiente H1: Edad y sexo son dependiente (hay una relacin entre edad

    y sexo) df = 1 = (r-1)*(k-1)

    Valor crtico de chi-cuadrado (df=1, =0,01)=6,63 (ver tabla)

    Chi-cuadrado =

    =27,8 > 6,63 => hay que rechazar H0=>edad y sexo son dependiente

    27633377)2710()6380()3350()7760()( 22222 +++=fe eo ff

  • Wrapper: Clamping

    Clamping: Utiliza la herramienta de seleccin para examinar que atributos son ms relevantes para representar la variable objetivo.

    Ranking de atributos.Mtodo independiente de la herramienta de

    clasificacin.Algunas variantes podran mejorar los

    resultados (principal problema, Miopa)

  • Embedded methods: Decision Trees

    Mtodos embebidos: Existen tcnicas para el anlisis de datos que involucran en su procesamiento la seleccin de atributosEl ejemplo principal: rboles de decisin (ID3,

    C4.5, CART )

    Limpieza de datosValores Perdidos: la HistoriaTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationPro y ContraSoftwarePROCESO DE KDD KNOWLEDGE DISCOVERY IN DATABASESSeleccin de atributosClasificacin de tcnicas para la seleccin de atributosFilterTest Chi-cuadradoTest Chi-cuadrado: Independencia de dos variablesTest Chi-cuadrado: Tabla de contingenciaTest Chi-cuadrado: Tabla de contingenciaTest Chi-cuadrado: TestTest Chi-cuadrado: Frecuencia esperadaTest Chi-cuadradoWrapper: ClampingEmbedded methods: Decision Trees