Limpieza de Datos y Selecci n de Atributos

Limpieza de los datos

Richard WeberFrancisco Cisternas

([email protected])Departamento de Ingeniera

IndustrialUniversidad de Chile

Limpieza de datos

Tipos de Datos perdidos (Taxonoma Clsica) [Little and Rubin, 1987]:Missing Completely at Random (MCAR):Los valores perdidos no se relacionan con las

variables en la base de datosMissing at Random (MAR):Los valores perdidos se relacionan con los valores

de las otras variables dentro de la base de datos.Not Missing at Random or Nonignorable

(NMAR):Los valores perdidos dependen del valor de la

variable.

Valores Perdidos: la Historia

La teora y prctica con valores perdidos:Antes de los 70s y los 70s: Procedimientos

particulares para cada caso, no existe teora. Ej. eliminacin de casos (case deletion), single imputation (modelos ad-hoc).Los 80s: Algoritmos basados en

estimaciones de mxima verosimilitud, algoritmo EM.Los 90s: Multiple Imputation, Cadenas de

Markov (Markov Chain), Monte Carlo, Mtodos Bayesianos.

Tcnicas Populares de Imputation

1. Eliminacin de datos: Eliminacin de Casos (listwise or casewise

deletion) Eliminacin de pares (o tuplas) de casos

(pairwise data delection)

Donde encontrarlo: La mayora de paquetes estadsticos, SAS, SPSS, etc.

Cuando Ocuparlo MCAR


2. Sustitucin por la media (mediana y moda):1

2

a

ayyy ,,, 21 K

na yy ,,1 K+

Observados

=

=a

iiobs ya

y1

1Reemplazar con

Perdidosn

Antes Despus

Corrompe la distribucin marginal de Y


2. Sustitucin por la media:Antes Despus

Corrompe la distribucin marginal de Y Las correlaciones y covarianzas con otras

variables (incluyendo en target)


3. Simple Hot Deck:

Reemplaza los valores perdidos con un valor aleatorio obtenido de la distribucin de probabilidades de la variable.

Preserva la distribucin marginal de la variable.

Distorsiona las correlaciones y covarianzas.

Es factible de usar slo para anlisis univariado.


4. Mtodos de Regresin: Reemplazar los valores

perdidos con un valor obtenido a travs de un modelo de regresin

yx1

ayyy ,,, 21 K

na yy ,,1 K+

2 Observados

a

Perdidosn

y

xProblema: Esto aumenta las correlaciones


4. Mtodos de Regresin:

Mejor idea: Reemplazar los valores perdidos con un valor obtenido a travs de un modelo de regresin ms los residuos de ste

y

x

Se requiere un modelo Se asume que los datos perdidos no dependen

de los valores de y Es difcil de ocupar cuando se tiene que todos los

campos presentan valores perdidos.


5. Mtodos de rboles de Decisin: Reemplazar los valores

perdidos con un valor obtenido a travs de un modelo de rboles de Decisin

yxr1

ayyy ,,, 21 K

na yy ,,1 K+

2 Observados

a

Perdidosn

Se requiere un modelo Se asume que los datos perdidos no dependen

de los valores de y Problemas con datos multivariados y categricos

con ms de dos valores.


5. El Mtodo EM: Propsito del Mtodo: Encontrar la distribucin

subyacente de los datos de muestreo. Idea General: Si se tienen datos suficientes en un atributo, se pueden lograr

estimaciones de mxima verosimilitud Si se tiene algo de conocimiento del problema entonces se

pueden ajustar los parmetros para obtener valores de los datos perdidos ciertos.


5. El Mtodo EM: Como Funciona (sin frmulas):

1. Darle valores a los parmetros del modelo.2. Repetir este paso hasta alcanzar el resultado

deseado:a. Paso Expectation (E): Completar los datos dndole

valores a los valores perdidos (dando por conocido el valor de los parmetros.

b. Paso Maximitation (M): Calcular los mejores parmetros basados en los datos completos.

Ejemplo, utilizar la distribucin normal. Tipos de resolucin: Suave Fuerte


6. Multiple Imputation: Est basado en tcnicas de simulacin

(no estadstica necesariamente) Cmo funciona?: Reemplazar cada una de los valores perdidos

con m>1 valores simulados. Se analizan cada uno de los m subconjuntos

de la misma forma. Combinar los resultados obtenidos.

Por qu usarla? Es altamente eficiente con pocos datos y

pocas muestras vlidas.


6. Multiple Imputation:

Donde se le pone talento, en la combinacin de resultados.

Existen muchas formas de combinarlos.

Pro y Contra

A favor:Nos olvidamos del problema de los valores

perdidos.No descartamos informacin.

En contra:La tcnicas Imputation alteran los resultados

de los modelos.El esfuerzo por encontrar una buena tcnica

de imputation puede no siempre valer la pena.

Software

Nombre Software

Mtodo Supuestos Cometarios

AMELIA Multiple Imputation

Datos perdidos son aleatorios (MAR)

Fcil de usar, difcil de aplicar

SAS Base (e.g., PROC STANDARD)

Mean substitution

Data are missing completely at random (MCAR)

Es fcil de usar si te acostumbras a la interfaz

SPSS Base Mean substitution

Data are missing completely at random (MCAR)

Es fcil de usar pero si los datos perdidos superan el 5% los resultados son malos

Otros Software, AMOS, MX, NORM, SOLAS.

Seleccin de atributos

Richard WeberFrancisco Cisternas

([email protected])Departamento de Ingeniera

IndustrialUniversidad de Chile

PROCESO DE KDD KNOWLEDGE DISCOVERY IN DATABASES

KDD es el proceso no-trivial de identificar patrones previamente desconocidos, vlidos, nuevos, potencialmente tiles y comprensibles dentro de los datos

Seleccin de atributos

Por qu es importante una buena seleccin de atributos? Reduccin de complejidad del clasificadorMs eficiente: tenemos que recolectar menos

atributos. Ms efectiva: identificar atributos irrelevantes,

redundantes y con ruido

Clasificacin de tcnicas para la seleccin de atributos

Filter

Wrapper

Embedded methods

Filter

Correlacin entre atributos y variable dependiente

Relacin entre atributo y variable dependiente Test chi-cuadrado para atributos categricos ANOVA (Analysis of Variance) para atributos

numricos

Test Chi-cuadrado

Goodness of FitIndependence of two variables Hypotheses concerning proportions

Test Chi-cuadrado: Independencia de dos variables

Tenemos 2 variables categricas Hiptesis: estas variables son

independienteIndependencia significa: Conocimiento de

una de las dos variables no afecta la probabilidad de tomar ciertos valores de la otra variable

Test Chi-cuadrado: Tabla de contingencia

Tabla de contingencia: matriz con r filas y k columnas, donde

r=nmero de valores de variable 1 k=nmero de valores de variable 2

Test Chi-cuadrado: Tabla de contingencia

Ejemplo: Variable 1=Edad, variable 2=sexoGrado de libertad (degree of freedom): df=(r-1)(k-1)

Idea: Comparar frecuencia esperada con frecuencia observada

Hiptesis nula: variables son independientes

SexoEdad masculino femenino Total

< 30 60 50 110

>= 30 80 10 90

Total 140 60 200

r=2

k=2

Test Chi-cuadrado: Test

Frecuencia esperada de una celda fe:

fe = (fr*fk)/ncon: fr = frecuencia total en fila rfk = frecuencia total en columna k Ejemplo: r=k=1; fr=110; fk=140; n=200fe = (110*140)/200=77


< 30 60 50 110

>= 30 80 10 90

Total 140 60 200

Test Chi-cuadrado: Frecuencia esperada

Frecuencia esperada vs. observada para todas las celdas:


< 30 60 50 110

>= 30 80 10 90

Total 140 60 20020060140Total

902763>= 30

1103377< 30

Totalfemenino masculino EdadSexo

Test Chi-cuadrado

H0: Edad y sexo son independiente H1: Edad y sexo son dependiente (hay una relacin entre edad

y sexo) df = 1 = (r-1)*(k-1)

Valor crtico de chi-cuadrado (df=1, =0,01)=6,63 (ver tabla)

Chi-cuadrado =

=27,8 > 6,63 => hay que rechazar H0=>edad y sexo son dependiente

27633377)2710()6380()3350()7760()( 22222 +++=fe eo ff

Wrapper: Clamping

Clamping: Utiliza la herramienta de seleccin para examinar que atributos son ms relevantes para representar la variable objetivo.

Ranking de atributos.Mtodo independiente de la herramienta de

clasificacin.Algunas variantes podran mejorar los

resultados (principal problema, Miopa)

Embedded methods: Decision Trees

Mtodos embebidos: Existen tcnicas para el anlisis de datos que involucran en su procesamiento la seleccin de atributosEl ejemplo principal: rboles de decisin (ID3,

C4.5, CART )

Limpieza de datosValores Perdidos: la HistoriaTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationTcnicas Populares de ImputationPro y ContraSoftwarePROCESO DE KDD KNOWLEDGE DISCOVERY IN DATABASESSeleccin de atributosClasificacin de tcnicas para la seleccin de atributosFilterTest Chi-cuadradoTest Chi-cuadrado: Independencia de dos variablesTest Chi-cuadrado: Tabla de contingenciaTest Chi-cuadrado: Tabla de contingenciaTest Chi-cuadrado: TestTest Chi-cuadrado: Frecuencia esperadaTest Chi-cuadradoWrapper: ClampingEmbedded methods: Decision Trees

Limpieza de Datos y Selecci n de Atributos

Documents

Transcript of Limpieza de Datos y Selecci n de Atributos