Discriminación entre grupos -...

Post on 24-Sep-2018

239 views 0 download

Transcript of Discriminación entre grupos -...

Discriminación entre grupos

Discriminación entre grupos

• ¿Son los grupos significativamente diferentes?

Multivariate Analysis of Variance (MANOVA)Multi-Response Permutation Procedures (MRPP)Analysis of Group Similarities (ANOSIM)Mantel’s Test (MANTEL)

¿Cómo diferenciar los grupos? ¿Cuáles variables distinguen mejor a los grupos?

Análisis Discriminante (AD)Classification and Regression Trees (CART)Regresión logística (RL)Análisis de especies indicadora (ISA)

En un estudio del estadístico y genetista Sir Ronald

A. Fisher

se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa, iris versicolor e iris virginica.

En este problema encontramos que hay tres grupos, lo que dificulta la utilización del método de Fisher. Tendremos que combinar dos reglas para clasificar la especie de nuevos ejemplares de lirios

Ejemplo 1:

Ejemplo 2. esclerosis múltiple:

Características importantes del análisis discriminante

Opera sobre conjuntos de datos para los cuales hay grupos datos predefinidos

Se evalúan relaciones dependientes entre un conjunto de variables discriminantes y una variable agrupadora para intentar definir la relación entre variables independientes y dependientes.

Predice la pertenencia de grupo en muestras futuras, muestras de grupos desconocidos sobre la base de las características de clasificación.

Características importantes del análisis discriminante

Extrae gradientes subyacentes dominantes de variación (funciones canónicas) entre grupos de entidades muestreales

(ej, especies, sitios, observaciones) de una cjto

de observaciones multivariadas, tal que la variación entre grupos es maximizada y variación dentro grupos es minimizada a lo largo del gradiente.

Reduce la dimensionalidad de cjto

de datos multivariados

de las variables originales en un cjto

menor de dimensiones compuestas (funciones canónicas) con mínima pérdida de información.

Analogía con regresión y ANAVA

Extensión de regresión:

Una combinación lineal de medidas de dos o más variables independientes (y usualmente continuas) que se utiliza para describir o predecir el comportamiento de una variable dependiente categórica simple.

la situación de investigación define las categorías de grupo como dependientes sobre las variables discriminantes.

Las muestras representan una muestra aleatoria simple (N) de una

mezcla de dos o más poblaciones distintivas (por ej, grupos).

Una muestra simple es graficada en la cual el miembro grupal es desconocido a priori al muestrear.

Analogía con regresión y ANAVA

Extensión ANAVA:

La variable independiente es categórica y define a los miembros del grupo (típicamente controlado por el diseño experimental) y poblaciones (por ej., grupos) son comparados al vector de medidas de dos o más variables dependientes (y usualmente continuas).

Cada situación de investigación define las variables discriminantes que dependen de los grupos.

Las muestras representan muestras aleatorias separadas independientes (N1, N2, ..., NG) de dos o más poblaciones distintivas (por ej, grupos).

Cada miembro grupal es “conocido” a priori al muestrear y las muestras están graficadas para cada población separadamente.

Análisis canónico de discriminación (ACD)

ACD testea y describe las relaciones entre dos o más grupos de entidades basadas sobre un cjto

de dos o más variables discriminativas

(identificar los bordes entre grupos de entidades).

ACD involucra derivar combinaciones lineales (funciones canónicas) de dos o más variables discrminativas

que discriminen mejor entre los grupos definidos a priori (maximizar el cociente F).

Cada entidad de muestreo tiene una puntuación canónica compuesta sobre cada eje y los centroides

grupales que indican la mayor localización típica de cada entidad de un grupo particular.

Se espera la separación significativa de grupos y maximizar la interpretación ecológica de los ejes..

Análisis discriminante

El proceso analítico

• Conjunto de datos

• Supuestos

• Requerimientos de tamaño de la muestra

• derivación de las funciones canónicas

Evaluación de la importancia de las funciones canónicas.

• Interpretación de las funciones canónicas.

• Validación de las funciones canónicas.

Análisis discriminante: cjto de los datos

Una variable agrupadora categórica y dos o más variables discriminantes de conteo y /o categóricas, contínuas.

Variables de conteo, categóricas, contínua

(preferentemente todas contínuas).

•Grupos de muestras deberían ser mutuamente excluyentes.

• Sin datos perdidos.

• Tamaño muestreal

grupal necesita ser el mismo.

Mínimo de dos muestras por grupo y al menos dos o más muestras que la cantidad de variables.

Datos ecológicos en dos vías: Especies por ambiente

Presencia/ausencia de especies por ambiente.

Comportamiento por ambiente

estado de vida/sexo por ambiente/comportamiento

grupos de suelo por ambiente.

Demos de cría por morfología.

Análisis discriminante: Conjunto de datos

Clasificación en Discriminante

Métodos Paramétricos:Criterio de validación cuando cada grupo es normal multivariado

Fisher’s linear discriminant functions: Deriva una combinación lineal de las variables originales para cada grupo y clasifica la muestra en un grupo con mayor puntuación.

Distancia Mahalanobis (Quadratic discriminant analysis): Medida de distancia en un espacio multidimensional de cada entidad a cada grupo de centroide

y clasifica cada entidad en el grupo más “cerrado”.

distancia Canonica: Computa las puntuaciones para cada entidad primero y luego clasifica cda

entidad dentro del grupo con más cerrado puntuación canónica (centroide).

Visión geométrica del análisis discriminante

Los ejes canónicos son derivados para maximizar la separación de los tres grupos.

Análisis discriminante

Dos lados del mismo punto

Provee un test

(MANAVA) de diferencias grupales y simultáneamente describe como los grupos difieren, esto es, cuales variables mejor cuantifican las diferencias grupales.

Análisis canónico de discriminación:

ClasíficaciónProvee una clasificación de muestras en grupos, la cual vuelve a describir como está

bien clasificado el miembro del grupo y pueda ser predicho. La función de clasificación puede ser usada para predecir miembros grupales de muestras adicionales para la cual el miembro del grupo es desconocido.

ENFOQUE DE FISHER: encontrar una buena función discriminante que sea una combinación lineal de las variables originales. Cuando aplicamos la función a un dato nuevo nos dice a que grupo pertenece.

Geométricamente: Se busca una buena dirección sobre la que proyectar los datos de los grupos conocidos y de los quequeremos clasificar. Se clasifica en función de qué

grupo está

más cerca en esa dirección.

Una buena dirección tiene que:─

Separar bien las medias─

Teniendo en cuenta la variabilidadEl nuevo dato se clasifica dentro del grupo con la media más próximaen la proyección

Buscamos una buena función/combinación lineal de las variablesoriginales/dirección sobre la que proyectar los datos:f(x)=a1x1+…+apxpal proyectar los datos

REGLA DE FISHER para Dos grupos con matrices de covarianzas

iguales

(Σ1=Σ2)

Maximizar la variabilidad entre grupos

Minimizar la variabilidad dentro del grupo

Encontrar la solución a

Función canónica discriminante

Ejemplo de esclerosis múltiple:

Regla de clasificación: clasificamos a xo

como individuo sano si:

Función canónica discriminante

Ejemplo: esclerosis múltiple

Puntuación canónica discriminante

Ejemplo: esclerosis múltiple

Ejemplo: esclerosis múltiple

¿Cómo evaluar si la clasificación es buena?La clasificación será buena si:1. Aplicamos una buena regla2. Las variables son buenas, separan claramente a los individuos

de los distintos grupos

El método de clasificación de FISHER es ÓPTIMO cuando:1. La distribución de los datos es NORMAL2. Las matrices de covarianzas

son iguales en los dos grupos

Diremos que una REGLA DE CLASIFICACIÓN es ÓPTIMA cuando comete el menor número de errores posibles en la clasificación

Tasa de error aparente: Se aplica la regla para clasificar todos los datos de la muestra de entrenamiento y se cuentan los casos en los que la clasificación es errónea.Tasa de error aparente = Datos mal clasificados/ Tamaño de la muestra

Con la muestra de entrenamiento hemos construido la regla de clasificación y ahora comprobamos cuantos datos de la muestra de entrenamiento se clasifican mal.

El 95,7% de los SANOS (PACIENTE=0) se clasifica correctamente, 66 de 69El 75,9% de los ENFERMOS (PACIENTE=1) se clasifican correctamente, 22 de 29Tasa de error aparente = (3+7) / 98 = 10 2%

Tasa de frecuencia relativa de error: Se divide la muestra deentrenamiento en dos partes, con una se construye la regla y con

laotra se calcula la tasa como la proporción de estos datos que estánmal clasificados (no la calcula el SPSS).Se pierde mucha información en el cálculo de la regla. Es INEFICIENTETasa de error por validación cruzada (jackknife): Se lleva alextremo la idea de la tasa de frecuencia relativa de error.Dato a dato:1. Se excluye el dato2. Se construye la regla con los restantes3. Se clasifica el que hemos dejado fueraLa probabilidad de error se estima como la proporción de veces queal excluir un dato, éste se clasifica mal.Es menos optimista que la tasa de error aparente y más eficiente quela tasa de frecuencia relativa de error.

Tasa de error aparente = (3+7) / 98 = 10,2%Tasa de error por validación cruzada = (5+8) / 98 = 13 26%

AD: supuestos

Uso descriptivo de AD no requiere supuestos. Sin embargo, la eficacia de AD depende sobre que bien ciertos supuestos.

• Uso inferencial

de AD requiere de supuestos: Evidencia de que algunos de aquellos supuestos pueden ser

violados sin grandes cambios en los correctos resultados de clasificación.

Cuanto más grande es el tamaño muestreal

más robusto el análisis de los supuestos.

AD: supuestos

1. Matrices de igualdad de varianza/covarianza

(homogeneidad)

El AD asume que los grupos tienen igual dispersión (por ej., la estructura dentro del grupo de varianza/covarianza

es la misma para todos los grupos.

Varianzas de las variables discriminantes debería ser la misma en las poblaciones respectivas.

Consecuencias de las distribuciones multivariadas no normales (asociada a heterogeneidad de varianzas)

•Tests

de significancia

inválidos

Distorsiona las probabilidades a posteriori de miembro grupal (no necesariamente minimiza la cantidad de mal clasificados).

EN múltiple CAD, segundo y subsecuente

ejes canónicos no son estrictamente independientes (ortogonal). Las últimas funciones canónicas ( asociadas con eigenvalues

más pequeños) a menudo se parecerán a las funciones anteriores pero con cargas canónicas más pequeñas.

AD: supuestos

AD: supuestos

Diagnosis multicolinealidad

correlaciones de a pares

DA es afectada por multicolinealidad, que se refiere a dependencias múltiples lineales (altas correlaciones) entre variables del cjto

de datos.

•Luego de calcular todas las correlaciones de a pares los valores

r>0.7 sugieren potenciales problemas de multicolinealidad

y es necesario extraer una del par de variables.

Linealidad

Variables cambian linealmente a lo largo de gradientes subyacentes y sus relaciones se combinan en una forma lineal para crear las funciones canónicas.

AD: supuestos

Patrones no lineales reales no serán detectados a menos que se hagan transformaciones no lineales que pueden ser aplicados al modelo tales que las relaciones tengan una rutina computacional lineal.

Consecuencias de la nolinealidad

AD: supuestos

Diagnosis de linealidad

diagramas de dispersión de variables discrminantes.

•Luego diagramas de dispersión de funciones canónicas.

AD: supuestos

AD: consideraciones acerca de tamaño de muestra

Reglas generales

Mínimo de al menos dos o más muestras (filas) que variables (columnas)

• Mínimo de las menos dos muestras (filas) por grupo.

Las muestras para cada grupo deben asegurarse de tal manera que se estimen con precisión las medias y dispersiones.

Cada grupo , n ≥

(3 *P)

Stepwise

Criteria

Wilks’s

Lambda

Derivando las funciones canónicas

El procedimiento de Wilks's

Lambda selecciona la variable a cada paso que minimice el estadístico total Wilks' lamda

dado con un criterio de F.

Wilks Lambda (estadìstico de diferenciación). Lambda se aproxima a cero si dos grupos están bien separados.

Derivación de las funciones canónicas

Eigenvalues y Eigenvectors

Perspectiva geométrica:

Eigenvalues

igual al cociente entre las desviaciones estándar entre y dentro del grupo sobre las variables discriminantes lineales las cuales son definidas como eigenvectors

Supuestos parámetricos

(normalidad multivariada, igualdad de matrices covarianza) y supuesto de linealidad son particulares y si no se cumplen se reduce la efectividad de AD cuando la estructura de los datos grupales es compleja.

Otros procedimientos (por ej. CART) pueden mejorar bajo aquellas condiciones..

Limitaciones del análisis discriminante

Salida de Infostat

Salida de infostat. Archivo IRIS

Salida de infostat. Archivo IRIS