MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES · models de captaciÓ, anÀlisi i...

92
MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 4 – PART 1: MODELS DE RESPOSTA BINÀRIA AUTORA: Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.5 Novembre del 2.012

Transcript of MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES · models de captaciÓ, anÀlisi i...

MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE

DADES

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT

MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA

APUNTS DE CLASSE PROF. LÍDIA MONTERO:

TEMA 4 – PART 1: MODELS DE RESPOSTA BINÀRIA

AUTORA:

Lídia Montero Mercadé

Departament d’Estadística i Investigació Operativa

Versió 1.5

Novembre del 2.012

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-2 Curs 2.012-2.013

TEMA 4-1: TABLA DE CONTENIDOS

4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL __________________________________________________________ 3

4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES ___________________________________________________________________ 10

4-1-2.1 FUNCIONES DE LINK ___________________________________________________________________________________________________ 11 4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS ___________________________________________________________________ 19

4-1-3.1 MEDIDAS DE BONDAD DEL MODELO ______________________________________________________________________________________ 23 4-1-3.2 DIAGNÓSTICO DEL MODELO ____________________________________________________________________________________________ 34 4-1-4. TEMA 4-1: EJEMPLOS _________________________________________________________________________________________________ 38

4-1-4.1 EJEMPLO 1 (DOBSON) _________________________________________________________________________________________________ 38 4-1-4.2 EJEMPLO 2 (FOX) _____________________________________________________________________________________________________ 52 4-1-4.3 EJEMPLO 3: ACCIDENTES MORTALES SEGÚN USO DEL CINTURÓN – AGRESTI (2002) ______________________________________________ 64

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-3 Curs 2.012-2.013

4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

Clasificación de los métodos estadísticos de análisis: Variables Explicativas

Variable de respuesta Binaria Politómica Cuantitativa

Discreta Cuantitativa Continua

Normal Tiempo entre eventos

Binaria Tablas de contingencia

Regresión logística Modelos log-lineales

Tablas de contingencia

* Modelos log-lineales

Modelos log-lineales

Tests en medias de 2 grupos:

t.test

Análisis de la Supervivencia

Politómicas Tablas de contingencia

Regresión logística Modelos log-lineales

Tablas de contingencia

Modelos log-lineales

Modelos log-lineales

ONEWAY, ANOVA

Análisis de la Supervivencia

Continuas Regresión logística * Modelos log-lineales

Regresión Múltiple

Análisis de la Supervivencia

Factores y covariables

Regresión logística * Modelos log-lineales

ANCOVA Análisis de la Supervivencia

Efectos Aleatorios

Modelos mixtos Modelos mixtos Modelos mixtos

Modelos mixtos Modelos mixtos

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-4 Curs 2.012-2.013

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

Estas variables de respuesta suelen aparecer cuando se investiga si un individuo ostenta una característica (Y=1) o no (Y=0).

Por ejemplo, en la selección de modos de transporte, dentro de un colectivo de ciudadanos de un ámbito de estudio, se puede investigar si emplean en sus desplazamientos de movilidad obligada a primera hora de la mañana un modo de transporte privado (moto, coche, etc.) o público (metro, autobús, etc.), de manera que arbitrariamente se puede suponer que el empleo por parte de un individuo de transporte público facilita el valor de la variable de respuesta Y=1 (éxito, genéricamente), y el transporte privado Y=0 (fracaso, genéricamente).

Más adelante, se verá la extensión a más de 2 categorías en la variable de respuesta.

Las probabilidades genéricas de éxito y fracaso se van a notar por la letra griega , de manera que,

kkYP 1 : Probabilidad de respuesta satisfactoria en el individuo k-ésimo.

kkYP 10 : Probabilidad de respuesta NO satisfactoria en el individuo k-ésimo.

Cada individuo de un determinado colectivo, tiene asociado un conjunto de variables explicativas,

factores y covariables: pxx 1Tkx .

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-5 Curs 2.012-2.013

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

Las variables explicativas pxx 1Tkx pueden ser:

Variables cuantitativas.

Transformaciones de variables cuantitativas.

Regresores polinómicos formados a partir de variables cuantitativas.

Variables mudas (dummies) que representan variables cualitativas.

Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.

Por ejemplo, en el problema del reparto modal público-privado, cada individuo tiene asociadas variables explicativas como: la zona de transporte donde reside, la disponibilidad de vehículo, el nivel de ingresos, el valor del tiempo, su nivel de estudios, etc.

El objetivo que se persigue en el presente tema consiste en investigar la relación entre la probabilidad

de la respuesta y las variables explicativas: x .

En diseño de experimentos suelen definirse grupos de individuos, cada uno sometido a la misma combinación de condiciones experimentales, en general, en este tipo de problemas se suelen considerar factores como variables explicativas, de manera que la combinación experimental k-ésima viene

representada por idénticos valores del vector de variables explicativas pxx 1Tkx aplicadas

a km individuos.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-6 Curs 2.012-2.013

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

En total, el número de individuos en el estudio es la suma de los individuos en cada una de las combinaciones de condiciones experimentales, si se definen n combinaciones de condiciones o grupos

de individuos, entonces el número total de individuos es nmmN 1 .

Cada combinación define una covariate class o clase de las covariables y todos los individuos pertenecientes a ella comparten los mismos valores de las covariables.

La anterior diferenciación entre individuos y clases de la covariable (grupos de individuos) es crucial a la hora de especificar los datos a un paquete estadístico, en general, ambas representaciones, por individuos o por clases de covariable, suelen ser posibles:

1. Algunos métodos de análisis son apropiados para datos agrupados en clases de covariables, pero no para datos individualizados, por ejemplo las aproximaciones normales.

2. Las aproximaciones asintóticas aplicadas a datos agrupados se pueden basar en dos tipos distintos de evolución asintótica, sobre el número de individuos en cada clase de covariables o grupo ( m ) o sobre el número total de individuos ( N ). Los datos individualizados únicamente permiten aproximaciones asintóticas del segundo tipo.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-7 Curs 2.012-2.013

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

… Diferenciación entre datos por individuos y por clases de la covariable (grupos de individuos) …

Datos por individuo Datos por clase de covariable

Individuo Variables explicativas

Respuesta Clase de Covariable

Tamaño de la clase

Respuestas satisfactorias

1 (1,1) 0 (1,1) 2 1

2 (1,2) 1 (1,2) 3 2

3 (1,2) 0 (2,1) 1 0

4 (2,1) 0 (2,2) 1 1

5 (2,2) 1

6 (1,2) 1

7 (1,1) 1

La tabla anterior ilustra un experimento no balanceado con 2 factores A y C, cada uno de ellos con dos categorías, por tanto n=4=2x2 y un total de individuos N=7 . Por ejemplo, el factor A puede ser una categorización de la edad de un individuo: categoría 1 si es menor de 21 años, categoría 2 el resto. El factor C puede ser la disponibilidad de coche en el hogar: categoría 1 disponible y categoría 2 no disponible.

La simple observación de los datos parece indicar que a más edad y ante disponibilidad de coche en el hogar menor incidencia de la selección modal del transporte público.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-8 Curs 2.012-2.013

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

… Representación individual o por clases de covariables …

La representación de los datos en clases de la covariable es más eficiente en cuestión de espacio y facilita la detección de los efectos significativos por inspección visual.

La representación en clases de la covariable implica la pérdida de la información sobre el orden serial de los individuos, es más agregada y no permite reconstruir la información por individuos original, aspecto que en la mayoría de los estudios no resulta relevante.

La representación en clases de la covariable implica que la respuesta tiene la forma

nn mymy ,,11 , donde kk my 0 es el número de resultados satisfactorios (éxitos) en

la clase de la covariable k-ésima entre los km individuos que la constituyen.

El vector de tamaño de las clases de las covariables se denomina vector índice binomial o vector denominador binomial y se nota por nmm 1m .

Los datos en formato individuos constituyen un caso particular de vector de índice binomial constante

a unos: 11 m .

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-9 Curs 2.012-2.013

TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

La información agrupada puede representarse mediante una tabla de contingencia tridimensional, donde los factores que la definen, continuando con el ejemplo anterior, son la respuesta Y (en columnas), el factor A (subtabla) y el factor C (filas):

Y=0 Y=1 Y=0 Y=1 x1=1 x2=1 1 1 x1=2 x2=1 1 0

x2=2 1 2 x2=2 0 1

O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas):

FACTOR C C1 =1 CK=2 =2

FACTOR A FACTOR B – Respuesta Y FACTOR B – Respuesta Y TOTAL B1 Y=0 BJ=2 Y=1 SUBTOTAL B1 Y=0 BJ=2 Y=1 SUBTOTAL

A1 = 1 1 1 2 1 2 3 5

AI=2 =2 1 0 1 0 1 1 2

SUBTOTAL 2 1 1 3

TOTAL 3 4 7

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-10 Curs 2.012-2.013

4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES

El contexto y justificación de los procesos binomiales se ha estudiado detalladamente en cursos de Estadística de primer ciclo de las titulaciones:

Si ,mBY entonces la variable aleatoria modeliza el número de respuestas satisfactorias (éxitos) en m repeticiones de experiencias base de Bernoulli mútuamente independientes y de probabilidad individual de éxito común igual a .

1

1

0

0

mYVmY

my

myim

y

yF

ym

yYPyp

y

i

imiY

ymyY

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-11 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

4-1-2.1 Funciones de link El objetivo que se persigue es establecer una relación funcional entre la probabilidad de la respuesta

y el vector de variables explicativas o covariables pxx 1Tx : x .

Se va a detallar la construcción de un modelo capaz de describir como los cambios en los valores de las covariables afectan a la probabilidad de la respuesta.

El modelo formal a detallar consiste en las tres componentes habituales en los Modelos Lineales Generalizados:

La componente aleatoria asume independencia de las observaciones de nT YY ,,Y 1 y

pertenencia a la distribución binomial (miembro de la familia exponencial), con Y .

La componente sistemática del modelo consiste en la especificación de un vector , el predictor lineal a partir de un número reducido de parámetros a estimar y regresores; parámetros

pT ,,1 y regresores pXX ,,X 1 .

En notación matricial, X donde es nx1, X es nxp y es px1.

La función de link resulta imprescindible para garantizar la correspondencia entre , que puede tomar valores entre más/menos infinito y el intervalo cerrado 0,1.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-12 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

El vector está funcionalmente relacionado con el predictor lineal , a través de la función de link,

notada como g(.), de manera g , es nx1. El link canónico es la función logit: logit .

El link canónico es el más empleado en la práctica rutinaria, por ser el más sencillo de interpretar como el logaritmo de los odds, sin embargo no tiene porqué adaptarse bien a los datos: es importante entender bien el rol de la función de link y no actuar automáticamente.

Las funciones de link más habitualmente empleadas para respuestas binarias son:

1. La función logit o logística:

11 loglogitg .

O bien,

expexp

11

11 g . La ley logística da lugar a esta transformación, la derivada de

2

11 1

exp

exp'

g es la función densidad de probabilidad de la ley logística estándar de media

0 (parámetro de posición) y varianza 32 (parámetro de escala 1), simétrica alrededor de 0.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-13 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

… Las funciones de link más habitualmente empleadas para respuestas binarias son:

2. La función probit o función normal estándar inversa: 12

g Y

122 g . La ley normal estándar (media 0 y varianza 1) es la que da lugar a la

definición de esta función de link.

3. La función log-log complementaria 1loglog3g . Donde la función respuesta es,

expexp 1133 g .

La función de link es la inversa de la distribución del valor extremo mínimo (ley de Gompertz), con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de e=-0.577216 (derivada primera de la función gamma evaluada en 1) y una varianza de 62 .

4. La función log-log 1loglog4 g , donde la función respuesta es

expexp1144 g . La f. link es la inversa de la distribución del valor

extremo máximo (ley de Gumbel), con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de - e y una varianza de 62 .

Las funciones de link anteriores pueden obtenerse como las inversas de las probabilidades acumuladas de leyes conocidas.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-14 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

Por ejemplo, si el predictor lineal se limita a tomar valores en el intervalo cerrado ba, , entonces se podría considerar un link que fuera la inversa de la función de distribución de una variable uniforme en

el intervalo ba, : abag 5 y baabag

155 .

Si 22,, ba

entonces se puede visualizar en los

gráficos 5 y

5' .

00.20.40.60.8

11.2

-4

-3.2

6

-2.5

2

-1.7

8

-1.0

4

-0.3

0.44

1.18

1.92

2.66 3.4

Prob

abili

dad

ETA-Predictor lineal

Link Uniforme

PI_5(ETA)

D_PI_5(ETA)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-15 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

La función de link logit se puede analizar a partir de la función densidad de probabilidad y la función distribución de la ley logística:

expexp

11

11 g y

112

11 1

1

expexp'g

En general,

Tix ii ,

donde P(.) indica la función de distribución de alguna variable aleatoria continua que tome valores reales serviría para la transformación del predictor lineal

al intervalo 1,0 ; por supuesto, las hay algunas con mejores propiedades que otras, ya sean estadísticas o de cálculo, no todas ellas se adaptan del mismo modo a los datos sujetos a estudio.

00.20.40.60.8

11.2

-4

-3.1

4

-2.2

8

-1.4

2

-0.5

6

0.3

1.16

2.02

2.88

3.74

Prob

abili

dad

Predictor Lineal

Link Logístico

PI_1(ETA)

D_PI_1(ETA)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-16 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

El cambio de escala que suponen las funciones de link logit y probit numéricamente es: Probabilidad

Odds

1

Log-odds

x

1log

Probit

x 1

C_log-log

x

1loglog

Log-log

x

loglog

0,01 0,0101 -4,5951 -2,3263 -4,60015 -1,52718 0,05 0,0526 -2,9444 -1,6449 -2,97020 -1,09719 0,10 0,1111 -2,1972 -1,2816 -2,25037 -0,83403 0,15 0,1765 -1,7346 -1,0364 -1,81696 -0,64034 0,20 0,2500 -1,3863 -0,8416 -1,49994 -0,47588 0,25 0,3333 -1,0986 -0,6745 -1,24590 -0,32663 0,30 0,4286 -0,8473 -0,5244 -1,03093 -0,18563 0,50 1,0000 0,0000 0,0000 -0,36651 0,36651 0,70 2,3333 0,8473 0,5244 0,18563 1,03093 0,75 3,0000 1,0986 0,6745 0,32663 1,24590 0,80 4,0000 1,3863 0,8416 0,47588 1,49994 0,85 5,6667 1,7346 1,0364 0,64034 1,81696 0,90 9,0000 2,1972 1,2816 0,83403 2,25037 0,95 19,0000 2,9444 1,6449 1,09719 2,97020 0,99 99,0000 4,5951 2,3263 1,52718 4,60015

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-17 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

Las funciones log-log y c-log-log están relacionadas mediante la siguiente igualdad:

43 gg loglogloglog

Todas las funciones de link anteriormente indicadas son continuas y crecientes en el intervalo abierto (0,1).

Las funciones logit y probit están prácticamente relacionadas linealmente en el intervalo entre 0.1 y 0.9.

Para probabilidades pequeñas, la función logit y la función log-log complementaria son muy parecidas.

Para probabilidades que tienden a 1, la función log-log complementaria tiende a infinito más lentamente que la función logit.

Para probabilidades cercanas a 1 la función logit y la función log-log son muy parecidas.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-18 Curs 2.012-2.013

TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK

0

0.2

0.4

0.6

0.8

1

1.2

ETA

-3.5

6

-3.1

1

-2.6

6

-2.2

1

-1.7

6

-1.3

1

-0.8

6

-0.4

1

0.04

0.49

0.94

1.39

1.84

2.29

2.74

3.19

3.64

PI_1(ETA)

PI_2(ETA)

PI_3(ETA)

PI_4(ETA)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-19 Curs 2.012-2.013

4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS

Para resumir las conclusiones de un estudio es conveniente expresar las magnitudes de los efectos estimados en una escala de fácil interpretación, que no tiene porqué coincidir con la escala representada por la función de link.

Si se empleado el link canónico y continuando con el ejemplo de la selección modal público-privado, con 2 factores A y C, el modelo para los log-odds de una respuesta satisfactoria (transporte público):

Txlog

0

211 xx

O bien, en función de los odds de una respuesta positiva (satisfactoria):

22110 xx

expxexpexp T

Lo que permite encontrar la expresión de la probabilidad de una respuesta positiva 11 g

(inversa de la función de link) como,

22110

22110

111 xxxx

expexp

xexpxexp

expexp

T

T

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-20 Curs 2.012-2.013

TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS

… y por tanto la probabilidad de respuesta negativa es,

2211011

11

11

xx

expXexpexp

La interpretación del modelo en la escala de los log-odds seria:

1. Si se supone que los factores representados por los regresores x1 y x2 son no correlacionados, entonces el efecto de un cambio en una unidad de x2 es incrementar el log-odd de una respuesta

positiva en una cantidad igual a su parámetro 2 .

2. Equivalentemente en la escala de los odds, el efecto de un cambio en una unidad de x2 es incrementar el odd de una respuesta positiva en una cantidad igual a la exponencial de su parámetro

2exp .

3. La interpretación en la escala de las probabilidades de respuesta positiva son más complicadas, ya que el efecto sobre la probabilidad de una unidad de cambio en x2 depende de los valores de x1 y x2.

La derivada parcial de la probabilidad de respuesta positiva respecto es 2

2

x ,

lo que ilustra que el efecto de un pequeño cambio x2 en la probabilidad de respuesta positiva tiene

mayor efecto si está cerca de 0.5 que si está cerca de 0 o de 1.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-21 Curs 2.012-2.013

TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS

El gráfico de la derivada de la probabilidad de respuesta positiva respecto ,

1' para expresado en función de , ' ,

ayuda a visualizar las conclusiones, ya que se detecta un máximo en :

0

0.05

0.1

0.15

0.2

0.25

0.3

0.01

0.02

0.04

0.08

0.12

0.19

0.29

0.41

0.53

0.66

0.76

0.84

0.90

0.94

0.96

0.97

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-22 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS

El procedimiento iterativo método de los scores no suele presentar problemas de convergencia, excepto cuando uno o más estimadores de los parámetros toman valor infinito, en cuyo caso no converge, lo que implica que las probabilidades ajustadas son cero o uno, debido a que hay

observaciones 0iy o ii my . A pesar de que el proceso de estimación de los parámetros no

converge, los valores ajustados si que convergen hacia un valor y la devianza también hacia un valor límite.

La implicación es que la función de log-verosimilitud es muy plana o tiene una asíntota y por tanto ni los estimadores de los parámetros ni las estimaciones de su error estándar deben ser creídos.

Se han demostrado resultados de existencia y unicidad de los estimadores de los parámetros si la función de link empleada es cualquiera de las 4 indicadas en el apartado 4-1-2.1 y si ii my 0 para todas las clases definidas por las covariables.

La calidad del punto inicial no es muy determinante puesto que reduce en pocas iteraciones la convergencia del algoritmo, sin embargo, un valor inicial muy extremo, respecto al óptimo desconocido, puede llevar a la divergencia del algoritmo.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-23 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

4-1-3.1 Medidas de bondad del modelo

Sean los estimadores resultantes del proceso iterativo, estos estimadores determinan un valor del

predictor lineal y a través de la función de link unas probabilidades ajustadas (valores medios ajustados

por clase de covariable): ii g ˆˆ 1 .

La función devianza escalada tiene por expresión, y,ˆy)(y,ˆy,' 22 D .

La devianza se define como la devianza escalada por el parámetro de dispersión y son idénticas en este caso:

ˆy,'ˆy,'ˆy, DDD si iii mBY ,

El modelo maximal y)(y, implica unas probabilidades ajustadas i

ii m

y~ , lo que permite notar el

modelo maximal como y),~( .

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-24 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

Quedándonos con el resultado final, la expresión de la devianza resulta:

n

i iii

iiii

ii

ii mm

ymymm

yyDD1

2 ˆ

logˆ

logˆy,ˆy,

En muchos textos específicos de regresión logística, el estadístico D, devianza, suele expresarse como,

negativapostiva

n

i i

ii e

ooD

,log

12

donde,

1. El sumatorio interno indica por ii yo los valores observados en el grupo con respuesta positiva.

2. El sumatorio interno indica por iii ymo los valores observados en el grupo con respuesta negativa.

3. El sumatorio interno indica por iii me los valores esperados en el grupo con respuesta positiva.

4. El sumatorio interno indica por iiii mme los valores observados en el grupo con respuesta negativa.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-25 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

El uso de la devianza como estadístico de bondad del ajuste requiere de resultados asintóticos sobre su distribución y se le suele atribuir a menudo, a la ligera, que ,YD se distribuye asintóticamente

como una 2

pn (no confundir con 2

pN ).

Recordar que el p valor de la Devianza (Escalada y siempre entendida como residual) es la probabilidad que la distribución de referencia tome un valor superior a la devianza. Si el p valor supera el límite del 5% habitual, entonces no hay evidencia para rechazar la hipótesis nula y por tanto la discrepancia entre valores observados y predichos es ‘pequeña’ y se acepta la bondad del modelo.

Semejante al Cp Mallows se emplea para valorar la calidad de modelos, el AIC, definido por Akaike

(1974). Sea MB el modelo con p parámetros pAIC B y,ˆ2 B . Se busca el mínimo AIC.

Dentro de la misma línea y con idea de penalizar la log-V a medida que aumenta p, se calcula el estadístico BIC (Bayesian Information Criteria) (en SAS©), también denominado criterio de Schwartz

npBIC B logy,ˆ2 B . Se da preferencia a modelos con mínimo BIC.

Tanto el AIC, como el BIC pueden emplearse para comparar modelos no forzosamente jerárquicos.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-26 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

La distribución asintótica sólo es cierta ante condiciones muy restrictivas y que difícilmente se van a dar en estudios prácticos (McCullagh, para detalles técnicos); por tanto, la devianza no es directamente utilizable como medida de la bondad del ajuste, pero sí para comparar dos modelos jerárquicos: por ejemplo,

Sea MA el modelo actual con q parámetros y sea MB el modelo con p > q parámetros, sean A y

B , las respectivas probabilidades estimadas, es decir TT21 ,

Y T1

con dim(

A )=q<p,

La reducción en la devianza ABD se expresa:

y,ˆ2y,ˆ2y,ˆ2y),~(2y,ˆ2y),~(2ˆ,ˆ, ABBABAAB DDD yy

BAAB DDD ˆ,yˆ,y tiene una distribución aproximada de 2

qp si n es grande o bien el

número de observaciones en cada clase de covariable im es grande.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-27 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

El test de la devianza es equivalente al test de Fisher del modelo lineal general clásico.

El test equivalente al test t de Student para los coeficientes del modelo es el test de Wald. El

estadístico de Wald para el contraste de H0: jj ˆ seria: 100 ,ˆ

ˆ.

ˆ

NasintZj

jj

, si

H0 es cierta.

El intervalo de confianza asintótico bilateral a un nivel viene dado por jzj ˆ/ ˆˆ

2 , donde

2/z es el valor de la ley normal estándar que deja una probabilidad por la derecha de 2 .

El contraste de hipótesis múltiples en algunos textos se propone a través del estadístico de Wald, sin embargo tiene poca potencia y el procedimiento sugerido en este curso es a través de la reducción de la devianza.

El estadístico de Wald surge de manera natural en el contexto de estimación de los parámetros por

maximización de verosimilitud, ya que asintóticamente (ver el Tema 1) : 10,ˆ pN ,

donde TUU es la matriz de información esperada de Fisher (varianza de los scores), que se

aproxima por WXXT correspondiente a la convergencia del método de los scores.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-28 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

O equivalentemente, en términos de la ley 2p , 2

p

T ˆˆ , donde el estadístico de

Wald es W= ˆˆ T. Recordar que: ˆˆˆ 1

IOIEIE

V .

00 : puede contrastarse por 20

1

0ˆˆˆ

p

TVW

.

Si TTT21 , con dim( 2 )=q<p y 0 20 : entonces 2

2

1

22ˆˆˆ

qTVW

.

Si dim( 2 )=1 entonces 0: 20 se toma la raíz cuadrada del estadístico de Wald y se trata

habitualmente el cociente como una normal estándar: 1,0ˆ

ˆ

2

2 NV

z

.

La devianza tiene un papel análogo a la suma de cuadrados residual de los modelos lineales generales clásicos, lo que permite definir el análogo al coeficiente de determinación R2 de los modelos lineales, que se define como,

AA

AA

AA DDGdondeDG

GDD

R

,,,,,

,,,

1 00

2 yyyyy

yyy

,

10 2 R

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-29 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

…. donde AD ,y es la devianza del modelo A a contrastar (debe contener término

independiente), 0,yD es la devianza del modelo .

La esparsidad en los modelos de respuesta binaria se da cuando el número de observaciones por clase

de covariable es pequeño, en el caso extremo 1im , no habrán problemas en la estimación ni en los

estadísticos de goodness of fit si n (número de clases de covariables) es grande.

Otra medida de bondad del ajuste empleada en muchos textos sobre regresión logística es el

estadístico de Pearson X2, asintóticamente distribuido como una 2

pn , al igual que el estadístico D, devianza. El estadístico de Pearson generalizado coincide en respuesta binaria con el clásico y es:

, 1

2

1

2

1

22

ˆˆˆ

ˆˆˆ n

i i

iin

i iii

iiin

i iii

iii

eeo

mym

1mmy

X

Entre paréntesis aparece la expresión habitual en muchos textos, en función de términos de valores observados y esperados de respuestas positivas en cada grupo (clase definida por las covariables).

Ante esparsidad la reducción de la devianza se puede todavía aproximar por una distribución de 2 .

La extrapolación o predicción fuera del rango de las observaciones de las covariables es delicada, ya que es altamente dependiente de la calidad de la adaptación de la función de link empleada a los datos.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-30 Curs 2.012-2.013

TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO

Hosmer y Lemeshow (1980,1989) han propuesto un estadístico alternativo que no requiere de agrupaciones en clases de la covariable, la idea consiste en usar las probabilidades predichas por el modelo para crear 10 grupos 0–0.1, 0.1–0.2, hasta el último grupo de 0.9–1. Para cada grupo se cuentan las respuestas positivas y negativas observadas y predichas por el modelo, mediante el estadístico de Pearson tradicional (valores observados menos predichos al cuadrado dividido por valor predicho), que

mediante simulaciones se ha comprobado tiende a una ley de 2 con el número de grupos menos 2

grados de libertad.

Otra manera de establecer una valoración de un modelo se base en sus errores de predicción. Supongamos que se usa el modelo para predecir las respuestas positivas si la probabilidad estimada excede el valor 0.5 y las respuestas negativas si está por debajo. Posteriormente se puede construir una tabla de contingencia con las respuestas observadas y predichas y calcular la proporción de casos correctamente predichos. Como se puede intuir, un modelo que ajusta bien los datos, no necesariamente puede resultar un buen modelo predictor, ya que este hecho depende de cuan predecible es la respuesta. Si la predicción fuera el único objetivo de un MLGz, la proporción de clasificaciones correctas debería ser el criterio ideal para la comparación de modelos y no la devianza.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-31 Curs 2.012-2.013

TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

Se va a definir en general una tabla de clasificación donde se contabilicen para todas las clases de la covariable n, el número de efectivos en las categorías cruzadas de valor observado (1 o 0) y valor predicho

(1 o 0), donde se considera 1ˆ iy si si ~ , donde s es un umbral entre 0 y 1. Para cada valor del umbral s que se desee tantear se puede escribir una tabla:

Y=1 Y=0 Total 1ˆ iy a b a+b 0ˆ iy c d c+d

a+c b+d n

La sensibilidad es la proporción de verdaderos valores 1 que son estimados 1 : Sn =a/(a+c).

La especificidad es la proporción de verdaderos valores 0 que son estimados 0: Sp = d/(b+d).

Los valores predictivos positivos y negativos del modelo se definen como: P+=a/(a+b) y P- =d/(c+d).

La curva ROC (Receiver Operating Characteristic) permite representar las repercusiones de la selección del umbral s respecto la sensibilidad y la especificidad. En abcisas se pone para cada valor s, 1-Sp y en ordenadas Sn. Si para todo s, la proporción de 1ˆ iy es la misma para las observaciones 1 o 0, entonces Sn=1-Sp, la curva ROC es la diagonal y el modelo no es informativo (área bajo la curva ½). Un umbral s es ideal si permite separar totalmente las observaciones 1 y 0, es decir, si c=b=0 y por tanto Sn=1 y 1-Sp=0. Una buena referencia electrónica para trabajar el tema se encuentra en http://gim.unmc.edu/dxtests/ROC1.htm.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-32 Curs 2.012-2.013

TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

1ˆ y

0ˆ y

1y

Parte de Especificidad Sp

0y

Parte de Sensibilidad Sn

El gráfico de la izquierda indica el proceso de construcción de una curva ROC para s fijado y la gráfica de la derecha muestra 3 curvas ROC que representan modelos con capacidades predictivas respectivas excelente, buena y muy mala. La capacidad predictiva depende de cuan bien separe el modelo de grupo de verdaderos positivos y es el área bajo la curva ROC. A título de guía para clasificar la capacidad predictiva del modelo en

cuestión se da el siguiente criterio en función del área bajo la curva ROC:

.90-1 = excelente(A)

.80-.90 = buena (B)

.70-.80 = media (C)

.60-.70 = mala (D)

.50-.60 = muy mala (F)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-33 Curs 2.011-2.012

TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO

Se definen cuatro índices de asociación entre las probabilidades observadas y las probabilidades predichas. Para definirlas se consideran todos los pares de observaciones con valores de Y distintos, son H= (a+c)(b+d).

o … para cada par se calcula la probabilidad predicha y si es superior para la observación y=1 que para y=0 se dice que el par es concordante.

o … si la probabilidad predicha es inferior para la observación y=1 que para y=0 se dice que el par es discordante.

o Y si tiene la misma probabilidad se dice que hay empate (tie).

o Sea C el número de pares concordantes, D el número de pares discordantes y T el número de empates.

Los índices de asociación relativos a la capacidad predictiva del modelo son:

Tau de Kendall = (C-D)/H Gamma = (C-D)/(C+D)

D de Sommer = (C-D)/(C+D+T) C=0.5(1+D de Sommer)

La capacidad predictiva mejora en la medida que los índices se aproximan a 1 y el índice c corresponde al área bajo la curva ROC. Estos índices aparecen en MINITAB.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-34 Curs 2.011-2.012

TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

4-1-3.2 Diagnóstico del modelo Los procedimientos de análisis de los residuos y detección de valores influyentes para la diagnosis de la calidad del modelo de regresión lineal normal clásico, han sido extendidos, con mayor o menor fortuna, a los modelos lineales generalizados.

En la presente sección, se presentan los procedimientos de diagnosis del modelo de respuesta binaria (génesis debida a Pregibon (1981), exposición según Fox (1991)): residuos estudentizados, leverages, estadístico de Cook, plots de los residuos, etc.

El residuo se define como la diferencia entre el valor observado y el valor ajustado, para cada

observación: iiiiii myyye ˆ .

El residuo de Pearson o el residuo de la devianza, definidos en el Tema 1, facilitan la noción de contraste entre los valores observados y los valores ajustados por el modelo.

Sin embargo, ninguno de los dos tipos de residuos anteriores tiene una distribución normal y son difíciles de analizar, dadas las características discretas de las observaciones y los residuos por grupos (algo parecido a la dificultad del análisis de los residuos en el análisis de la varianza). De todos modos, combiene examinar cualquier residuo que en valor absoluto supere la magnitud de 2.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-35 Curs 2.011-2.012

TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La analogía con los mínimos cuadrados ponderados permite a algunos autores definir el valor ajustado

en la escala logit xˆ Tii y el residuo logit iii

ii m

ee

ˆˆ*

1 .

El diagrama bivariante de los valores ajustados en la escala logit (abcisas) frente a los residuos logit (ordenadas), permiten una interpretación similar, pero en la escala logit, a sus homónimos en la regresión lineal normal clásica.

Los problemas de no linealidad en la escala logit pueden detectarse a veces mediante diagramas bivariantes, tantos como regresores, de los residuos logit (en ordenadas) frente a cada regresor.

La matriz sombrero (matriz de proyección, PYY ) empleada para la detección de valores influyentes a priori en la regresión lineal normal clásica a través de cotas a sus valores diagonales, se redefine en los MLGz según Pregibon como,

21T1T21 WXWXXXWP

La matriz P es simétrica e idempotente, con valores diagonal entre 0 y 1 y cuyo valor medio es p/n. Los

valores influyentes a priori pueden detectarse mediante observaciones cuyo valor de la diagonal de P, esté a más de 2 veces la media. Tiene por tanto una interpretación análoga, sin embargo depende de las observaciones y los valores estimados, a través de W.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-36 Curs 2.011-2.012

TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La matriz W debe corresponder a la iteración en que ha detectado la convergencia del método de los scores en la estimación de los parámetros.

El empleo de la matriz de pseudo- proyección P permite definir los residuos estudentizados, aunque formalmente interesantes a pesar de su compleja justificación, en la práctica como ya se indicó en el Tema 2 no resultan imprescindibles.

Los valores influyentes a posteriori se detectan mediante el análogo al estadístico de Cook de los modelos clásicos que se justifica a partir del estadístico de Wald para el contraste de significación H0:

0 ,

000

1

020

ˆWXXˆˆˆˆˆ TTTVZ

Sea el estadístico de Wald 2

iZ calculado para la prueba de hipótesis H0: i ˆ , es decir, si puede aceptarse la hipótesis que los parámetros son iguales a los estimadores de los parámetros del modelo MLGz donde se ha suprimido la observación i-ésima; en definitiva, es una medida de la

“distancia” entre y i ( i ˆˆdi ).

Es decir,

iTT

iT xWXXxˆˆWXXˆˆ 1

2

22

1

ii

ii

T

ii peZ

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-37 Curs 2.011-2.012

TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO

La influencia de una observación es directamente proporcional a su residuo y su leverage (diagonal correspondiente en la matriz de pseudo-proyección P). Se realiza:

1. Un diagrama bivariante con el leverage en ordenadas y el número de observación i en abcisas. Se buscan observaciones con valores superiores a 2p/n.

2. Un diagrama bivariante con la “distancia” de Cook en ordenadas y el número de observación i en abcisas.

3. Un diagrama bivariante con los residuos (Pearson o devianza o logit, según gusto y talento interpretativo del estadístico) en ordenadas y el número de observación i en abcisas.

4. Si el paquete estadístico lo permite fácilmente, los 3 gráficos se pueden fusionar en 2: primero, diagrama bivariante de residuos en ordenadas y leverages en abcisas con identificador del número de observación en cada punto del diagrama; segundo, diagrama bivariante de residuos en ordenadas y “distancia” de Cook en abcisas con identificador del número de observación en cada punto del diagrama

Se aconseja detectar valores atípicos por criterios de estadística descriptiva, más que emplear directamente la referencia de la distribución asintótica del estadístico de Wald correspondiente.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-38 Curs 2.011-2.012

4-1-4. TEMA 4-1: EJEMPLOS

4-1-4.1 Ejemplo 1 (Dobson) Se desea estudiar la germinación de cultivos de algas en base a un factor de almacenamiento que tiene dos categorías, 1 (base-line, sin almacenamiento posterior al cultivo) y 2 (con almacenamiento posterior durante 48 horas a 3ºC); y una covariable X que indica la fuerza centrífuga aplicada durante la preparación del cultivo, de hecho X sólo puede tomar 3 valores, 40, 150 y 300. Los resultados de germinación se ilustran en la siguiente tabla. Se desea determinar el modelo logístico más adecuado.

Factor

X’: Fuerza centrífuga 40 150 350

Nada ki yy 1 55 52 57

ki mm 1 102 99 108

Nevera ki yy 2 55 50 50

ki mm 2 76 81 90

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-39 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A

(filas):

FACTOR C

C1 =log 40 C2 =log 150 CK=3 =log 350

FACTOR A FACTOR B – Respuesta Y

FACTOR B – Respuesta Y FACTOR B – Respuesta Y TOTAL

B1

Y=0 BJ=2 Y=1

SUBTOTAL

B1

Y=0

BJ=2 Y=1

SUBTOTAL

B1

Y=0

BJ=2

Y=1

SUBTOTAL

A1 = 1 Nada 47 55 102 47 52 99 51 57 108 309

AI=2 =2 Nevera 21 55 76 31 50 81 40 50 90 247

SUBTOTAL 68 110 178 78 102 180 91 107 198

TOTAL 178 180 198 556

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-40 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

El número de grupos o clases de las covariables es n=6=2x3. Para recuperar la notación habitual en el análisis de la covarianza clásico, la clases i se identificaran por la categoría del factor (j=1- nada, j=2 - nevera) y por valor ascendente de la covariable X’ (k=1 para 40, k=2 para 150 y k=3 para 350) que va a recibir un tratamiento continuo. Sea X=log(X’).

Modelo 3: Interacciones entre factor y covariable, rectas con distintos intercept y pendiente

2

11 2121

11

jxjx

xk

kkjj

jk

jk

log

,

Modelo completo con p=4 parámetros:

2

1

2

1

2211

log

iiii

i xxI.

¿Sabrías escribir la matriz de diseño?

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-41 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

Modelo 2: Sin interacciones entre factor y covariable, rectas paralelas, kjjk

jk x

1log

,

Modelo con p=3 parámetros:

2

1

211

log iii

i xI.

Modelo 1: Sin efecto del factor, recta única, kjk

jk x

1log

,

Modelo con p=2 parámetros:

ii

i x11

log.

Modelo 0: Constante,

jk

jk

1log . Modelo con p=1 parámetros:

11

i

ilog.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-42 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

MTB > Name c6 = 'PRES1' c7 = 'DRES1' c8 = 'HI1' MTB > BLogistic 'Yjk' 'm_i' = c1 c5 c1*c5; SUBC> ST; SUBC> Factors c1; SUBC> Logit; SUBC> Reference Factor 1; SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Hi 'HI1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit Response Information Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 3 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 0,2339 0,6284 0,37 0,710 Factor 2 1,9771 0,9980 1,98 0,048 7,22 1,02 51,07 X -0,0227 0,1268 -0,18 0,858 0,98 0,76 1,25 Factor*X

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-43 Curs 2.011-2.012

2 -0,3186 0,1989 -1,60 0,109 0,73 0,49 1,07 Log-Likelihood = -374,109 Test that all slopes are zero: G = 10,424; DF = 3; P-Value = 0,015 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0,028 2 0,986 Deviance 0,028 2 0,986 Hosmer-Lemeshow 0,028 4 1,000 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 56,7 52,5 54,8 49,7 50,4 54,8 Failure Obs 51 47 47 40 31 21 237 Exp 51,3 46,5 47,2 40,3 30,6 21,2 Total 108 99 102 90 81 76 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0% MTB > Name c9 = 'PRES2' c10 = 'DRES2' c11 = 'HI2' MTB > Name c12 = 'PRES3' c13 = 'DRES3' c14 = 'HI3' MTB > BLogistic 'Yjk' 'm_i' = c1 c5 ;

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-44 Curs 2.011-2.012

SUBC> ST; SUBC> Factors c1; SUBC> Logit; SUBC> Reference Factor 1; SUBC> Presiduals 'PRES3'; SUBC> Dresiduals 'DRES3'; SUBC> Hi 'HI3'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit Response Information Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 2 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 0,8767 0,4870 1,80 0,072 Factor 2 0,4068 0,1746 2,33 0,020 1,50 1,07 2,12 X -0,15459 0,09702 -1,59 0,111 0,86 0,71 1,04 Log-Likelihood = -375,404 Test that all slopes are zero: G = 7,833; DF = 2; P-Value = 0,020 Goodness-of-Fit Tests

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-45 Curs 2.011-2.012

Method Chi-Square DF P Pearson 2,598 3 0,458 Deviance 2,619 3 0,454 Hosmer-Lemeshow 2,598 4 0,627 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 53,2 52,0 58,8 53,4 50,6 51,0 Failure Obs 51 47 47 40 31 21 237 Exp 54,8 47,0 43,2 36,6 30,4 25,0 Total 108 99 102 90 81 76 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0% MTB > Name c15 = 'PRES4' c16 = 'DRES4' c17 = 'HI4' MTB > BLogistic 'Yjk' 'm_i' = c5 ; SUBC> ST; SUBC> Logit; SUBC> Presiduals 'PRES4'; SUBC> Dresiduals 'DRES4'; SUBC> Hi 'HI4'; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus X Link Function: Logit

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-46 Curs 2.011-2.012

Response Information Variable Value Count Yjk Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 1 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 1,0213 0,4813 2,12 0,034 X -0,14784 0,09650 -1,53 0,125 0,86 0,71 1,04 Log-Likelihood = -378,141 Test that all slopes are zero: G = 2,360; DF = 1; P-Value = 0,124 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 0,010 1 0,921 Deviance 0,010 1 0,921 Hosmer-Lemeshow 0,010 1 0,921 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 Total Success Obs 107 102 110 319 Exp 106,7 102,5 109,8 Failure Obs 91 78 68 237 Exp 91,3 77,5 68,2 Total 198 180 178 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-47 Curs 2.011-2.012

Concordant 27872 36,9% Somers' D 0,07 Discordant 22558 29,8% Goodman-Kruskal Gamma 0,11 Ties 25173 33,3% Kendall's Tau-a 0,03 Total 75603 100,0% MTB > Save "G:\LIDIA\MLGz2000\MLGZ_00_1\Binari_ex1.mpj"; MTB >

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-48 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

Interpretación de los parámetros:

Modelo 3 Modelo 2 Modelo 1

a1= 0.238 a1 = 0.877 a = 1.021

a2= 1.977 a2 = 0.407

b1= - 0.023 b= - 0.155 b= - 0.148

b2= - 0.319

LogL= -374.109 LogL= -375.404 LogL= -378.141

D3= 0.0277 D2= 2.619 D1= 8.092

591223 .D y 473512 .D deben contrastarse con una 21 .

En el primer caso se aceptaría la hipótesis nula (pendientes idénticas) aunque la potencia del test es muy baja y en el segundo caso se rechazaría la hipótesis nula y se concluiría que el efecto del almacenamiento es relevante.

En base únicamente al análisis de la devianza, el mejor modelo es el Modelo 2 de pendientes paralelas.

Obsérvese que se ha definido la categoría 1 (Nada) del Factor como la categoría de referencia. La categoría de referencia en la respuesta es la positiva (1).

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-49 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

Organización de los contrastes en forma de tabla de análisis de la devianza: La descripción de los modelos se indica de manera sintética, si la salida de Minitab no facilitara la devianza, sinó únicamente el valor de la función de log-verosimilitud en el óptimo, a partir de éste pueden calcularse los incrementos de devianza entre modelos jerárquicos:

qp2D qpqppq y,ˆy,ˆy,ˆyy,y,ˆyy, 22

Análisis de la Devianza Modelo n-p Devianza o

Log-Verosimilitud Devianza g.l. Modelo

0 1 5 ¿? ¿? 1 Constante

1 X 4 -378.141 5.473 1 Recta simple

2 F+X 3 -375.404 2.591 1 Rectas Paralelas

3 F*X 2 -374.109 Interacción Factor-Cov.

749.0

833.7619.2833.7

,,,

22

22

yy

yDG

GR

¿Sabrías cual es el valor de D0?

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-50 Curs 2.011-2.012

1-ESPECIF

Y-D

ata

1,00,80,60,40,20,0

1,0

0,8

0,6

0,4

0,2

0,0

VariableSENSIB1-ESPECIF

0,700000

0,671129

0,624563

0,593385

0,576020

0,525508

0,4927840,250000

0,700000

0,671129

0,624563

0,593385

0,576020

0,525508

0,4927840,250000

Scatterplot of SENSIB; 1-ESPECIF vs 1-ESPECIF

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

La capacidad predictiva del modelo depende del valor c=0.5(1+D Sommer)=0.5*(1+0.13)=0.575, por tanto es muy mala.

Veamos el proceso de construcción de la curva ROC.

Y M X LOG_X FactorA EPRO3 SENSIB 1-ESPECIF S FITY=1/Y=1 FITY=1/Y=0 55 102 40 3,68888 Res 0,576020 1,00000 1,00000 0,250000 319 237 52 99 150 5,01064 Res 0,525508 1,00000 1,00000 0,492784 319 237 57 108 350 5,85793 Res 0,492784 0,82132 0,78481 0,525508 262 186 55 76 40 3,68888 Nevera 0,671129 0,65831 0,58650 0,576020 210 139 50 81 150 5,01064 Nevera 0,624563 0,48589 0,38819 0,593385 155 92 50 90 350 5,85793 Nevera 0,593385 0,32915 0,21941 0,624563 105 52 0,17241 0,08861 0,671129 55 21 0,00000 0,00000 0,700000 0 0

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-51 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)

En R, calcular l’estadístic de X2 de Pearson: suma els quadrats dels residus de Pearson:

sum( resid( model, ‘pearson’) ^2 )

Es pot comprovar que sumant els quadrats dels residus de la deviança, surt l’estadístic deviança residual del model (per defecte, facilitat):

sum( resid( model, ‘deviance’) ^2 ) == model$deviance

Para calcular curvas ROC: Instalar paquete ROCR.

library("ROCR") dadesroc<-prediction(predict(lm2_logit,type="response"),ars$resposta) par(mfrow=c(1,2)) plot(performance(dadesroc,"err")) plot(performance(dadesroc,"tpr","fpr")) abline(0,1,lty=2)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-52 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

4-1-4.2 Ejemplo 2 (Fox)

En 1977 se realizó una encuesta sociodemográfica a la población de Canadá. El modelo lineal generalizado que se plantea investiga el análisis de la relación entre las mujeres jóvenes casadas que trabajan en función de la existencia de hijos en el hogar, los ingresos de sus maridos y la región del país donde residen.

La variable de respuesta es dicotómica: trabaja frente a no trabaja (para cada mujer joven casada que interviene en el modelo). Originariamente en los datos la variable tiene 3 categorías, lo que será aprovechado en un ejemplo del Tema 5.

La presencia de hijos en el hogar es el factor A, que tiene 2 categorías (SI, NO). Categoría base: NO (la constante corresponde al valor medio de la categoría NO).

La región del Canadá es un factor politómico B, con 5 categorías. Los ingresos del marido (en miles de dólares) es la covariable X.

La intuición indica una interacción entre los ingresos de los maridos (X) y la presencia de hijos (A).

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-53 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

WOMEN'S LABOUR-FORCE PARTICIPATION DATASET, CANADA 1977 [1] OBSERVATION [2] LABOUR-FORCE PARTICIPATION fulltime = WORKING FULL-TIME parttime = WORKING PART-TIME not_work = NOT WORKING OUTSIDE THE HOME [3] HUSBAND'S IINCOME, $1000'S [4] PRESENCE OF CHILDREN absent present [5] REGION Atlantic = ATLANTIC CANADA Quebec Ontario Prairie = PRAIRIE PROVINCES BC = BRITISH COLUMBIA Source: Social Change in Canada Project, York Institute for Social Research. DATA: 1 not_work 15 present Ontario 2 not_work 13 present Ontario … 253 not_work 13 present Quebec 254 parttime 23 present Quebec 255 fulltime 11 absent Quebec 256 not_work 9 absent Quebec 257 fulltime 2 absent Quebec … 263 not_work 15 present Quebec ENDDATA

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-54 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

La tabla contiene el análisis de la devianza para diversos modelos. El modelo más adecuado contiene X y A, cuyo coeficiente negativo indican que ante la presencia de niños y mayores ingresos masculinos es menor la incidencia del trabajo femenino.

Análisis de la Devianza Modelo p Devianza o

Log-Verosimilitud

Devianza g.l. Comentarios Contraste 0H Accept.

0 1 1 ¿? 39.609 7 0 vs 8 No

1 A 2 -162.279 4.826 1 1 vs 3 No

2 X 2 -175.528 31.324 1 2 vs 3 No

3 A+X 3 -159.866 2.43 4 3 vs 7 Si

4 A+B 6 -161.213 5.124 1 4 vs 7 No

5 B+X 6 -171.322 25.342 1 5 vs 7 No

6 A+A*X 4 -159.562 2.582 4 6 vs 8 Si

7 A+B+X 7 -158.651 0.76 1 7 vs 8 Si

8 A+B+A*X 8 -158.271 84320501 ..,

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-55 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

El contraste de M7 vs M8 indica que las interacciones entre los ingresos masculinos y la presencia de niños no es estadísticamente significativa (Factor A).

El contraste de M3 vs M7 indica que la región (Factor B) tampoco es estadísticamente significativa.

Sin embargo, los efectos principales del Factor A (M1 vs M3) y de la covariable (M2 vs M3) son estadísticamente significativos (se rechazan las correspondientes hipótesis nulas).

iii

i xAFactor 042310576133611

...log

donde 1iAFactor si hay presencia de niños y 0 de otro modo.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-56 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

El análisis de los residuos de la devianza frente a las probabilidades estimadas es:

absent present

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

-2

-1

0

1

2

3

EPRO1

DR

ES1

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-57 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

Los residuos de la devianza frente al leverage:

El valor medio del leverage p/n es 0,06522 y el extremo superior del intervalo a 2 y 3 veces la distancia es 0.16704 y 0.21795, respectivamente.

absent present

0,0 0,1 0,2

-2

-1

0

1

2

3

HI1

DR

ES

1

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-58 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

Los residuos son difíciles de interpretar en los modelos lineales generalizados!!!

absent present

0,80,70,60,50,40,30,20,1

1,0

0,5

0,0

-0,5

EPRO1

Ei

absent present

-2 -1 0 1

-2

-1

0

1

2

3

4

eta_6

rlogi

t6

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-59 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

El modelo propuesto no parece demasiado adecuado a los datos: el logit no es lineal a los ingresos!!!

absent present

0 10 20 30 40 50

-2

-1

0

1

2

Income-X

OLO

GIT

6

absent present

50403020100

4

3

2

1

0

-1

-2

Income-X

rlogi

t6

absent present

0 10 20 30 40 50

-2

-1

0

1

2

Income-X

OLO

GIT

6

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-60 Curs 2.011-2.012

absent present

50403020100

1

0

-1

-2

Income-X

ELO

GIT

6

absent present

0 5 10 15 20 25 30 35 40 45

-2

-1

0

1

2

C_INCOMEX

OLO

GIT

7

109

2

26

44

4321 12

3

3

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

Los 2 gráficos muestran en la escala logit, la comparación entre valores empíricos (considerando una categorización de INCOME-X cada 10 unidades y con etiquetas el número total de observaciones en la clase de la covariable correspondiente) y ajustados con el modelo INCOME-X sin categorizar: hay un problema serio de observaciones influyentes y no linealidad.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-61 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

Welcome to Minitab, press F1 for help. MTB > Name c7 = 'PRES1' c8 = 'DRES1' c9 = 'DDEV1' c10 = 'HI1' & CONT> c11 = 'EPRO1' m1 = 'XPWX1' MTB > BLogistic 'Ybin_i' = 'Factor A' 'Income-X'; SUBC> Factors 'Factor A'; SUBC> Logit; SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Ddeviance 'DDEV1'; SUBC> Hi 'HI1'; SUBC> Eprobability 'EPRO1'; SUBC> XPWXinverse 'XPWX1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2; SUBC> Step. Binary Logistic Regression: Ybin_i versus Factor A; Income-X Response Information Variable Value Count Ybin_i work 108 (Event) not_work 155

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-62 Curs 2.011-2.012

Total 263 Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 1,3358 0,3838 3,48 0,000 Factor A present -1,5756 0,2923 -5,39 0,000 0,21 0,12 0,37 Income-X -0,04231 0,01978 -2,14 0,032 0,96 0,92 1,00 Log-Likelihood = -159,866 Test that all slopes are zero: G = 36,418; DF = 2; P-Value = 0,000 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 73,229 43 0,003 Deviance 78,469 43 0,001 Hosmer-Lemeshow 5,824 7 0,560 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 7 8 9 Total work Obs 8 10 4 7 14 12 21 23 9 108 Exp 6,2 10,2 7,9 9,0 11,3 10,4 20,7 23,9 8,4 not_work Obs 22 28 23 22 19 15 13 11 2 155 Exp 23,8 27,8 19,1 20,0 21,7 16,6 13,3 10,1 2,6 Total 30 38 27 29 33 27 34 34 11 263

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-63 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)

Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 11516 68,8% Somers' D 0,41 Discordant 4637 27,7% Goodman-Kruskal Gamma 0,43 Ties 587 3,5% Kendall's Tau-a 0,20 Total 16740 100,0%

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-64 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

4-1-4.3 Ejemplo 3: Accidentes con heridos según Uso del Cinturón – Agresti (2002) Datos de 68694 accidentes sucedidos en el estado de Main. Se recoge la gravedad y las variables explicativas de género, entorno y uso del cinturón. Se estudiará la incidencia en la presencia de heridos de los factores, por tanto se crea un factor dicotómico: Sin – Con Heridos (ref. Sin)genero entorno cinturon gravedad y Mujer Urbano No SinHeridos 7287 Mujer Urbano Si SinHeridos 11587 Mujer NoUrbano No SinHeridos 3246 Mujer NoUrbano Si SinHeridos 6134 Hombre Urbano No SinHeridos 10381 Hombre Urbano Si SinHeridos 10969 Hombre NoUrbano No SinHeridos 6123 Hombre NoUrbano Si SinHeridos 6693 Mujer Urbano No LeveSinHospital 175 Mujer Urbano Si LeveSinHospital 126 Mujer NoUrbano No LeveSinHospital 73 Mujer NoUrbano Si LeveSinHospital 94 Hombre Urbano No LeveSinHospital 136 Hombre Urbano Si LeveSinHospital 83 Hombre NoUrbano No LeveSinHospital 141 Hombre NoUrbano Si LeveSinHospital 74 Mujer Urbano No LeveConHospital 720 Mujer Urbano Si LeveConHospital 577 Mujer NoUrbano No LeveConHospital 710 Mujer NoUrbano Si LeveConHospital 564

genero entorno cinturon gravedad y Hombre Urbano No LeveConHospital 566 Hombre Urbano Si LeveConHospital 259 Hombre NoUrbano No LeveConHospital 710 Hombre NoUrbano Si LeveConHospital 353 Mujer Urbano No Hospitalización 91 Mujer Urbano Si Hospitalización 48 Mujer NoUrbano No Hospitalización 159 Mujer NoUrbano Si Hospitalización 82 Hombre Urbano No Hospitalización 96 Hombre Urbano Si Hospitalización 37 Hombre NoUrbano No Hospitalización 188 Hombre NoUrbano Si Hospitalización 74 Mujer Urbano No Mortal 10 Mujer Urbano Si Mortal 8 Mujer NoUrbano No Mortal 31 Mujer NoUrbano Si Mortal 17 Hombre Urbano No Mortal 14 Hombre Urbano Si Mortal 1 Hombre NoUrbano No Mortal 45 Hombre NoUrbano Si Mortal 12

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> summary(acc) genero entorno cinturon gravedad y f.heridos Hombre:20 NoUrbano:20 Si:20 Hospitalización:8 Min. : 1.00 Sin: 8 Mujer :20 Urbano :20 No:20 LeveConHospital:8 1st Qu.: 66.75 Con:32 LeveSinHospital:8 Median : 138.50 Mortal :8 Mean : 1717.35 SinHeridos :8 3rd Qu.: 710.00 Max. :11587.00 > tapply(acc$y,acc$f.heridos,sum);sum(acc$y) Sin Con 62420 6274 [1] 68694

Tomando como variable de respuesta la presencia de heridos (f.heridos), globalmente se observa 6274 accidentes de un total de 68694, con una probabilidad de 0,0913. El odds es 6274/62420 o 0,1005 a 1 i el log-odds es log(0,1005) = -2.297472.

Se propone comparar inicialmente la presencia de heridos (respuesta) según el Factor Uso del Cinturón (2 niveles, base-line Si).

Cinturón Con Heridos

(respuesta positiva)Sin Heridos

m

Si (ref) 2409 35383 37792

No 3865 27037 30902

6274 62420 68694

P(‘Accidente CON Heridos’)=0.0913=6274/68694

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-66 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en el Uso en los dos grupos definidos por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en el Uso entre los dos grupos:

(M1)

i

i

1log (M2) 021

1

,log ii

i

> dfc cinturon m ypos yneg Si Si 37792 2409 35383 No No 30902 3865 27037 > > acc.m1 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=dfc) > summary(acc.m1) Call: glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit), data = dfc) Deviance Residuals: Si No -19.59 19.60 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.29747 0.01324 -173.5 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-67 Curs 2.011-2.012

(Dispersion parameter for binomial family taken to be 1) Null deviance: 768.03 on 1 degrees of freedom Residual deviance: 768.03 on 1 degrees of freedom AIC: 789.55 > > acc.m2 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=dfc) > summary(acc.m2) Call: glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit), data = dfc) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.68702 0.02106 -127.61 <2e-16 *** cinturonNo 0.74178 0.02719 27.29 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 7.6803e+02 on 1 degrees of freedom Residual deviance: -4.3099e-13 on 0 degrees of freedom AIC: 23.523 > residuals(acc.m1,'pearson') Si No -18.61742 20.58856 > xpea<-sum(residuals(acc.m1,'pearson')^2);xpea [1] 770.4972

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-68 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión:

2112

2

2,12 4972.770

ˆˆˆ

pniiii

iiiP m

ymX

La devianza de (M2) es 0 y de (M1) toma por expresión:

21122,1

3.768ˆ

logˆ

log2

pni

ii

iiii

i

ii m

ymymyyD .

Ambos estadísticos son altamente significativos, implicando que el modelo no se ajusta bien a los datos.

En (M1) el estimador ˆ , el logit de la proporción muestral.

En (M2), el estimador , es el logit del nivel de referencia (Si) (logit de la proporción de heridos en grupo que Usa cinturón, logit(2409/37792)=-2.687) y el efecto del nivel No sobre el logit de la proporción de heridos (diferencia de logits entre el nivel No y el nivel de referencia Si: logit(3865/30902)-logit(2409/37792)=0.742.

Noee

Yese

i

i

21 2

1.22 eNovsYesratioodds

Los odds de tener heridos entre los accidentes que No usan cinturón es más del doble que el odds de tener heridos entre los que Si usan cinturón.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-69 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Ahora procedamos a analizar la incidencia de accidentes con heridos según el género del conductor accidentado (referencia género hombre).

Genero Con iy Sin ii ym im

Hombre 2789 34166 36955

Mujer 3485 28254 31739

6274 62420 68694 > acc.m2g <-glm(cbind(ypos,yneg)~genero, family=binomial(link=logit), data=dfg) > summary(acc.m2g) Call: glm(formula = cbind(ypos, yneg) ~ genero, family = binomial(link = logit), data = dfg) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.50555 0.01969 -127.23 <2e-16 *** generoMujer 0.41278 0.02665 15.49 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2.4172e+02 on 1 degrees of freedom Residual deviance: -7.0122e-13 on 0 degrees of freedom

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-70 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

AIC: 23.571 Number of Fisher Scoring iterations: 2 >> xpea<-sum(residuals(acc.m1g,'pearson')^2);xpea [1] 242.4970 > log(2789 /34166);log(3485 /28254);log(3485 /28254)-log(2789 /34166) [1] -2.505548 [1] -2.092767 [1] 0.4127809 > exp(0.41278) [1] 1.511013 >

Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en la presencia de heridos en accidentes en los 2 grupos definidos por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en los accidentes con heridos entre los 2 grupos:

(M1)

i

i

1log (M2)

Mi

Hi

i

i

21

1log

El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión:

21121

2

212 497.242

ˆˆˆ

niiii

iiiP m

ymX

La devianza de (M2) es 0 y de (M1) toma por expresión:

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-71 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

211221

72.241ˆ

logˆ

log2

pni

ii

iiii

i

ii m

ymymyyD . Ambos estadísticos

son altamente significativos, implicando que el modelo no se ajusta bien a los datos.

En (M1) el estimador ˆ , el logit de la proporción muestral.

En (M2), el estimador , es el logit del nivel de referencia (Hombres) (logit de la proporción de heridos en accidentes en hombres a la vista de la tabla, logit(2789/34166)= -2.51) y el efecto del nivel 2 (mujeres) sobre el logit de “H” (diferencia de logits en los grupos: log(3485 /28254)-log(2789 /34166)=0.413.

Hee

Hei

i

i

21

51.1 ieHvsiGruporatioodds

Los odds de accidentes con heridos se incrementan en un 51% en las mujeres respecto los hombres.

Queda por probar el último modelo univariante según Entorno urbano o no urbano: los odds de accidentes con heridos se decrementan en un (1-exp(-0.7158))x100%=51% si sucede en entorno urbano. Los odds de urbano son 0.4887= exp(-0.7158) veces los odds de no urbano.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-72 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> summary(acc.m2e) Call: glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit), data = dfe) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.89784 0.01859 -102.08 <2e-16 *** entornoUrbano -0.71584 0.02664 -26.87 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 7.1961e+02 on 1 degrees of freedom Residual deviance: 3.9262e-12 on 0 degrees of freedom AIC: 23.564 Number of Fisher Scoring iterations: 2 > xpea<-sum(residuals(acc.m1e,'pearson')^2);xpea [1] 745.0957 >

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-73 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Modelos con 2 Predictores: Cinturón y Entorno

Hay 4 grupos o clases de las covariables, sea ijy el número de accidentes con heridos en el grupo de Cinturón i-ésimo y grupo de Entorno j-ésimo, donde los niveles de referencia son ‘Si’ para Cinturón (Factor A) y ‘NoUrbano’ para el Factor C. > df2 cinturon entorno m ypos yneg 1 Si NoUrbano 14097 1270 12827 2 No NoUrbano 11426 2057 9369 3 Si Urbano 23695 1139 22556 4 No Urbano 19476 1808 17668

Hay 5 modelos de interés aplicables a la estructura sistemática de los datos anteriores (M1) a (M5), cuyas devianzas y detalles de la estimación con MINITAB se detallan a continuación.

Modelo n-p Devianza D Contraste g.l. Modelo 1 1 3 1504.1 Todos significativos Constante:

2 A 2 736.11 767.99 (M2) vs (M1) 1 Cinturón: i

3 C 2 784.53 719.57 (M3) vs (M1) 1 Entorno: j

4 A+C 1 2.7116 733.4 (M4) vs (M2) 1 Aditivo: ji 781.8 (M4) vs (M3) 1

5 A*C 0 0 2.7116 (M5) vs (M4) 1 Interacción Factores: ijji

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-74 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> sum(df2[,3]);sum(df2[,4]);sum(df2[,5]) [1] 68694 [1] 6274 [1] 62420 > acc.m20 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=df2) > summary(acc.m20) Call: glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 4 -0.5131 29.4486 -25.2217 0.7247 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.29747 0.01324 -173.5 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.1 on 3 degrees of freedom Residual deviance: 1504.1 on 3 degrees of freedom AIC: 1542.4 Number of Fisher Scoring iterations: 4 > acc.m21 <-glm(cbind(ypos,yneg)~entorno, family=binomial(link=logit), data=df2) > summary(acc.m21)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-75 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Call: glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 4 -14.92 15.04 -12.97 12.94 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.89784 0.01859 -102.08 <2e-16 *** entornoUrbano -0.71584 0.02664 -26.87 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.14 on 3 degrees of freedom Residual deviance: 784.53 on 2 degrees of freedom AIC: 824.76 Number of Fisher Scoring iterations: 4 > acc.m22 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=df2) > summary(acc.m22) Call: glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit), data = df2)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-76 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Deviance Residuals: 1 2 3 4 12.10 16.82 -10.30 -14.17 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.68702 0.02106 -127.61 <2e-16 *** cinturonNo 0.74178 0.02719 27.29 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.14 on 3 degrees of freedom Residual deviance: 736.11 on 2 degrees of freedom AIC: 776.34 Number of Fisher Scoring iterations: 4 > acc.m23 <-glm(cbind(ypos,yneg)~cinturon+entorno, family=binomial(link=logit), data=df2) > summary(acc.m23) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 4 -0.8793 0.7358 0.9220 -0.7396

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-77 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.28676 0.02465 -92.78 <2e-16 *** cinturonNo 0.75265 0.02734 27.53 <2e-16 *** entornoUrbano -0.72721 0.02682 -27.12 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.1407 on 3 degrees of freedom Residual deviance: 2.7116 on 1 degrees of freedom AIC: 44.938 Number of Fisher Scoring iterations: 3 > xpea<-sum(residuals(acc.m21,'pearson')^2);xpea [1] 787.0698 > xpea<-sum(residuals(acc.m22,'pearson')^2);xpea [1] 761.8445 > xpea<-sum(residuals(acc.m20,'pearson')^2);xpea [1] 1618.284 > xpea<-sum(residuals(acc.m23,'pearson')^2);xpea [1] 2.712893 > 1-pchisq(xpea,1) [1] 0.09954032 >

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-78 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

El modelo aditivo ajusta bien los datos, vamos a interpretar sus parámetros:

1. es el logit de la probabilidad base: accidentes cuando se usa cinturón en entorno rural.

2. 2 muestra un efecto creciente de la incidencia de accidentados cuando No se usa el cinturón.

3. 2 muestra un efecto decreciente de la incidencia de accidentados cuando el accidente ocurre en Entorno urbano.

4. 2 es positivo y el odds de padecer heridos cuando no se usa cinturón es más del doble que entre los accidentes cuando se usa cinturón dentro del mismo grupo de Entorno (all else being equal o ceteris paribus).

La tentativa final consiste en considerar todos las variables explicativas disponibles, es decir, considerar tres factores A, C y D (Cinturón, Entorno y Género). Los posibles modelos son 12 ¡!! Se va a cambiar el orden de los niveles del Factor C – Entorno para facilitar la interpretación.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-79 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

El modelo aditivo ajusta bien los datos, pero todavía queda devianza por explicar: > summary(acc) genero entorno cinturon gravedad y f.heridos heridos Hombre:20 Urbano :20 Si:20 Hospitalización:8 Min. : 1.00 Sin: 8 Min. : 0.0 Mujer :20 NoUrbano:20 No:20 LeveConHospital:8 1st Qu.: 66.75 Con:32 1st Qu.: 9.5 LeveSinHospital:8 Median : 138.50 Median : 74.0 Mortal :8 Mean : 1717.35 Mean :156.8 SinHeridos :8 3rd Qu.: 710.00 3rd Qu.:163.0 Max. :11587.00 Max. :720.0 > > df3 cinturon entorno genero m ypos yneg 1 Si Urbano Hombre 11349 380 10969 2 No Urbano Hombre 11193 812 10381 3 Si NoUrbano Hombre 7206 513 6693 4 No NoUrbano Hombre 7207 1084 6123 5 Si Urbano Mujer 12346 759 11587 6 No Urbano Mujer 8283 996 7287 7 Si NoUrbano Mujer 6891 757 6134 8 No NoUrbano Mujer 4219 973 3246

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-80 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> summary(acc.m331) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero, family = binomial(link = logit), data = df3) Deviance Residuals: 1 2 3 4 5 6 7 8 -0.5055 -0.7976 0.2133 0.9023 1.7426 -0.4639 -1.5365 0.3172 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.33639 0.03114 -107.14 <2e-16 *** cinturonNo 0.81710 0.02765 29.55 <2e-16 *** entornoNoUrbano 0.75806 0.02697 28.11 <2e-16 *** generoMujer 0.54483 0.02727 19.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 7.4645 on 4 degrees of freedom AIC: 82.167 Number of Fisher Scoring iterations: 3

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-81 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

El siguiente paso podría ser añadir una interacción entre 2 de los factores: A*C o A*D o C*D.

Modelo n-p Devianza D Contraste g.l. Modelo 1 A+C+D 4 7.4645 Aditivo: kji

2 A*C+D 3 3.5914 3.8730 (M2) vs (M1) 1 Interacción Cinturón-Entorno : ijkji

3 A*D+B 3 7.3826 0.0818 (M3) vs (M1) 1 Interacción Cinturón-Género: ikkji

4 C*D+A 3 4.4909 2.9736 (M4) vs (M1) 1 Interacción Entorno-Género: jkkji

Estrictamente sólo la interacción entre Cinturón y Entorno es estadísticamente significativa, aunque la interacción entre Entorno y Género tiene un pvalor del 8% según el contraste de devianza con el modelo aditivo. Se interpreta el mejor modelo obtenido hasta el momento donde intervienen los 3 factores y una interacción doble entre el Uso de Cinturón y el Entorno donde sucede el accidente.

glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero, family = binomial, data = df3) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.30342 0.03509 -94.149 <2e-16 *** cinturonNo 0.76173 0.03933 19.366 <2e-16 *** entornoNoUrbano 0.69360 0.04239 16.362 <2e-16 *** generoMujer 0.54594 0.02729 20.007 <2e-16 *** cinturonNo:entornoNoUrbano 0.10800 0.05486 1.968 0.049 *

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-82 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

La interpretación en la escala lineal de:

Si el conductor es mujer los log odds se incrementan en 0.55 unidades respecto al grupo de referencia hombres dentro del mismo grupo del resto de factores.

No usar el cinturón incrementa la escala lineal en 0.76 unidades en Entorno urbano y 0.76+0.11 en entorno NoUrbano; dentro del mismo grupo de género.

Conducir en entorno No Urbano incrementa la escala lineal en 0.69 unidades si se usa cinturón y 0.69+0.11 si no se uso cinturón.

Tanto el uso del cinturón como el entorno no pueden interpretarse independientemente, ya que hay un término de interacción.

La interpretación en la escala de los odds seria:

Si el conductor es mujer los odds de darse heridos en el accidente se incrementan en un 73% (exp(0.55)=1.73) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.

No usar el cinturón incrementa los odds de darse heridos en el accidente en un 113% (exp(0.76)=2.13) en Entorno urbano y en un 140% (exp(0.76+0.11)=2.387) en entorno NoUrbano; dentro del mismo grupo de género.

Conducir en entorno No Urbano incrementa los odds de darse heridos en el accidente en un 100% (exp(0.69)=1.994) si se usa cinturón y en casi un 125% (exp(0.69+0.11)=2.226) si no se usa cinturón; dentro del mismo grupo de género.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-83 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

La interpretación en la escala de las probabilidades son aproximadas y seria en términos absolutos según una probabilidad marginal de darse heridos en un accidente de P(‘Accidente CON Heridos’)=0.0913=6274/68694: Y de aquí 0.0913x(1-0.0913)=0.083. Si el conductor es mujer la probabilidad de darse heridos en el accidente sube en 0.046

(0.083x0.55=0.046) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.

No usar el cinturón incrementa la probabilidad de darse heridos en el accidente en 0.063 (0.083x0.76=0.063) en Entorno urbano y en un 0.072 (0.083(0.76+0.11)=0.072) en entorno NoUrbano; dentro del mismo grupo de género.

Conducir en entorno No Urbano incrementa la probabilidad de darse heridos en el accidente en 0.057 (0.083x0.69=0.057) si se usa cinturón y en 0.066 (0.083(0.696+0.11)=0.066) si no se usa cinturón; dentro del mismo grupo de género.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-84 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> summary(acc.m331) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero, family = binomial(link = logit), data = df3) Deviance Residuals: 1 2 3 4 5 6 7 8 -0.5055 -0.7976 0.2133 0.9023 1.7426 -0.4639 -1.5365 0.3172 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.33639 0.03114 -107.14 <2e-16 *** cinturonNo 0.81710 0.02765 29.55 <2e-16 *** entornoNoUrbano 0.75806 0.02697 28.11 <2e-16 *** generoMujer 0.54483 0.02727 19.98 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 7.4645 on 4 degrees of freedom AIC: 82.167 Number of Fisher Scoring iterations: 3 > summary(acc.m332) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno * genero, family = binomial(link = logit), data = df3)

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-85 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

… Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.36383 0.03519 -95.592 <2e-16 *** cinturonNo 0.81618 0.02765 29.521 <2e-16 *** entornoNoUrbano 0.80907 0.04010 20.177 <2e-16 *** generoMujer 0.59306 0.03914 15.152 <2e-16 *** entornoNoUrbano:generoMujer -0.09345 0.05422 -1.724 0.0848 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 4.4909 on 3 degrees of freedom AIC: 81.193 Number of Fisher Scoring iterations: 3 > summary(acc.m333) Call: glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero, family = binomial(link = logit), data = df3) … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.30342 0.03509 -94.149 <2e-16 *** cinturonNo 0.76173 0.03933 19.366 <2e-16 *** entornoNoUrbano 0.69360 0.04239 16.362 <2e-16 *** generoMujer 0.54594 0.02729 20.007 <2e-16 *** cinturonNo:entornoNoUrbano 0.10800 0.05486 1.968 0.049 *

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-86 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 3.5914 on 3 degrees of freedom AIC: 80.294 Number of Fisher Scoring iterations: 3 > summary(acc.m334) Call: glm(formula = cbind(ypos, yneg) ~ cinturon * genero + entorno, family = binomial(link = logit), data = df3) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.34236 0.03755 -89.014 <2e-16 *** cinturonNo 0.82621 0.04220 19.579 <2e-16 *** generoMujer 0.55459 0.04370 12.691 <2e-16 *** entornoNoUrbano 0.75792 0.02698 28.096 <2e-16 *** cinturonNo:generoMujer -0.01598 0.05586 -0.286 0.775 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 on 7 degrees of freedom Residual deviance: 7.3826 on 3 degrees of freedom AIC: 84.085 Number of Fisher Scoring iterations: 3

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-87 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> anova(acc.m331,acc.m332,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon + entorno * genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 4.4909 1 2.9736 0.0846 > anova(acc.m331,acc.m333,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * entorno + genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 3.5914 1 3.8730 0.0491 > anova(acc.m331,acc.m334,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * genero + entorno Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 7.3826 1 0.0818 0.7748 > xpea<-sum(residuals(acc.m332,'pearson')^2);xpea [1] 4.496567 > 1-pchisq(xpea,3) [1] 0.2125967 > xpea<-sum(residuals(acc.m333,'pearson')^2);xpea [1] 3.580126 > 1-pchisq(xpea,3) [1] 0.3105178

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-88 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores, ya que el modelo A*C+D ajusta bien los datos, pero todavía deja una devianza de 3.5914 por explicar en 3 grados de libertad, se podría dar por bueno el modelo.

Modelo n-p Devianza D Contraste g.l. Modelo 1 A*C+A*D 2 3.562410 2.2371 (M1) vs (M4) 1 Interacción Cinturón-Entorno Y

Cinturón-Género : jkijkji

2 A*D+C*D 2 4.371979 3.0467 (M2) vs (M4) 1 Interacción Cinturón-Género Y Entorno-Género :

jkikkji

3 A*C+C*D 2 1.367022 0.04171 (M3) vs (M4) 1 Interacción Cinturón-Entorno Y Entorno-Género :

jkijkji

4 A*C+C*D+A*D

1 1.325317 jkikijkji

El modelo no requiere de más análisis, no hay diferencias significativas entre el modelo con las 3 interacciones dobles y ninguno de los modelos con 2 pares de factores en interacciones.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-89 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores y compararlos con el modelo aditivo, para ver si son significativas 2 interacciones dobles simultáneamente.

Modelo n-p Devianza D Contraste g.l. Modelo 1 A*C+A*D 2 3.562410 3.9021 (M1) vs (M4) 1 Interacción Cinturón-Entorno Y

Cinturón-Género : jkijkji

2 A*D+C*D 2 4.371979 3.0925 (M2) vs (M4) 1 Interacción Cinturón-Género Y Entorno-Género :

jkikkji

3 A*C+C*D 2 1.367022 6.0975 (M3) vs (M4) 1 Interacción Cinturón-Entorno Y Entorno-Género :

jkijkji

4 A+C+D 4 7.4645 kji

El modelo no requiere de más análisis, ya que simultáneamente son significativas 2 interacciones dobles Cinturón-Entorno Y Entorno-Género.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-90 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Comparando el mejor modelo con 1 interacción doble (Cinturón-Entorno) con el modelo que tiene 2 interacciones dobles (Cinturón-Entorno y Entorno-Genero) se cuantifica el p valor del contraste de la devianza de la interacción Entorno-Género con un 0.14, por tanto, no significativa una vez que Cinturón-Entorno está en el modelo, pero con un valor incómodo.

> anova(acc.m333,acc.m43,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon * entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * entorno + entorno * genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 3 3.5914 2 2 1.3670 1 2.2244 0.1358 >

Se propone para finalizar el análisis valorar el modelo con 2 interacciones dobles y el mejor modelo con 1 interacción doble según el criterio de información de Akaike y el método step() en R. Se prefiere mantener las 2 interacciones dobles.

Al final se da una tabla resumen con la devianza residual y el AIC para todos los modelos que se han calculado.

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-91 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

> acc.res<-step(acc.m34) Start: AIC=82.7 cbind(ypos, yneg) ~ cinturon * genero * entorno Df Deviance AIC - cinturon:genero:entorno 1 1.325 82.028 <none> 2.411e-12 82.702 Step: AIC=82.03 cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:genero + cinturon:entorno + genero:entorno Df Deviance AIC - cinturon:genero 1 1.367 80.069 <none> 1.325 82.028 - genero:entorno 1 3.562 82.265 - cinturon:entorno 1 4.372 83.074 Step: AIC=80.07 cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:entorno + genero:entorno Df Deviance AIC <none> 1.367 80.069 - genero:entorno 1 3.591 80.294 - cinturon:entorno 1 4.491 81.193 >

MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID

Prof. Lídia Montero © Pàg. 4-1-92 Curs 2.011-2.012

TEMA 4-1: EJEMPLOS. EJEMPLO 3

Modelos logit(ijk) Devianza n-p AIC

1 1912.5 7 1981.2 Cinturón - A + i 1144.4 6 1215.1 Entorno - C + j 1192.8 6 1263.5 Género -D + k 1670.7 6 1741.4

A + D + i+ j 795.82 5 868.52 A + C + i+ k 411.02 5 483.73 D + C + j+ k 911.01 5 983.71 A D + i+ j+ ()ij 795.32 4 870.03 A C + i+ k+ ()ik 408.31 4 483.01

A + D + C + i+ j+ k 7.4645 4 82.167 A D + C + i+ j+ k+ ()ij 7.3826 3 84.085 A C + D + i+ j+ k+ ()ik 3.5914 3 80.294 A + D C + i+ j+ k+ ()jk 4.4909 3 81.193 A D + A C + i+ j+ k+ ()ij+ ()ik 3.5624 2 82.265 A D + D C + i+ j+ k+ ()ij+ ()jk 4.372 2 83.074 A C + D C + i+ j+ k+ ()ik+ ()jk 1.3670 2 80.07 A D + A C + D C + i+ j+ k+ ()ij+ ()ik+ ()jk 1.3253 1 82.028