Regresion lineal simple -...

73
Unidad 2 Regresion lineal simple Javier Santib´ nez (IIMAS, UNAM) Estad´ ıstica II Semestre 2018-1 1 / 73

Transcript of Regresion lineal simple -...

Page 1: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Unidad 2

Regresion lineal simple

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 1 / 73

Page 2: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Planteamiento

El modelo de regresion lineal simple relaciona la variable de interes Y , llamadadependiente, con la variable explicativa X . A traves de la ecuacion

E (Y |X ) = β0 + β1X

Si consideramos las desviaciones de Y de su media E (Y |X ) como errores aleatoriosε ∼ (0, σ2), podemos escribir el modelo como

Y = β0 + β1X + ε

El objetivo es estimar los parametros del modelo: β0, β1 y σ2 a partir de un conjuntode observaciones (x1, y1), (x2, y2), . . . , (xn, yn).

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 2 / 73

Page 3: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Estimacion

• Como primera aproximacion, consideremos el caso en que Y no varia alrededorde su media.

• En este caso, los puntos (x1, y1), (x2, y2), . . . , (xn, yn) caen exactamente sobreuna lınea recta.

• Podemos tomar cualquier par de puntos distintos (xi , yi ) y (xj , yj), i 6= j , paraestimar los parametros como

β1 =yi − yjxi − xj

y β0 = yi − β1xi

• Sin embargo, al considerar que Y no varıa, estamos omitiendo la aleatoriedad,que es nuestro principal interes.

• Si Y varıa alrededor de su media, por cada par de puntos (xi , yi ) y (xj , yj),i 6= j tendrıamos una estimacion distinta de β0 y β1.

• Entonces, ¿cual es la mejor estimacion que podemos hacer?

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 3 / 73

Page 4: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Estimacion (cont.)

• Si los puntos (x1, y1), (x2, y2), . . . , (xn, yn) no son colineales, podemos calcularla desviacion de yi con respecto a su media estimada yi = β0 + β0xi , para β0

y β1 dados:ei := yi − yi = yi − β0 + β0xi

• Las cantidades e1, e2, . . . , en son conocidos como residuos y estan asociadosa estimaciones de β0 y β1.

• De alguna forma los residuos nos dicen que tan bien estamos estimando a losparametros del modelo. Si los residuos son grandes, la estimacion es mala ysi los residuos son chicos, la estimacion es buena.

• ¿Que criterio utilizar para decidir si los residuos son grandes?

• Dado el criterio anterior, ¿como hacer la mejor estimacion posible?

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 4 / 73

Page 5: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Minimos Cuadrados (MCO)

• El metodo de MCO propone utilizar la funcion suma de cuadrados de losresiduos

Q(β0, β1) =n∑

i=1

(yi − β0 − β1xi )2

• Q(β0, β1) es una medida de que tan buena es la estimacion del valoresperado de Y con la recta β0 + β1X . Este es un criterio para decidir si losresiduales son grandes.

• El metodo de MCO propone estimar los parametros con los valores β0 y β1

tales que Q(β0, β1) es mınima.

A los estimadores encontrados bajo esta metodologıa se les conoce comoestimadores de mınimos cuadrados.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 5 / 73

Page 6: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Resultados teoricos

DefinicionesSea f : D ⊂ Rn → R y z ∈ D.

1 Si existe una vecindad Nz ⊂ D tal que f (x) ≤ f (z), para todo x ∈ Nz , sedice que f tiene en z un maximo local.

2 Si existe una vecindad Nz ⊂ D tal que f (x) ≥ f (z), para todo x ∈ Nz , sedice que f tiene en z un mınimo local.

3 Si f (x) ≤ f (z), para todo x ∈ D, se dice que f tiene un maximo absoluto enz .

4 Si f (x) ≥ f (z), para todo x ∈ D, se dice que f tiene un mınimo absoluto enz .

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 6 / 73

Page 7: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Resultados teoricos (cont.)

Definicion (puntos crıticos)

Sea f : D ⊂ Rn → R, con derivadas parciales en D ′ ⊂ D tal que

∂f (x)

∂xi

∣∣∣x=z

= 0, i = 1, . . . , n.

con z ∈ D ′. Se dice que z es un punto critico (o estacionario) de f .

Teorema (condiciones necesarias)

Sea f como en la definicion anterior. Si f tiene un valor extremo en z ∈ D ′,entonces z es un punto crıtico de f .

El reciproco del teorema anterior no es verdadero, pero se pueden dar condicionesen las que en punto crıtico una funcion tiene un valor extremo.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 7 / 73

Page 8: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Resultados teoricos (cont.)

Definicion (matriz hessiana)

Sea f : D ⊂ Rn → R con segundas derivadas parciales en D ′ ⊂ D. Se define lamatriz hessiana de f como

H(x) =

{∂2f (x)

∂xi∂xj

}, i , j = 1, . . . , n.

Teorema (criterio de las segundas derivadas parciales)

Sea f como en la definicion anterior y z ∈ D ′ un punto critico de f . Entonces:

1 Si H(z) en positiva definida, entonces f tiene un mınimo en z .

2 Si H(z) es negativa definida, entonces f tiene un maximo en z .

3 Si H(z) es indefinida, entonces f tiene un punto silla (saddle point) en z .

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 8 / 73

Page 9: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Matrices

Definicion

Sea A una matriz real simetrica de dimension n. Si para todo x vector real (colum-na) de dimension n y x 6= 0:

1 x ′Ax > 0, entonces se dice que A es positiva definida;

2 x ′Ax < 0, entonces A es negativa definida;

Si x ′Ax es positivo para algunos valores de x y negativo para otros, se dice que Aes indefinida.

Proposicion

Sea A = [aij ] una matriz real simetrica de dimension 2.

1 Si a11 > 0 y det(A) > 0, entonces A es positiva definida.

2 Si a11 < 0 y det(A) > 0, entonces A es negativa definida.

3 En otro caso, A es indefinida.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 9 / 73

Page 10: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Solucion analıtica

En el problema de minimizar Q(β0, β1) =∑n

i=1 (yi − β0 − β1xi )2, es facil mostrar

que:

∂Q(β0, β1)

∂β0= −2nyn + 2nβ0 + 2nβ1xn

∂Q(β0, β1)

∂β1= −2

n∑i=1

xiyi + 2nβ0xn + 2β1

n∑i=1

xi2

con xn = n−1∑n

i=1 xi y yn = n−1∑n

i=1 yi . Para encontrar los puntos crıticos deQ(β0, β1) se debe resolver el sistema de ecuaciones:

β0 + xnβ1 = yn

nxnβ0 + β1

(n∑

i=1

x2i

)=

n∑i=1

xiyi

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 10 / 73

Page 11: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Solucion analıtica (cont.)

Se puede mostrar que la solucion al sistema anterior es:

β0 = yn − β1xn y β1 =SxySxx

con Sxx =∑n

i=1(xi − xn)2 y Sxy =∑n

i=1(xi − xn)(yi − yn).

Para determinar si Q tiene un mınimo en (β0, β1) se aplica el criterio de las segundasderivadas parciales. Nuevamente, es facil mostrar que

H(β0, β1) =

[2n 2

∑ni=1 xi

2∑n

i=1 xi 2∑n

i=1 x2i

]Se debe observar que H(β0, β1) es constante para β0 y β1.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 11 / 73

Page 12: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Solucion analıtica (cont.)

H11 = 2n > 0 y

det(H) = 4nn∑

i=1

x2i − 4

(n∑

i=1

xi

)2

> 0

Donde se concluye que Q(β0, β1) tiene un mınimo en el punto

(β0, β1) =

(yn −

SxySxx

xn,SxySxx

)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 12 / 73

Page 13: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Estimacion de la varianza

El metodo de MCO no proporciona una estimacion σ2 pero, una estimacion razo-nable es

σ2 =1

n − 2

n∑i=1

(yi − yi )2

Entonces, los estimadores de MCO del modelo RLS son

β0 = yn −SxySxx

xn

β1 =SxySxx

σ2 =1

n − 2

n∑i=1

(yi − yi )2

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 13 / 73

Page 14: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

El modelo RLS

1 El valor esperado Yi , condicional al valor de la variable explicativa X , estadado por:

E (Y |Xi ) = β0 + β1Xi , i = 1, . . . , n.

2 Si suponemos que Y , dado X , varıa aleatoriamente alrededor de su valoresperado, podemos representar tal desviacion como εi |Xi ∼ (0, σ2).Entonces, podemos escribir el modelo como

Yi = β0 + β1Xi + εi , i = 1, . . . , n.

3 Ademas, suponemos que condicional a los respectivos valores de Xi y Xj , lavariacion de Yi alrededor de su media no esta correlacionada con larespectiva variacion de Yj , es decir, Cov(Yi .Yj |Xi ,Xj) = 0, i , j = 1, . . . , n ei 6= j .

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 14 / 73

Page 15: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

El modelo RLS (cont.)

A parir de la igualdad Yi = β0 +β1Xi +εi , es facil deducir las siguientes propiedadesde Yi :

• V (Yi |X ) = σ2, i = 1, . . . , n.

• Cov(Yi ,Yj) = 0, i , j = 1, . . . , n e i 6= j .

Tambien es importante senalar que los estimadores de MCO son combinacioneslineales de las Y ′s:

β0 =n∑

i=1

(1

n−(xi − xnSxx

)xn

)yi

β1 =n∑

i=1

(xi − xnSxx

)yi

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 15 / 73

Page 16: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Propiedades de los Estimadores de MCO

Las supuestos anteriores y la linealidad de los estimadores de MCO nos permitenmostrar el siguiente resultado.

Proposicion

Los estimadores de MCO de β0 y β1 en el modelo de MCO son insesgados, esdecir:

E (β0|X) = β0 y E (β1|X) = β1

Ademas, la varianza de los estimadores es:

V (β0|X) =

(1

n+

x2

Sxx

)σ2

V (β1|X) =σ2

Sxx

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 16 / 73

Page 17: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Propiedades de los estimadores de MCO (cont.)

Teorema (Gauss-Markov)

Bajo los supuestos del modelo RLS, los estimadores de MCO de β0 y β1 son losMejores Estimadores Lineales Insesgados (MELI, o BLUE, Best Linear UnbiasedEstimators). Es decir, para cualesquiera β0 y β1 estimadores lineales insesgados deβ0 y β1 se tiene

V (β0) ≤ V (β0) y V (β1) ≤ V (β1)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 17 / 73

Page 18: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Limitaciones y alcance de los EMCO

Con los resultados obtenidos hasta el momento, somos capaces de ajustar un mo-delo RLS y usarlo para hacer predicciones de valores futuros. Ademas, el TGM nosgarantiza que los estimadores MCO son los MELI. Pero:

1 ¿Como hacer estimacion por intervalos?

2 ¿Como hacer pruebas de hipotesis?

3 ¿Como cuantificar el error de nuestras predicciones?

4 ¿Como saber si el modelo esta ajustando bien?

Para dar una solucion aceptable a los planteamientos anteriores debemos incluirun supuesto adicional sobre la distribucion de los errores, sobre la forma en que Yvarıa alrededor de su valor esperado.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 18 / 73

Page 19: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Modelo RLS con errores normales

A los supuestos anteriores del modelo RLS agregamos ahora el supuesto que ladistribucion conjunta de los errores, desviaciones de Y con respecto a su valoresperado, tienen una distribucion normal conjunta ε ∼ Nn

(0, σ2In

).

Proposicion,

Con el supuesto de normalidad conjunta en los errores, se cumple que:

• εi es independiente de εj , i , j = 1, . . . , n y i 6= j .

• Yi |Xi ∼ N(β0 + β1Xi , σ

2)

• Y1, . . . ,Yn son independientes , pero no son identicamente distribuidos.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 19 / 73

Page 20: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Funcion de verosimilitud

Con el supuesto de normalidad podemos expresar la verosimilitud de θ = (β0, β1, σ2)

como:

L(θ|x, y) =n∏

i=1

1√2πσ

{exp− 1

2σ2(yi − β0 − β1xi )

2

}

= (2π)−n2 σ−n exp

{− 1

2σ2

n∑i=1

(yi − β0 − β1xi )2

}

`(θ|x, y) = −n

2log(2π)− n

2log(σ2)− 1

2σ2

n∑i=1

(yi − β0 − β1xi )2

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 20 / 73

Page 21: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Estimacion por Maxima Verosimilitud

Al maximizar la log-verosimilitud usando tecnicas de calculo de varias variables(∂`

∂β0,∂`

∂β1,∂`

∂σ2

)= (0, 0, 0)

Nos lleva a resolver las siguientes ecuaciones:

nβ0 + nβ1xn = nyn

nβ0xn + β1

n∑i=1

x2i =

n∑i=1

xiyi

nσ2 −n∑

i=1

(yi − β0 − β1xi )2 = 0

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 21 / 73

Page 22: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Estimacion por Maxima Verosimilitud (cont.)

Las primeras dos ecuaciones, de donde concluimos que los EMV son los de MCO:

β0 = yn −SxySxx

xn y β1 =SxySxx

De la tercera ecuacion despejamos el estimador para σ2:

σ2MV =

1

n

n∑i=1

(yi − β0 − β1xi

)2

=1

n

n∑i=1

(yi − yi )2 =

1

n

n∑i=1

e2i

Donde ei es el i-esimo residuo del modelo.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 22 / 73

Page 23: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Propiedades de los EMV

• Como los EMV de β0 y β1 coinciden con los de MCO, sabemos que son losMELI y

V (β0) =

(1

n+

x2n

Sxx

)σ2 y V (β1) =

σ2

Sxx

• Es facil mostrar que

E σ2MV =

(n − 2)

nσ2

Por lo que el estimador σ2MCO = n

n−2 σ2MV sı es insesgado, lo que justifica su

eleccion.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 23 / 73

Page 24: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos de confianza

Dado que β0 y β0 son combinaciones lineales de v.a. normal es independientes,ambos siguen una distribucion normal y de resultados anteriores conocemos sumedia y varianza:

β0 ∼ N(β0, (n

−1 + x2nS−1xx )σ2

)β1 ∼ N

(β1,S

−1xx σ

2)

Los estadısticos

Ti =βi − βiEE (βi )

, i = 0, 1.

con EE (βi ) =√V (βi ), son cantidades pivotales para β0 y β1, respectivamente,

ya que Ti ∼ N(0, 1). Por lo que pueden ser utilizadas para construir intervalos deconfianza. El problema es que dependen de σ2.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 24 / 73

Page 25: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Resultados auxiliares

Definicion (distribucion t de Student)

Una variable aleatoria continua X tiene distribucion t de Student con parametrosµ, λ y α, denotado por X ∼ Stu(µ, λ, α) si su funcion de densidad esta dada por

f (x) =Γ(α+1

2

)Γ(α2

) (λ

απ

) 12[

1 +λ(x − µ)2

α

]−α+12

, −∞ < x <∞

con −∞ < µ <∞, λ > 0 y α > 0. µ es el parametro de localidad, λ es elparametro de escala y α es el parametro de forma.

Cuando µ = 0, λ = 1 y α es entero y positivo, Stu(0, 1, n) es la distribucion t conn grados de libertad de los cursos de estadıstica basica.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 25 / 73

Page 26: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Resultados auxiliares (cont.)

Proposicion

En el modelo de RLS con errores normales se cumple:

1 (n − 2)σ2MCO/σ

2 ∼ χ2n−2.

2 β0, β1 ⊥ σ2.

Proposicion

Si X ∼ N(0, 1), Y ∼ χ2n y X ⊥ Y , entonces

T =X√Y /n

∼ Stu(0, 1, n)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 26 / 73

Page 27: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Resultados auxiliares (cont.)

Proposicion

Si EE (βi ) se obtiene de EE (βi ) al reemplazar σ2 por σ2MCO , entonces

T ∗i =βi − βiEE (βi )

∼ Stu(0, 1, n − 2), i = 0, 1.

Los estadısticos T ∗i no dependen de los parametros, por lo que podemos utilizarloscomo pivotales para construir intervalos de confianza para βi , i = 0, 1.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 27 / 73

Page 28: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos de confianza para β0 y β1

Si tα/2n−2 representa el cuantil superior α/2, α ∈ (0, 0.5), de la distribucion Stu(0, 1, n−

2), es decir

P(X > t

α/2n−2

)=α

2, con X ∼ Stu(0, 1, n − 2);

entonces

P

(−tα/2

n−2 ≤βi − βiEE (βi )

≤ tα/2n−2

)= 1− α, i = 0, 1.

Por lo tanto un intervalo de confianza 100(1− α) % para βi es:(βi − t

α/2n−2EE (βi ), βi + t

α/2n−2EE (βi )

), i = 0, 1.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 28 / 73

Page 29: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalo de confianza para σ2

En el caso de la varianza σ2, la cantidad pivotal es

(n − 2)σ2MCO

σ2∼ χ2

n.

Si γα1 y γα2 son tales que

P (γα1 ≤ X ≤ γα2 ) = 1− α, con X ∼ χ2n−2,

entonces un intervalo de confianza 100(1− α) % para σ2 es((n − 2)σ2

MCO

γα2,

(n − 2)σ2MCO

γα1

)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 29 / 73

Page 30: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalo de confianza para σ2 (cont.)

• En el caso de los intervalos de confianza para β0 y β1, al tomar tomar los

cuantiles −tα/2n−2 y t

α/2n−2, se garantiza que los intervalos tienen longitud mınima,

debido a que la distribucion Stu(0, 1, n − 2) es simetrica.

• Sin embargo, en el caso de la varianza σ2, la distribucion χ2n−2 es asimetrica,

por lo que al tomar γα1 = χ2n−2(α/2) y γα2 = χ2

n−2(1− α/2), no se garantizaque el intervalo tenga longitud mınima.

• Para cada caso en particular, α y n, se pueden encontrar numericamente losvalores de γα1 y γα2 para los que la longitud del intervalo es mınima.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 30 / 73

Page 31: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

0 5 10 15 20 25 30 35 40 45 50

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.02 0.97

Figura: Densidad χ250.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 31 / 73

Page 32: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Propiedades de σ2MCO y σ2

MV

A partir del resultado(n − 2) σ2

MCO

σ2∼ χ2

n−2

se pueden calcular facilmente los momentos de σ2MCO y σ2

MV . Basta recordar quesi X ∼ χ2

n entonces E (X ) = n y V (X ) = 2n. Entonces:

E(σ2MV

)=σ2

nE

(nσ2

MV

σ2

)=

n − 2

nσ2

E(σ2MCO

)=

σ2

n − 2E

((n − 2)σ2

MCO

σ2

)= σ2

De igual manera se puede mostrar que

V(σ2MV

)= 2(n − 2)n−2σ4 y V

(σ2MCO

)= 2(n − 2)−1σ4.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 32 / 73

Page 33: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos de confianza para el valor esperado de Y

• Tambien es posible calcular intervalos de confianza para el valor esperado dey para un valor dado de x , al que denotaremos por µx .

• Por las propiedades de β0 y β1, µx = β0 + β1x es un estimador insesgado deµx , ademas por ser combinacion lineal de las yi tiene una distribucion normal.

• Es facil mostrar que:

V (µx) =

(1

n+

(x − xn)2

Sxx

)σ2 =: σ2

x

• Entoncesµx ∼ N

(µx , σ

2x

).

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 33 / 73

Page 34: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

IC para el valor esperado de Y (cont.)

• De lo anterior se sigue que

µx − µx√σ2x

∼ N (0, 1)

• Si σ2x se obtiene de reemplazar σ2

MCO por σ2 en σ2x , entonces

µx − µx√σ2x

∼ Stu (0, 1, n − 2)

• Luego, un intervalo de confianza 100(1− α) % para µx esta dado por(µx − t

α/2n−2

√σ2x , µx − t

α/2n−2

√σ2x

)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 34 / 73

Page 35: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos de prediccion

• Tambien podemos hacer inferencias sobre nuevas observaciones de Y para unvalor de X dado, que denotaremos por Yx

• Como Yx es una variable aleatoria utilizamos predictores e intervalos de pre-diccion.

• Recordemos que Yx ∼ N(β0 + β1X , σ2).

• Si los parametros del modelo fueran conocidos, un predictor puntual de Yx esβ0 + β1x y un intervalo de prediccion para Yx estarıa dado por(

β0 + β1x − zα/2σ, β0 + β1x + zα/2σ)

donde zα/2 es el cuantil superior α/2 de una distribucion N(0, 1).

• Como los parametros del modelo RLS son desconocidos, debemos estimarlos,esto hace que la varianza del la prediccion crezca.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 35 / 73

Page 36: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos de prediccion (cont.)

• La varianza de la prediccion tiene dos componentes: una debida a la estimacionde los parametros del modelo y otra debida a la variabilidad de Yx .

V(Yx

)= V (µx) + V (Yx) =

(1 +

1

n+

(x − xn)2

Sxx

)σ2

• Utilizamos como pivotal a

µx − Yx√V (Yx)

∼ Stu (0, 1, n − 2)

• Luego, un intervalo de prediccion para Yx es(µx − t

α/2n−2

√V (Yx), µx + t

α/2n−2

√V (Yx)

)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 36 / 73

Page 37: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos simultaneos

• Los intervalos de confianza y prediccion que se mostraron anteriormente sonindividuales.

• Las conclusiones que se hagan sobre varios intervalos simultaneamente notienen necesariamente la misma confianza.

• Se debe hacer algun ajuste en la construccion para obtener una significanciaconjunta dada.

• Existen dos metodos: Bonferroni y Working-Hottelling-Scheffe ambos conpropiedades diferentes.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 37 / 73

Page 38: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Intervalos simultaneos (continuacion))

Metodo de Bonferroni• Se basa en el principio de inclusion exclusion.

• Para construir k intervalos simultaneos propone usar tα/2kn−2 en lugar de t

α/2n−2.

• Es recomendable para valores de k pequenos.

Metodo de Working-Hotelling-Scheffe

• Se basa en la distribucion conjunta de β0 y β1 y utiliza un criterio deoptimizacion.

• Es recomendable para construir muchos intervalos simultaneos.

• Para cualquier numero de intervalos propone utilizar 2Fα2,n−2 en lugar de

tα/2n−2.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 38 / 73

Page 39: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis

• Con los intervalos de confianza anteriores podemos probar hipotesis sobre losparametros del modelo RLS.

• Una de las hipotesis mas importantes es H0 : β1 = 0. Recordemos que elmodelo RLS establece que el valor esperado de Y depende de X . Si H0 escierta, significa que no la media de Y no se ve afectada por X .

• La hipotesis H0 : β0 = 0 no tiene una interpretacion tan relevante comola hipotesis anterior, sin embargo, puede servir para determinar si utilizar unmodelo RLS con o sin intercepto.

• En general, las inferencias sobre σ2 son de utilidad para realizar prediccionescon el modelo. Recordemos que la amplitud de los intervalos de prediccionson mas amplios debido a la variabilidad intrinseca de Y . Si la varianza de Yes grande, las predicciones que se hagan no seran precisas.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 39 / 73

Page 40: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis (cont.)

15 20 25 30 35 40 45 50 55 60 65

0

25

50

75

100

125

150

175

200

●●

●●

●●

●●

●●

●●

●●

15 20 25 30 35 40 45 50 55 60 65

0

25

50

75

100

125

150

175

200

●●

●●

●●

●● ●

● ●

●●

● ●

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 40 / 73

Page 41: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis para β1

Recordamos queβ1 ∼ N

(β1,S

−1xx σ

2)

y que

T ∗ =β1 − β1√S−1xx σ2

MCO

∼ Stu (0, 1, n − 2)

T ∗ ası definida no es una estadıstica (Pues depende de β1 que es desconocida) sinembargo al fijar β1 en una prueba de hipotesis ya puede ser utilizada para construirla region de rechazo.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 41 / 73

Page 42: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis para β1 (cont.)

Para contrastar las hipotesis

H0 : β1 = b1 vs H1 : β1 6= b1

La regla de decision es: rechazar H0 con una significancia α si

|t∗| > tα/2n−2

donde: t∗ es el valor de T ∗ con calculado con los datos observados y β1 = b1.

−5 −4 −3 −2 −1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 42 / 73

Page 43: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis para β1 (cont.)

Para contrastar las hipotesis

H0 : β1 ≤ b1 vs H1 : β1 > b1

La regla de decision es: rechazar H0 con una significancia α si

t > tαn−2

−5 −4 −3 −2 −1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 43 / 73

Page 44: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis para β1 (cont.)

Para contrastar las hipotesis

H0 : β1 ≥ b1 vs H1 : β1 < b1

La regla de decision es: rechazar H0 con una significancia α si

t < t1−αn−2

−5 −4 −3 −2 −1 0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 44 / 73

Page 45: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis para β0

Hipotesis Region de rechazo

H0 : β0 = b0 vs. H1 : β0 6= b0 |t∗| > tα/2n−2

H0 : β0 ≤ b0 vs. H1 : β0 > b0 t∗ > tαn−2

H0 : β0 ≥ b0 vs. H1 : β0 < b0 t∗ < t1−αn−2

donde:

t∗ =β0 − b0√

σ2MCO

(1n +

x2n

Sxx

)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 45 / 73

Page 46: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Pruebas de hipotesis para σ2

Hipotesis Region de rechazo

H0 : σ2 = s vs H1 : σ2 6= s t < χ2 (1−α/2)n−2 o t > χ

2 (α/2)n−2

H0 : σ2 ≤ s vs H1 : σ2 > s t > χ2 (α)n−2

H0 : σ2 ≥ s vs H1 : σ2 < s t < χ2 (1−α)n−2

donde:

t =(n − 2)σ2

MCO

s

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 46 / 73

Page 47: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Prueba de razon de verosimilitudes para β1

• La region de rechazo construida para la prueba H0 : β1 = b1 vs H1 : β1 6=b1 se obtuvo a partir de la distribucion de β1.

• Ahora se obtendra una prueba a partir del cociente de verosimilitudes genera-lizadas.

• La prueba basada en el cociente de verosimilitudes nos indica rechazar H0 si:

Λ =L0

L1=

supθ∈Θ0L (θ); x, y)

supθ∈Θ L (θ; x, y)< k

con k elegida para un nivel de significancia dado y

Θ0 ={(β0, β1, σ

2)

: β0 ∈ R, β1 = b1, 0 < σ2 <∞}

Θ ={(β0, β1, σ

2)

: β0 ∈ R, β1 ∈ R, 0 < σ2 <∞}

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 47 / 73

Page 48: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Prueba de razon de verosimilitudes para β1 (cont.)

• Para encontrar L0 debemos encontrar los EMV bajo H0 : β1 = b1.

• Bajo H0 la verosimilitud es:

L (θ0; x, y) = (2π)−n/2 (σ2)−n/2

exp

(− 1

2σ2

n∑i=1

(yi − β0 − b1xi )2

)

• Al maximizar con respecto a β0 y σ2 obtenemos:

β0 = yn − b1xn y σ2 =1

n

n∑i=1

(yi − β0 − b1xi

)2

• Entonces:L0 = (2π)−n/2 (

σ2)−n/2

e−n/2

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 48 / 73

Page 49: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Prueba de razon de verosimilitudes para β1 (cont.)

• L1 es la verosimilitud del modelo RLS evaluada en los estimadores de maximaverosimilitud.

• Es facil mostrar que

L1 = (2π)−n/2 (σ2MV

)−n/2e−n/2

• Entonces:

Λ =(2π)−n/2 (

σ2)−n/2

e−n/2

(2π)−n/2 (σ2MV )

−n/2e−n/2

=

(σ2MV

σ2

)n/2

• Por lo que la prueba de razon de verosimilitudes tiene region de rechazo

σ2MV

σ2< k

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 49 / 73

Page 50: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Prueba de razon de verosimilitudes para β1 (cont.)

• Para determinar por completo la region de rechazo se debe elegir k de maneraque la prueba cumpla con la significancia especıficada.

• Para esto se debe trabajar un poco mas con el cociente

σ2MV

σ2=

∑ni=1 (yi − yi )

2∑ni=1

(yi − β0 − b1xi

)2

• Es sencillo verificar que

n∑i=1

(yi − β0 − b1xi

)2

=n∑

i=1

(yi − yn)2 + b21Sxx − 2b1Sxy

• Tambien es facil verificar que:

n∑i=1

(yi − yn)2 =n∑

i=1

(yi − yn)2 +n∑

i=1

(yi − yi )2

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 50 / 73

Page 51: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Prueba de razon de verosimilitudes para β1 (cont.)

• Una vez mas, es facil mostrar que:

n∑i=1

(yi − yn)2 = β21Sxx

• Al combinar los resultados anteriores obtenemos:

σ2MV

σ2=

∑ni=1 (yi − yi )

2∑ni=1 (yi − yi )

2 + Sxx(β1 − b1

)2

• Entonces

σ2MV

σ2> k ⇔

Sxx(β1 − b1

)2

∑ni=1 (yi − yi )

2 > c ⇔

∣∣∣β1 − b1

∣∣∣√V(β1

) > c∗

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 51 / 73

Page 52: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Analisis de varianza (ANOVA)

• ¿Hay algun efecto de la variable X sobre el valor esperado de Y , es decirβ1 = 0?

• La prueba de razon de verosimilitudes nos da como region de rechazo:

σ2MV

σ2=

∑ni=1 (yi − yi )

2∑ni=1 (yi − yn)2 < k ⇔

∑ni=1 (yi − yn)2∑ni=1 (yi − yi )

2 > c

• La igualdad

n∑i=1

(yi − yn)2 =n∑

i=1

(yi − yn)2 +n∑

i=1

(yi − yi )2

relaciona tres sumas de cuadrados llamadas: SC del total corregido por lamedia (SCTC ), SC de regresion (SCreg ) y SC residual o del error (SCerror ).

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 52 / 73

Page 53: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

ANOVA (cont.)

Proposicion

En el modelo RLS con errores normales y bajo H0 : β1 = 0:

a) SCreg/σ2 ∼ χ2

1.

b) SCerror/σ2 ∼ χ2

n−2.

c) SCreg ⊥ SCerror .

Distribucion FSe dice que una variable aleatoria X tiene una distribucion F de Snedecor conparametros n1 > 0 y n2 > 0 si su densidad esta dada por

f (x ; n1, n2) =1

Beta(n1

2 ,n2

2

) ( n1x

n1x + n2

) n12(

1− n1x

n1x + n2

) n22

x−1

para x > 0. Lo anterior se denota como X ∼ Fn1,n2 . Los parametros se llamangrados de libertad del numerador y denominador, respectivamente.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 53 / 73

Page 54: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

ANOVA (cont.)

Proposicion

Si X ∼ χ2n1

, Y ∼ χ2n2

y X ⊥ Y entonces

X/n1

Y /n2∼ Fn1,n2

De lo anterior se sigue que∑ni=1 (yi − yn)2∑ni=1 (yi − yi )

2 ∝ F ∼ F1,n−2

de donde podemos especificar la prueba F que se usa en el analisis de varianza.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 54 / 73

Page 55: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

ANOVA (cont.)

Todo lo anterior se resume en la siguiente tabla, que recibe el nombre de tablaANOVA:

FV GL SC CM F

Regresion 1∑n

i=1 (yi − yn)2 SCreg

1CMreg

CMerror

Error n − 2∑n

i=1 (yi − yi )2 SCerror

n−2

Total n − 1∑n

i=1 (yi − yn)2

• FV: fuente de variacion.

• GL: grados de libertad.

• SC: suma de cuadrados.

• CM: cuadrado medio.

• F: cociente de cuadrados medios de regresion y del error.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 55 / 73

Page 56: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Relacion entre la prueba t y la prueba F

• ¿Que relacion tienen las pruebas t y F para contrastar la hipotesis H0 : β1 = 0.

• En el modelo RLS, no hay diferencias.

• La prueba de t para probar H0 : β1 = 0 rechaza si∣∣∣β1

∣∣∣√V(β1

) > tα/2n−2 ⇔ Sxx β

21

SCerror/(n − 2)>(tα/2n−2

)2

• Como tendran que mostrar en la tarea

SCreg =n∑

i=1

(yi − yn)2 = Sxx β21

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 56 / 73

Page 57: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Relacion entre la prueba t y la prueba F (cont.)

• Entonces la region de rechazo de la prueba de t es equivalente a

SCreg

SCerror/(n − 2)>(tα/2n−2

)2

• El estadıstico de prueba es entonces el mismo que el de la prueba F , ¿que hayde las constantes que determinan la region de rechazo?

• De resultados anteriores es facil mostrar que si T ∼ tn−1, entonces T 2 ∼ F1,n2 .

• En conclusion, en el modelo RLS las pruebas t y F son equivalentes paracontrastar H0 : β1 = 0.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 57 / 73

Page 58: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

El coeficiente de determinacion R2

• Se define el coeficiente de determinacion del modelo de regresion como

R2 =SCreg

SCTC= 1− SCerror

SCTC

• El coeficiente R2 y el cual sirve como una medida del ajuste del modelo.

• SCTC es la variabilidad total de Y .

• SCerror es la variabilidad residual, es decir, lo que el modelo lo logra explicar.

• Entonces, R2 es la proporcion de la variabilidad total que se logra explicar conel modelo.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 58 / 73

Page 59: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Relacion del R2 y la correlacion de Pearson

• El coeficiente de correlacion de Pearson entre x1, . . . , xn y y1, . . . , yn se definecomo

r =Sxy√SxxSyy

• r es una medida de asociacion lineal entre las variables x y y .

• Se puede mostrar que r ∈ (−1, 1).

• r = 1 indica una relacion lineal directa x − a ∝ y . r = −1 indica una relacionlineal inversa x − a ∝ −y . r = 0 indica que no hay una relacion lineal entrelas variables.

• Se puede mostrar que r2 = R2, donde R2 es el coeficiente de determinacionde la regresion de y sobre x .

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 59 / 73

Page 60: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Coeficiente de correlacion de Pearson

15 20 25 30 35 40 45 50 55 60 65

25

50

75

100

125

150

175

●●

● ●

●●

●●●

●●

●●

●●

●●

●● ●

●●

r = 0.95317

15 20 25 30 35 40 45 50 55 60 65

25

50

75

100

125

150

175

●●

● ●

●●

●●●

● ● ●

●●

●●

r = −0.9553

15 20 25 30 35 40 45 50 55 60 65

25

50

75

100

125

150

175

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

r = −0.1143

15 20 25 30 35 40 45 50 55 60 65

25

50

75

100

125

150

175

●●

●●

● ●

●●

●●

● ●●

●● ●

●●

●●

●●

●●

●●

r = −0.21874

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 60 / 73

Page 61: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Validacion de los supuestos del modelo

• Por el Teorema de Gauss-Markov, las estimaciones puntuales son MELI.

• Los supuestos del teorema son:• Correcta especificacion del modelo.• Errores no correlacionados.• Varianza constante.

• Los resultados estimacion por intervalos y pruebas de hipotesis descansan sobreel supuesto de normalidad en los errores.

¡La validez de nuestras inferencias depende de que lossupuestos se cumplan!

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 61 / 73

Page 62: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

No linealidad en el modelo

• El modelo RLS establece que:

E (Y |X ) = β0 + β1X

• Entonces, si hacemos un grafico de dispersion de los datos, deberıamos poderobservar que las observaciones se distribuyen aproximadamente alrededor deuna recta.

• Tambien se pueden detectar desviaciones al supuesto de linealidad a partir dela grafica de residuos contra la variable explicativa.

• ¿Que hacer si lo que observamos no es patron lineal?

• Una solucion es aplicar transformaciones a los datos, de acuerdo a los patronesobservados.

• x∗ = xk , con k 6= 0.• x∗ = log (x), si x > 0.• y∗ = log (y), si x > 0.• y∗ = log (y) y x∗ = log (x), si x , y > 0.

• Otras soluciones son ajustar un modelo polinomial o incorporar mas variablesal modelo.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 62 / 73

Page 63: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Ejemplos de no linealidad

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 63 / 73

Page 64: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Ejemplos de no linealidad (cont.)

●●

●●

●●

●●

●●

● ●●

● ● ●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 64 / 73

Page 65: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Ejemplos de no linealidad (cont.)

●●

●●

●●

●●

●●

●●

x

●●

●●

● ●

●●

● ●

●●

●●

●● ●

x

resi

dual

s(aj

uste

1)

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

● ●

resi

dual

s(aj

uste

2)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 65 / 73

Page 66: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Errores no correlacionados

• El modelo RLS establece que Cov (εi , εj) = 0.

• Lo anterior implica que Corr (εi , εj) = 0.

• ei = yi − yi es un estimador de εi .

• Se pueden utilizar los residuos e1, . . . , en para verificar si este supuesto secumple.

• La idea es basica es considerar los residuos ordenados segun el numero deobservacion, en el orden en que fueron obtenidos lo datos o bien, segun elorden inducido por x .

• Se puede utilizar la funcion de autocorrelacion para identificar alguna depen-dencia en los resiudos.

• Tambien se puede utilizar una prueba no parametrica, conocida como pruebade rachas, para identificar rachas en los signos de las residuos.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 66 / 73

Page 67: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Ejemplos errores no correlacionados

●●

●●●

●●

● ●

● ●

x

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

1:100

resi

dual

s(aj

uste

0)

0 5 10 15 20

−0.

20.

00.

20.

40.

60.

81.

0

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 67 / 73

Page 68: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Ejemplos errores correlacionados

●●

●●

●●

● ●

x

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●●●●●

●●●

●●

●●

●●

●●●

1:100

resi

dual

s(aj

uste

3)

0 5 10 15 20

−0.

20.

00.

20.

40.

60.

81.

0

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 68 / 73

Page 69: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Autocorrelacion

• La autocorrelacion de una serie de datos discreta de un proceso Xt es masque el coeficiente de correlacion de dicho proceso con una version desplazadade la propia serie.

• La forma en como se calcula es la siguiente: suponiendo que tenemos a la seriede datos (e1, e2, . . . , en) entonces la funcion de autocorrelacion con rezago kse obtiene como:

rk =

∑n−ki=1 (ei − e) (ei−k − e)∑n

i=1 (ei − e)2

• Si rk se aleja del valor 0 hay evidencia de que cada k observaciones hay unpatron de los residuales pues dichas observaciones estan muy correlacionadaslo que implicarıa dependencia de los residuales.

• En R la funcion acf se usa para obtener la autocorrelacion de una serie deobservaciones.

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 69 / 73

Page 70: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Rachas

• Otra forma que tenemos de verificar que los residuales son independientes esprobar la aleatoreidad con la que van cambiando de signo los errores, si losresiduales son independientes se esperarıa que el cambio de signo del residualconforme se va obteniendo la muestra es aleatorio.

• Se considera una Racha de tamano k a la secuencia de k de valores consecu-tivos de un mismo signo siempre y cuando estos sean precedidos y seguidospor valores con signo opuesto a la de la Racha.

• Por ejemplo, la cadena + + − + − tiene solo una racha de +. La cadena+ +−−−+−−−+ +−−+ + + + tiene distintas rachas de + y −.

• La idea de la prueba es contar el numero de rachas en la muestra, luego unnumero reducido o grande de rachas es indicio de que las observaciones no sehan obtenido de forma aleatoria.

• Si la muestra es grande y la hipotesis de aleatoriedad es cierta la distribucionmuestral del numero de rachas R, puede aproximarse mediante una distribucionNormal de parametros:

µR =2n1n2

nσ2R =

2n1n2(2n1n2 − n)

n2(n − 1)

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 70 / 73

Page 71: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Ejemplos de errores con rachas

La prueba de Rachas se encuentra programada de R y se encuentra dentro de lalibrerıa tseries bajo el nombre runs.test, esta funcion recibe un vector con valoresbinarios indicando el signo del residual.Ejemplo:

library(tseries)

runs.test(as.factor(res>0))

Runs Test

data: as.factor(res > 0)

Standard Normal = 0.004, p-value = 0.9968

alternative hypothesis: two.sided

library(tseries)

runs.test(as.factor(res2>0))

Runs Test

data: as.factor(res2 > 0)

Standard Normal = 9.8499, p-value < 2.2e-16

alternative hypothesis: two.sided

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 71 / 73

Page 72: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Homocedasticidad

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 72 / 73

Page 73: Regresion lineal simple - UNAMsigma.iimas.unam.mx/jsantibanez/Cursos/Ciencias/2018_1/2_rls.pdfRegresion lineal simpleUnidad 2 Javier Santib anez~ (IIMAS, UNAM) Estad stica II Semestre

Normalidad

Javier Santibanez (IIMAS, UNAM) Estadıstica II Semestre 2018-1 73 / 73