Regresion Lineal
description
Transcript of Regresion Lineal
ESTADISTICA
Grado en CC. de la Alimentacion
Tema 4Regresion lineal simple
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 1
Estructura de este tema
• Planteamiento del problema. Ejemplos.
• Recta de regresion de mınimos cuadrados.
• El modelo de regresion lineal simple.
• IC y contrastes para los parametros del modelo.
• Prediccion.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 2
Introduccion
En algunas situaciones, los diagramas de dispersion sugieren quehay una relacion lineal entre dos variables.
Asociacion positiva Asociacion negativa
3 4 5 6 7
3
4
5
6
7
3 4 5 6 7
3
4
5
6
7
Pregunta: ¿Como es la correlacion en estos dos ejemplos?Aplicaciones:
• Resumir la informacion de los datos mediante una recta.• Predecir valores de una variable usando la otra.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 3
Ejemplo 4.1: Observamos dos variables en una muestra de paısesdesarrollados (fichero vino.sav):
• X : Consumo anual de vino (en litros por habitante)
• Y : No de muertes por enfermedad cardıaca, por cada 100.000 hab.
Paıs X Y Paıs X YAustralia 2,5 211 Paıses Bajos 1,8 167Austria 3,9 167 Nueva Zelanda 1,9 266Belgica 2,9 131 Noruega 0,8 227Canada 2,4 191 Espana 6,5 86Dinamarca 2,9 220 Suecia 1,6 207Finlandia 0,8 297 Suiza 5,8 115Francia 9,1 71 Reino Unido 1,3 285Islandia 0,8 211 Estados Unidos 1,2 199Irlanda 0,7 300 Alemania 2,7 172Italia 7,9 107
¿Que podemos decir sobre la relacion entre las dos variables?
¿Podemos afirmar que a mayor consumo de vino menor numero demuertes por enfermedad cardıaca?
¿Podemos predecir aproximadamente el valor de la variable Y sisabemos el valor de X ?
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 4
Frecuencias
[Conjunto_de_datos1] C:\Documents and Settings\usuario\Mis documentos\joser\docencia\estap\datos\vino.sav
Estadísticos
19 19
0 0
3,026 191,05
2,5097 68,396
Válidos
Perdidos
N
Media
Desv. típ.
Vino Card
Página 1
10,08,06,04,02,00,0
Vino
300
250
200
150
100
50
Ca
rd
Irlanda
Francia
Correlaciones
1 -,843
,000
19 19
-,843 1
,000
19 19
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Vino
Card
Vino Card
Página 1
Consumo de vino
1086420
Mue
rtes
por e
nfer
med
ad c
ardi
aca
300
250
200
150
100
50
Alemania
Estados Unidos
Reino Unido
Suiza
Suecia
España
Noruega
Nueva Zelanda
Países Bajos
Italia
Irlanda
Islandia
Francia
Finlandia
Dinamarca
Canadá
Bélgica
Austria
Australia
Página 1
Pregunta: ¿Implica esta asociacion causalidad?
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 5
Asociacion estadıstica y causalidad
La asociacion entre una causa (C) y un efecto (E), puede surgirde tres modos distintos:
(a) C es causa de E.
2
2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:
a) C es causa de E
C E
b) C y E tiene una causa común (variable X)
C E
X
c) E es causa de C
C E
Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:
i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.
(b) C y E tiene una causa comun (variable X).
2
2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:
a) C es causa de E
C E
b) C y E tiene una causa común (variable X)
C E
X
c) E es causa de C
C E
Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:
i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.
(c) E es causa de C.
2
2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:
a) C es causa de E
C E
b) C y E tiene una causa común (variable X)
C E
X
c) E es causa de C
C E
Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:
i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 6
Ejemplo 4.2: Renta y fracaso escolar en la CAM
Ana JustelAna Justel
EjemploEjemplo
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 7
Ejemplo 4.2 (cont.): Renta y fracaso escolar en la CAM
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
10 12 14 16 18 20 22
1015
2025
3035
Renta (en miles de euros)
% fr
acas
o es
cola
r
Arganda
Torrelodones
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 8
El problema de regresion
El objetivo es analizar la relacion existente entre dos variables, X eY , de forma que podamos predecir o aproximar el valor de lavariable Y a partir del valor de la variable X .
• La variable Y se llama variable respuesta
• La variable X se llama variable regresora o explicativa
Observacion: En un problema de regresion el papel de las dosvariables no es simetrico. La variable X juega el papel de variableindependiente y la variable Y el papel de variable dependiente (deX ).
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 9
La recta de regresion
Es frecuente suponer que existe entre las variables observadas unarelacion aproximadamente lineal:
yi ≈ a + bxi , i = 1, . . . , n.
• La recta y = a + bx es una recta de regresion.
• El parametro b es la pendiente de la recta. Indica comocambia la variable respuesta cuando el incremento de x es unaunidad.
• El parametro a es el termino independiente de la recta.Indica el valor de Y cuando X = 0.
Problema estadıstico: Estimar los parametros a y b a partir delos datos (xi , yi ), i = 1, . . . , n, de una muestra.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 10
La recta de mınimos cuadrados
Si estimamos a y b mediante a y b, la prediccion de la variablerespuesta Y en funcion del regresor X es:
Y = a + bX .
En particular, para los datos de la muestra los valores previstos deY son
yi = a + bxi , i = 1, . . . , n.
Definimos los residuos como ei = yi − yi = yi − (a + bxi ).
La recta de regresion de mınimos cuadrados viene dada por losvalores a y b que minimizan la suma de cuadrados residual
n∑i=1
e2i =
n∑i=1
[yi − yi ]2 =
n∑i=1
[yi − (a + bxi )]2 = n · ECM.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 11
Los residuos:
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−1
01
23
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−1
01
23
x
y
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 12
Los estimadores mınimo-cuadraticos de a y b son
b =covx ,y
vx= r
√vy
vxa = y − bx ,
donde r es el coeficiente de correlacion, vy y vx son las varianzasmuestrales de Y y X respectivamente.
Ejemplo 4.1 (cont.): Consumo de vino y muertes cardıacas
b = −0, 84368, 396
2, 5097= −22, 974
a = 191, 05− (−22, 974) · 3, 026 = 260, 57
Recta de regresion estimada: y = 260, 57− 22, 974x
Prediccion de Y para x0 = 4:y0 = 260, 57− 22, 974 · 4 = 168, 674
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 13
Ejemplo 4.1 (cont.):
Consumo de vino
1086420
Mue
rtes
por
enf
erm
edad
car
díac
a300
250
200
150
100
50R2 Lineal = 0,71
Página 1
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 14
Observaciones:
• La recta de mınimos cuadrados pasa por el punto cuyascoordenadas son las medias: (x , y).
• La suma de los residuos siempre vale cero.
• La recta para predecir Y en funcion de X no es la misma quela recta para predecir X en funcion de Y .
• Como medida de la bondad del ajuste de la recta a los datos,se utiliza el coeficiente de determinacion R2: el cuadrado delcoeficiente de correlacion. Cuando R2 esta cerca de 0, elajuste sera malo. Cuando R2 esta cerca de 1, el ajustesera bueno. R2 indica el porcentaje de variabilidad de Yexplicado por la regresion lineal en funcion de X .
• No es aconsejable realizar predicciones con la recta deregresion fuera del rango de valores observados.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 15
El modelo de regresion lineal simple
Para poder hacer inferencia (IC y contrastes) sobre los parametros,suponemos que se verifica el siguiente modelo:
Yi = a + b xi + εi , i = 1, . . . , n,
donde:
• El valor esperado de los errores εi es cero.
• Todos los errores tienen la misma varianza σ2.
• Los errores tienen distribucion normal.
• Los errores son v.a. independientes entre sı.
En resumen:
ε1, . . . , εn son N(0, σ) independientes
que equivale a
Yi es N(a + b xi , σ) e Y1, . . . ,Yn independientes.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 16
Suposiciones del modelo de regresion lineal simple:
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 17
¿En cuales de las 4 situaciones se verifica el modelo?
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
● ●
●
●
●●
●
●●
●
●
●
1 2 3 4 5 6
12
34
56
7
x
y1
●
●
●
●
●
●●
●
●
●●
●
●● ●
●●●
● ●●●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
−4 −2 0 2 4
05
1015
2025
x2
y2
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
● ●●
●●● ●●● ●
●
●
●
●●
●
●
●●
●●
●
●
●
● ●●
●
●
●
●●
●
●
●
1 2 3 4 5 6
−10
010
2030
x
y3●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●
1 2 3 4 5 6
23
45
67
x
y4
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 18
Ejemplo 4.1 (cont.): Consumo de vino y enfermedades cardıacas
Valor previsto de Y
25020015010050
Res
iduo
50
25
0
-25
-50
-75
Página 1
Si en el grafico de residuos ei frente a valores previstos yi , lospuntos no se disponen aleatoriamente en una banda horizontal deanchura constante en torno a 0, entonces falla alguna de lashipotesis del modelo.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 19
Ejemplo 1.6 (cont.): Sabor del queso cheddar
Ácido láctico
2,22,01,81,61,41,21,00,8
Sab
or
60
50
40
30
20
10
0
Página 1
Valor previsto
50403020100
Res
iduo
30
20
10
0
-10
-20
Página 1
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 20
Una simulacion
Supongamos que σ = 1, a = 0 y b = 1
Entonces el modelo esYi = xi + εi ,
donde los errores εi tienen distribucion normal estandar y sonindependientes
Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestascorrespondientes de acuerdo con este modelo
Posteriormente calculamos la recta de mınimos cuadrados y larepresentamos junto con la verdadera recta y = x
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 21
Repetimos 6 veces el experimento
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
24
68
10
x
●
●
●●
●
●
●
●
●
●
0 2 4 6 8 10
24
68
10
x
●
● ●
●
●
●
●
●
●
●
0 2 4 6 8 10
02
46
810
x
●
●
●
●●
●
●
●
●
●
0 2 4 6 8 10
−20
24
68
10
x
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
02
46
8
x
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
24
68
10x
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 22
Repetimos 6 veces el experimento
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
24
68
10
b = 0.9
●
●
●●
●
●
●
●
●
●
0 2 4 6 8 10
24
68
10
b = 0.95
●
● ●
●
●
●
●
●
●
●
0 2 4 6 8 10
02
46
810
b = 1.11
●
●
●
●●
●
●
●
●
●
0 2 4 6 8 10
−20
24
68
10
b = 1.01
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
02
46
8
b = 0.84
●
●
●
●
●
●
●
●
●
●
0 2 4 6 8 10
24
68
10b = 0.99
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 23
Repetimos 1000 veces el experimento
â−2 −1 0 1 2
010
025
0
b0.6 0.8 1.0 1.2 1.4
050
150
• Los estimadores vancambiando para lasdiferentes muestras
• Existen formulas delerror tıpico de β0 yβ1 que recogen estavariabilidad
• Estas formulas sonlas que se utilizanpara calcular IC yllevar a cabocontrastes en lo quesigue.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 24
Inferencia en el modelo de regresion simple
Intervalos de confianza
Los intervalos de confianza de nivel 1− α para los parametros a yb tienen la estructura habitual:(
ai ∓ tn−2;α/2 · e.t.(a)) (
bi ∓ tn−2;α/2 · e.t.(b))
En comparacion con los intervalos de confianza para la media:
• Los grados de libertad son n − 2 en lugar de n − 1.
• La formula del error tıpico es mas complicada (siempre localcularemos con el ordenador).
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 25
Contrastes para el parametro de la regresion b
En los contrastes para a las expresiones son las mismas (dondepone b ponemos a).
Contrastes unilaterales:
• Hipotesis: H0 : b ≤ b0 frente a H1 : b > b0
• Region crıtica:
R =
{b − b0
e.t.(b)> tn−2,α
}.
• Hipotesis: H0 : b ≥ b0 frente a H1 : b < b0
• Region crıtica:
R =
{b − b0
e.t.(b)< −tn−2,α
}.
Contraste bilateral:
• Hipotesis: H0 : b = b0 frente a H1 : b 6= b0
• Region crıtica:
R =
{|b − b0|e.t.(b)
> tn−2,α/2
}.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 26
Ejemplo 4.1 (cont.): Consumo de vino y enfermedades cardıacas
Sabiendo que el error tıpico del estimador de mınimos cuadradosde la pendiente es 3.557, calcula un IC para β1 de nivel 95 %:[
β1 ∓ tn−2,α/2 × e.t.(β1)]≡ [−22,974∓ 2,11× 3,557]
ya que t17,0,025 = 2,11.
¿Aportan los datos evidencia para afirmar (α = 0,01) que unincremento en el consumo de vino esta asociado a un menornumero de muertes por enfermedad cardıaca?
Queremos contrastar H0 : β1 ≥ 0 frente a H1 : β1 < 0. Calculamos:
t =−22,974
3,557= −6,457 y − t17,0,01 = −2,567
Como −6,457 < −2,567 rechazamos H0.
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 27
Ejemplo 4.1 (cont.): Con SPSS
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 28
Ejemplo 4.1 (cont.): Con SPSS
Resumen del modelob
,843a ,710 ,693 37,879
Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Vinoa.
Variable dependiente: Cardb.
Coeficientesa
260,563 13,835 18,833 ,000
-22,969 3,557 -,843 -6,457 ,000
(Constante)
Vino
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizado
s
t Sig.
Variable dependiente: Carda.
Página 1
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 29
Ejemplo 4.2 (cont.): Renta y fracaso escolar en la CAM con SPSS
Resumen del modelob
,742a ,550 ,528 4,7566
Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Rentaa.
Variable dependiente: Fracasob.
Coeficientesa
38,494 **** 10,562 ,000
-1,347 ,266 -,742 -5,065 ,000
(Constante)
Renta
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizado
s
t Sig.
Variable dependiente: Fracasoa.
Página 1
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 30
Ejemplo 4.2 (cont.): Renta y fracaso escolar en la CAM.
(a) Escribe la ecuacion de la recta de mınimos cuadrados quedescribe el nivel de fracaso escolar como funcion de la renta.
(b) Calcula los intervalos de confianza de nivel 95 % para lapendiente y el termino independiente de la recta de regresion.
(c) ¿Podemos afirmar, a nivel α = 0,05 que niveles mas altos derenta estan asociados a niveles mas bajos de fracaso escolar?
(d) ¿Cuanto vale el coeficiente de correlacion entre el nivel derenta y el porcentaje de fracaso escolar?
(e) ¿Que porcentaje de fracaso escolar se predice en unapoblacion cuya renta es x0 = 13000 euros?
(f) ¿Cual es el residuo correspondiente a Colmenar Viejo?
Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 31