Regresion Lineal

31
ESTAD ´ ISTICA Grado en CC. de la Alimentaci´ on Tema 4 Regresi´ on lineal simple Estad´ ıstica (Alimentaci´ on). Profesora: Amparo Ba´ ıllo Tema 4: Regresi´ on lineal simple 1

description

Probabilidad y Estadítica, regresión lineal, ejercicios resueltos.

Transcript of Regresion Lineal

Page 1: Regresion Lineal

ESTADISTICA

Grado en CC. de la Alimentacion

Tema 4Regresion lineal simple

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 1

Page 2: Regresion Lineal

Estructura de este tema

• Planteamiento del problema. Ejemplos.

• Recta de regresion de mınimos cuadrados.

• El modelo de regresion lineal simple.

• IC y contrastes para los parametros del modelo.

• Prediccion.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 2

Page 3: Regresion Lineal

Introduccion

En algunas situaciones, los diagramas de dispersion sugieren quehay una relacion lineal entre dos variables.

Asociacion positiva Asociacion negativa

3 4 5 6 7

3

4

5

6

7

3 4 5 6 7

3

4

5

6

7

Pregunta: ¿Como es la correlacion en estos dos ejemplos?Aplicaciones:

• Resumir la informacion de los datos mediante una recta.• Predecir valores de una variable usando la otra.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 3

Page 4: Regresion Lineal

Ejemplo 4.1: Observamos dos variables en una muestra de paısesdesarrollados (fichero vino.sav):

• X : Consumo anual de vino (en litros por habitante)

• Y : No de muertes por enfermedad cardıaca, por cada 100.000 hab.

Paıs X Y Paıs X YAustralia 2,5 211 Paıses Bajos 1,8 167Austria 3,9 167 Nueva Zelanda 1,9 266Belgica 2,9 131 Noruega 0,8 227Canada 2,4 191 Espana 6,5 86Dinamarca 2,9 220 Suecia 1,6 207Finlandia 0,8 297 Suiza 5,8 115Francia 9,1 71 Reino Unido 1,3 285Islandia 0,8 211 Estados Unidos 1,2 199Irlanda 0,7 300 Alemania 2,7 172Italia 7,9 107

¿Que podemos decir sobre la relacion entre las dos variables?

¿Podemos afirmar que a mayor consumo de vino menor numero demuertes por enfermedad cardıaca?

¿Podemos predecir aproximadamente el valor de la variable Y sisabemos el valor de X ?

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 4

Page 5: Regresion Lineal

Frecuencias

[Conjunto_de_datos1] C:\Documents and Settings\usuario\Mis documentos\joser\docencia\estap\datos\vino.sav

Estadísticos

19 19

0 0

3,026 191,05

2,5097 68,396

Válidos

Perdidos

N

Media

Desv. típ.

Vino Card

Página 1

10,08,06,04,02,00,0

Vino

300

250

200

150

100

50

Ca

rd

Irlanda

Francia

Correlaciones

1 -,843

,000

19 19

-,843 1

,000

19 19

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Vino

Card

Vino Card

Página 1

Consumo de vino

1086420

Mue

rtes

por e

nfer

med

ad c

ardi

aca

300

250

200

150

100

50

Alemania

Estados Unidos

Reino Unido

Suiza

Suecia

España

Noruega

Nueva Zelanda

Países Bajos

Italia

Irlanda

Islandia

Francia

Finlandia

Dinamarca

Canadá

Bélgica

Austria

Australia

Página 1

Pregunta: ¿Implica esta asociacion causalidad?

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 5

Page 6: Regresion Lineal

Asociacion estadıstica y causalidad

La asociacion entre una causa (C) y un efecto (E), puede surgirde tres modos distintos:

(a) C es causa de E.

2

2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:

a) C es causa de E

C E

b) C y E tiene una causa común (variable X)

C E

X

c) E es causa de C

C E

Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:

i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.

(b) C y E tiene una causa comun (variable X).

2

2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:

a) C es causa de E

C E

b) C y E tiene una causa común (variable X)

C E

X

c) E es causa de C

C E

Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:

i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.

(c) E es causa de C.

2

2. ¿ASOCIACION ESTADISTICA O CAUSAL? La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos:

a) C es causa de E

C E

b) C y E tiene una causa común (variable X)

C E

X

c) E es causa de C

C E

Si C aparece antes que E, solamente podrán ser reales las dos primeras alternativas (a) y (b), siendo entonces C un factor de riesgo con respecto a E. Sin embargo, únicamente en el caso de la alternativa (a) existe una relación casual entre C y E. Así, en los estudios epidemiológicos, cuyo objetivo es investigar posibles relaciones causales, resulta de vital importancia diferenciar entre las alternativas (a) y (b). De las situaciones (a), (b) y (c), se deduce que las características que debería cumplir toda relación causal son:

i) Temporalidad: la causa precede al efecto. ii) Dirección: la relación va de la causa al efecto. iii) Asociación: entendida como cuantificación del grado de la relación.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 6

Page 7: Regresion Lineal

Ejemplo 4.2: Renta y fracaso escolar en la CAM

Ana JustelAna Justel

EjemploEjemplo

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 7

Page 8: Regresion Lineal

Ejemplo 4.2 (cont.): Renta y fracaso escolar en la CAM

●●

●●

10 12 14 16 18 20 22

1015

2025

3035

Renta (en miles de euros)

% fr

acas

o es

cola

r

Arganda

Torrelodones

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 8

Page 9: Regresion Lineal

El problema de regresion

El objetivo es analizar la relacion existente entre dos variables, X eY , de forma que podamos predecir o aproximar el valor de lavariable Y a partir del valor de la variable X .

• La variable Y se llama variable respuesta

• La variable X se llama variable regresora o explicativa

Observacion: En un problema de regresion el papel de las dosvariables no es simetrico. La variable X juega el papel de variableindependiente y la variable Y el papel de variable dependiente (deX ).

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 9

Page 10: Regresion Lineal

La recta de regresion

Es frecuente suponer que existe entre las variables observadas unarelacion aproximadamente lineal:

yi ≈ a + bxi , i = 1, . . . , n.

• La recta y = a + bx es una recta de regresion.

• El parametro b es la pendiente de la recta. Indica comocambia la variable respuesta cuando el incremento de x es unaunidad.

• El parametro a es el termino independiente de la recta.Indica el valor de Y cuando X = 0.

Problema estadıstico: Estimar los parametros a y b a partir delos datos (xi , yi ), i = 1, . . . , n, de una muestra.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 10

Page 11: Regresion Lineal

La recta de mınimos cuadrados

Si estimamos a y b mediante a y b, la prediccion de la variablerespuesta Y en funcion del regresor X es:

Y = a + bX .

En particular, para los datos de la muestra los valores previstos deY son

yi = a + bxi , i = 1, . . . , n.

Definimos los residuos como ei = yi − yi = yi − (a + bxi ).

La recta de regresion de mınimos cuadrados viene dada por losvalores a y b que minimizan la suma de cuadrados residual

n∑i=1

e2i =

n∑i=1

[yi − yi ]2 =

n∑i=1

[yi − (a + bxi )]2 = n · ECM.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 11

Page 12: Regresion Lineal

Los residuos:

−2 −1 0 1 2

−1

01

23

x

y

−2 −1 0 1 2

−1

01

23

x

y

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 12

Page 13: Regresion Lineal

Los estimadores mınimo-cuadraticos de a y b son

b =covx ,y

vx= r

√vy

vxa = y − bx ,

donde r es el coeficiente de correlacion, vy y vx son las varianzasmuestrales de Y y X respectivamente.

Ejemplo 4.1 (cont.): Consumo de vino y muertes cardıacas

b = −0, 84368, 396

2, 5097= −22, 974

a = 191, 05− (−22, 974) · 3, 026 = 260, 57

Recta de regresion estimada: y = 260, 57− 22, 974x

Prediccion de Y para x0 = 4:y0 = 260, 57− 22, 974 · 4 = 168, 674

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 13

Page 14: Regresion Lineal

Ejemplo 4.1 (cont.):

Consumo de vino

1086420

Mue

rtes

por

enf

erm

edad

car

díac

a300

250

200

150

100

50R2 Lineal = 0,71

Página 1

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 14

Page 15: Regresion Lineal

Observaciones:

• La recta de mınimos cuadrados pasa por el punto cuyascoordenadas son las medias: (x , y).

• La suma de los residuos siempre vale cero.

• La recta para predecir Y en funcion de X no es la misma quela recta para predecir X en funcion de Y .

• Como medida de la bondad del ajuste de la recta a los datos,se utiliza el coeficiente de determinacion R2: el cuadrado delcoeficiente de correlacion. Cuando R2 esta cerca de 0, elajuste sera malo. Cuando R2 esta cerca de 1, el ajustesera bueno. R2 indica el porcentaje de variabilidad de Yexplicado por la regresion lineal en funcion de X .

• No es aconsejable realizar predicciones con la recta deregresion fuera del rango de valores observados.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 15

Page 16: Regresion Lineal

El modelo de regresion lineal simple

Para poder hacer inferencia (IC y contrastes) sobre los parametros,suponemos que se verifica el siguiente modelo:

Yi = a + b xi + εi , i = 1, . . . , n,

donde:

• El valor esperado de los errores εi es cero.

• Todos los errores tienen la misma varianza σ2.

• Los errores tienen distribucion normal.

• Los errores son v.a. independientes entre sı.

En resumen:

ε1, . . . , εn son N(0, σ) independientes

que equivale a

Yi es N(a + b xi , σ) e Y1, . . . ,Yn independientes.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 16

Page 17: Regresion Lineal

Suposiciones del modelo de regresion lineal simple:

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 17

Page 18: Regresion Lineal

¿En cuales de las 4 situaciones se verifica el modelo?

●●

●●

●●

●●

●●

● ●

●●

●●

1 2 3 4 5 6

12

34

56

7

x

y1

●●

●●

●● ●

●●●

● ●●●●

●●

●●

●●

● ●

−4 −2 0 2 4

05

1015

2025

x2

y2

● ●

●●

● ●●

●●● ●●● ●

●●

●●

●●

● ●●

●●

1 2 3 4 5 6

−10

010

2030

x

y3●

●●

●●

●●

●●

●●

●●

●●

●●

●●

1 2 3 4 5 6

23

45

67

x

y4

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 18

Page 19: Regresion Lineal

Ejemplo 4.1 (cont.): Consumo de vino y enfermedades cardıacas

Valor previsto de Y

25020015010050

Res

iduo

50

25

0

-25

-50

-75

Página 1

Si en el grafico de residuos ei frente a valores previstos yi , lospuntos no se disponen aleatoriamente en una banda horizontal deanchura constante en torno a 0, entonces falla alguna de lashipotesis del modelo.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 19

Page 20: Regresion Lineal

Ejemplo 1.6 (cont.): Sabor del queso cheddar

Ácido láctico

2,22,01,81,61,41,21,00,8

Sab

or

60

50

40

30

20

10

0

Página 1

Valor previsto

50403020100

Res

iduo

30

20

10

0

-10

-20

Página 1

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 20

Page 21: Regresion Lineal

Una simulacion

Supongamos que σ = 1, a = 0 y b = 1

Entonces el modelo esYi = xi + εi ,

donde los errores εi tienen distribucion normal estandar y sonindependientes

Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestascorrespondientes de acuerdo con este modelo

Posteriormente calculamos la recta de mınimos cuadrados y larepresentamos junto con la verdadera recta y = x

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 21

Page 22: Regresion Lineal

Repetimos 6 veces el experimento

0 2 4 6 8 10

24

68

10

x

●●

0 2 4 6 8 10

24

68

10

x

● ●

0 2 4 6 8 10

02

46

810

x

●●

0 2 4 6 8 10

−20

24

68

10

x

0 2 4 6 8 10

02

46

8

x

0 2 4 6 8 10

24

68

10x

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 22

Page 23: Regresion Lineal

Repetimos 6 veces el experimento

0 2 4 6 8 10

24

68

10

b = 0.9

●●

0 2 4 6 8 10

24

68

10

b = 0.95

● ●

0 2 4 6 8 10

02

46

810

b = 1.11

●●

0 2 4 6 8 10

−20

24

68

10

b = 1.01

0 2 4 6 8 10

02

46

8

b = 0.84

0 2 4 6 8 10

24

68

10b = 0.99

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 23

Page 24: Regresion Lineal

Repetimos 1000 veces el experimento

â−2 −1 0 1 2

010

025

0

b0.6 0.8 1.0 1.2 1.4

050

150

• Los estimadores vancambiando para lasdiferentes muestras

• Existen formulas delerror tıpico de β0 yβ1 que recogen estavariabilidad

• Estas formulas sonlas que se utilizanpara calcular IC yllevar a cabocontrastes en lo quesigue.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 24

Page 25: Regresion Lineal

Inferencia en el modelo de regresion simple

Intervalos de confianza

Los intervalos de confianza de nivel 1− α para los parametros a yb tienen la estructura habitual:(

ai ∓ tn−2;α/2 · e.t.(a)) (

bi ∓ tn−2;α/2 · e.t.(b))

En comparacion con los intervalos de confianza para la media:

• Los grados de libertad son n − 2 en lugar de n − 1.

• La formula del error tıpico es mas complicada (siempre localcularemos con el ordenador).

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 25

Page 26: Regresion Lineal

Contrastes para el parametro de la regresion b

En los contrastes para a las expresiones son las mismas (dondepone b ponemos a).

Contrastes unilaterales:

• Hipotesis: H0 : b ≤ b0 frente a H1 : b > b0

• Region crıtica:

R =

{b − b0

e.t.(b)> tn−2,α

}.

• Hipotesis: H0 : b ≥ b0 frente a H1 : b < b0

• Region crıtica:

R =

{b − b0

e.t.(b)< −tn−2,α

}.

Contraste bilateral:

• Hipotesis: H0 : b = b0 frente a H1 : b 6= b0

• Region crıtica:

R =

{|b − b0|e.t.(b)

> tn−2,α/2

}.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 26

Page 27: Regresion Lineal

Ejemplo 4.1 (cont.): Consumo de vino y enfermedades cardıacas

Sabiendo que el error tıpico del estimador de mınimos cuadradosde la pendiente es 3.557, calcula un IC para β1 de nivel 95 %:[

β1 ∓ tn−2,α/2 × e.t.(β1)]≡ [−22,974∓ 2,11× 3,557]

ya que t17,0,025 = 2,11.

¿Aportan los datos evidencia para afirmar (α = 0,01) que unincremento en el consumo de vino esta asociado a un menornumero de muertes por enfermedad cardıaca?

Queremos contrastar H0 : β1 ≥ 0 frente a H1 : β1 < 0. Calculamos:

t =−22,974

3,557= −6,457 y − t17,0,01 = −2,567

Como −6,457 < −2,567 rechazamos H0.

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 27

Page 28: Regresion Lineal

Ejemplo 4.1 (cont.): Con SPSS

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 28

Page 29: Regresion Lineal

Ejemplo 4.1 (cont.): Con SPSS

Resumen del modelob

,843a ,710 ,693 37,879

Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Vinoa.

Variable dependiente: Cardb.

Coeficientesa

260,563 13,835 18,833 ,000

-22,969 3,557 -,843 -6,457 ,000

(Constante)

Vino

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizado

s

t Sig.

Variable dependiente: Carda.

Página 1

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 29

Page 30: Regresion Lineal

Ejemplo 4.2 (cont.): Renta y fracaso escolar en la CAM con SPSS

Resumen del modelob

,742a ,550 ,528 4,7566

Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Rentaa.

Variable dependiente: Fracasob.

Coeficientesa

38,494 **** 10,562 ,000

-1,347 ,266 -,742 -5,065 ,000

(Constante)

Renta

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizado

s

t Sig.

Variable dependiente: Fracasoa.

Página 1

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 30

Page 31: Regresion Lineal

Ejemplo 4.2 (cont.): Renta y fracaso escolar en la CAM.

(a) Escribe la ecuacion de la recta de mınimos cuadrados quedescribe el nivel de fracaso escolar como funcion de la renta.

(b) Calcula los intervalos de confianza de nivel 95 % para lapendiente y el termino independiente de la recta de regresion.

(c) ¿Podemos afirmar, a nivel α = 0,05 que niveles mas altos derenta estan asociados a niveles mas bajos de fracaso escolar?

(d) ¿Cuanto vale el coeficiente de correlacion entre el nivel derenta y el porcentaje de fracaso escolar?

(e) ¿Que porcentaje de fracaso escolar se predice en unapoblacion cuya renta es x0 = 13000 euros?

(f) ¿Cual es el residuo correspondiente a Colmenar Viejo?

Estadıstica (Alimentacion). Profesora: Amparo Baıllo Tema 4: Regresion lineal simple 31