La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la...

17
La retta di regressione Massimo Borelli May 22, 2014 Massimo Borelli () La retta di regressione May 22, 2014 1 / 17

Transcript of La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la...

Page 1: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

La retta di regressione

Massimo Borelli

May 22, 2014

Massimo Borelli () La retta di regressione May 22, 2014 1 / 17

Page 2: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

Contenuti

1 Motivazioni

2 la retta di regressione

Massimo Borelli () La retta di regressione May 22, 2014 2 / 17

Page 3: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

microarray: mRNA → cDNA, labelling

Massimo Borelli () La retta di regressione May 22, 2014 3 / 17

Page 4: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

la retta di regressione: dubbi artificiali

5 10 15 20

46

810

x1

y1

5 10 15 20

46

810

x2

y2

5 10 15 20

46

810

x3

y3

5 10 15 20

46

810

x4

y4

Massimo Borelli () La retta di regressione May 22, 2014 4 / 17

Page 5: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

la retta di regressione: dubbi reali

Massimo Borelli () La retta di regressione May 22, 2014 5 / 17

Page 6: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

la retta di regressione: errori grossolani?

Massimo Borelli () La retta di regressione May 22, 2014 6 / 17

Page 7: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

il dataset studenti

anno genere statura peso

1 1987 f 155 532 1987 f 157 503 1989 f 158 484 1987 f 158 495 1988 f 158 58.. .. .. .. ..

16 1989 f 167 5617 1989 m 167 5618 1989 f 167 57.. .. .. .. ..

64 1989 m 191 7565 1989 m 194 79

Massimo Borelli () La retta di regressione May 22, 2014 7 / 17

Page 8: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

il dataset studenti: peso vs. statura

la formulazione del problema

Cerchiamo un modello statistico in cui la statura sia un predittore delpeso.Il modello avra due componenti:

1 effetti fissi: i coefficienti della retta

2 effetti casuali: la variabilita dei residui

y = mx + q + ε

Massimo Borelli () La retta di regressione May 22, 2014 8 / 17

Page 9: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

il dataset studenti: peso vs. statura

y = mx + q + ε

Esercizio: proviamo farei conti ’ad occhio ecroce’

160 170 180 190

5060

7080

statura

peso

Massimo Borelli () La retta di regressione May 22, 2014 9 / 17

Page 10: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

il dataset studenti: peso vs. statura

y = mx + q + ε

> modello = lm(peso ∼ statura)

> summary(modello)

Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00

statura 0.85 0.10 8.85 0.00

Residual standard error: 6.459 on 63 degrees of freedomMultiple R-squared: 0.5542, Adjusted R-squared: 0.5471F-statistic: 78.31 on 1 and 63 DF, p-value: 1.18e-12

Massimo Borelli () La retta di regressione May 22, 2014 10 / 17

Page 11: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

Residual standard error: simulazione

160 170 180 190

5060

7080

xcaso

y

160 170 180 190

5060

7080

statura

peso

xcaso = runif(65, min = 155, max = 194)errorecaso = rnorm(65, mean = 0, sd = 6.459)y = 0.85 * xcaso - 83.89 + errorecasoplot(xcaso, y, ylim = c(48, 86))abline( -83.89, 0.85)

Massimo Borelli () La retta di regressione May 22, 2014 11 / 17

Page 12: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

Multiple R-squared e correlazione

> cor(peso, statura)

0.7444353

> 0.7444353 * 0.7444353

0.554184

> cor.test(peso, statura)

t = 8.8495, df = 63, p-value = 1.18e-12

Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00

statura 0.85 0.10 8.85 0.00

Residual standard error: 6.459 on 63 degrees of freedomMultiple R-squared: 0.5542, Adjusted R-squared: 0.5471F-statistic: 78.31 on 1 and 63 DF, p-value: 1.18e-12

Massimo Borelli () La retta di regressione May 22, 2014 12 / 17

Page 13: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

Cosa succede se x non e un predittore di y?

> x = runif(100)

> y = runif(100)

> inutile = lm(y ∼ x)

> summary(inutile)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.47 0.05 8.79 0.00

x 0.02 0.10 0.18 0.86

Massimo Borelli () La retta di regressione May 22, 2014 13 / 17

Page 14: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

Cos’e il modello nullo?

> nullo = lm(y ∼ 1)

> summary(nullo)

> mean(y)

0.4781564

> sd(y)

0.2931972

> t.test( y , mu = 0))

t = 16.31 , df = 99, p = 0.000.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.48 0.03 16.31 0.00

Residual standard error: 0.2932 on 99 degrees of freedom

Massimo Borelli () La retta di regressione May 22, 2014 14 / 17

Page 15: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

diagnostica del modello = model checking

i residui sono normali?

i residui hanno media nulla?

i residui hanno un ’drift’?

i residui sono omoschedastici?

ci sono punti isolati o con forza di leva?

Massimo Borelli () La retta di regressione May 22, 2014 15 / 17

Page 16: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

diagnostica> plot(modello)

50 60 70 80

-15

-55

15

Fitted values

Residuals

Residuals vs Fitted15

39

32

-2 -1 0 1 2

-2-1

01

23

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q15

39

32

50 60 70 80

0.0

0.5

1.0

1.5

Fitted values

Standardized residuals Scale-Location

153932

0.00 0.04 0.08 0.12

-20

12

3

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance0.5

0.5

Residuals vs Leverage15

619

Massimo Borelli () La retta di regressione May 22, 2014 16 / 17

Page 17: La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la formulazione del problema Cerchiamo un modello statistico in cui la statura sia un predittore

i p-values marginali non tengono conto della correlazione

> summary(modello)

Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00

statura 0.85 0.10 8.85 0.00

> library(multcomp)

> aggiustato = glht(modello, linfct = diag(2))

> summary(aggiustato)

Estimate Std. Error t value Pr(>|t|)1 == 0 -83.89056 16.67708 -5.03 4.71e-06 ***2 == 0 0.8539 0.0965 8.85 < 1e-10 ***

Massimo Borelli () La retta di regressione May 22, 2014 17 / 17