La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la...

Post on 13-Jul-2020

0 views 0 download

Transcript of La retta di regressione - units.itborelli/magnagraecia/17slides.pdf · 2014-05-22 · la...

La retta di regressione

Massimo Borelli

May 22, 2014

Massimo Borelli () La retta di regressione May 22, 2014 1 / 17

Contenuti

1 Motivazioni

2 la retta di regressione

Massimo Borelli () La retta di regressione May 22, 2014 2 / 17

microarray: mRNA → cDNA, labelling

Massimo Borelli () La retta di regressione May 22, 2014 3 / 17

la retta di regressione: dubbi artificiali

5 10 15 20

46

810

x1

y1

5 10 15 20

46

810

x2

y2

5 10 15 20

46

810

x3

y3

5 10 15 20

46

810

x4

y4

Massimo Borelli () La retta di regressione May 22, 2014 4 / 17

la retta di regressione: dubbi reali

Massimo Borelli () La retta di regressione May 22, 2014 5 / 17

la retta di regressione: errori grossolani?

Massimo Borelli () La retta di regressione May 22, 2014 6 / 17

il dataset studenti

anno genere statura peso

1 1987 f 155 532 1987 f 157 503 1989 f 158 484 1987 f 158 495 1988 f 158 58.. .. .. .. ..

16 1989 f 167 5617 1989 m 167 5618 1989 f 167 57.. .. .. .. ..

64 1989 m 191 7565 1989 m 194 79

Massimo Borelli () La retta di regressione May 22, 2014 7 / 17

il dataset studenti: peso vs. statura

la formulazione del problema

Cerchiamo un modello statistico in cui la statura sia un predittore delpeso.Il modello avra due componenti:

1 effetti fissi: i coefficienti della retta

2 effetti casuali: la variabilita dei residui

y = mx + q + ε

Massimo Borelli () La retta di regressione May 22, 2014 8 / 17

il dataset studenti: peso vs. statura

y = mx + q + ε

Esercizio: proviamo farei conti ’ad occhio ecroce’

160 170 180 190

5060

7080

statura

peso

Massimo Borelli () La retta di regressione May 22, 2014 9 / 17

il dataset studenti: peso vs. statura

y = mx + q + ε

> modello = lm(peso ∼ statura)

> summary(modello)

Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00

statura 0.85 0.10 8.85 0.00

Residual standard error: 6.459 on 63 degrees of freedomMultiple R-squared: 0.5542, Adjusted R-squared: 0.5471F-statistic: 78.31 on 1 and 63 DF, p-value: 1.18e-12

Massimo Borelli () La retta di regressione May 22, 2014 10 / 17

Residual standard error: simulazione

160 170 180 190

5060

7080

xcaso

y

160 170 180 190

5060

7080

statura

peso

xcaso = runif(65, min = 155, max = 194)errorecaso = rnorm(65, mean = 0, sd = 6.459)y = 0.85 * xcaso - 83.89 + errorecasoplot(xcaso, y, ylim = c(48, 86))abline( -83.89, 0.85)

Massimo Borelli () La retta di regressione May 22, 2014 11 / 17

Multiple R-squared e correlazione

> cor(peso, statura)

0.7444353

> 0.7444353 * 0.7444353

0.554184

> cor.test(peso, statura)

t = 8.8495, df = 63, p-value = 1.18e-12

Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00

statura 0.85 0.10 8.85 0.00

Residual standard error: 6.459 on 63 degrees of freedomMultiple R-squared: 0.5542, Adjusted R-squared: 0.5471F-statistic: 78.31 on 1 and 63 DF, p-value: 1.18e-12

Massimo Borelli () La retta di regressione May 22, 2014 12 / 17

Cosa succede se x non e un predittore di y?

> x = runif(100)

> y = runif(100)

> inutile = lm(y ∼ x)

> summary(inutile)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.47 0.05 8.79 0.00

x 0.02 0.10 0.18 0.86

Massimo Borelli () La retta di regressione May 22, 2014 13 / 17

Cos’e il modello nullo?

> nullo = lm(y ∼ 1)

> summary(nullo)

> mean(y)

0.4781564

> sd(y)

0.2931972

> t.test( y , mu = 0))

t = 16.31 , df = 99, p = 0.000.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.48 0.03 16.31 0.00

Residual standard error: 0.2932 on 99 degrees of freedom

Massimo Borelli () La retta di regressione May 22, 2014 14 / 17

diagnostica del modello = model checking

i residui sono normali?

i residui hanno media nulla?

i residui hanno un ’drift’?

i residui sono omoschedastici?

ci sono punti isolati o con forza di leva?

Massimo Borelli () La retta di regressione May 22, 2014 15 / 17

diagnostica> plot(modello)

50 60 70 80

-15

-55

15

Fitted values

Residuals

Residuals vs Fitted15

39

32

-2 -1 0 1 2

-2-1

01

23

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q15

39

32

50 60 70 80

0.0

0.5

1.0

1.5

Fitted values

Standardized residuals Scale-Location

153932

0.00 0.04 0.08 0.12

-20

12

3

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance0.5

0.5

Residuals vs Leverage15

619

Massimo Borelli () La retta di regressione May 22, 2014 16 / 17

i p-values marginali non tengono conto della correlazione

> summary(modello)

Estimate Std. Error t value Pr(>|t|)(Intercept) -83.89 16.68 -5.03 0.00

statura 0.85 0.10 8.85 0.00

> library(multcomp)

> aggiustato = glht(modello, linfct = diag(2))

> summary(aggiustato)

Estimate Std. Error t value Pr(>|t|)1 == 0 -83.89056 16.67708 -5.03 4.71e-06 ***2 == 0 0.8539 0.0965 8.85 < 1e-10 ***

Massimo Borelli () La retta di regressione May 22, 2014 17 / 17