Testare di erenze tra gruppi: la Anova - units.itborelli/magnagraecia/14slides.pdf · problema...

25
Testare differenze tra gruppi: la Anova Massimo Borelli May 5, 2014 Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 1 / 25

Transcript of Testare di erenze tra gruppi: la Anova - units.itborelli/magnagraecia/14slides.pdf · problema...

Testare differenze tra gruppi: la Anova

Massimo Borelli

May 5, 2014

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 1 / 25

il dataset

Table: il dataset tooth (N = 69).

gender il1b smoke areainfl

F etero low 39.970M wt low 24.011F etero low 35.774M etero high 58.651M etero low 27.712M etero high 48.362M mut low 44.970. . . . . . . . . . . .

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 2 / 25

problema introduttivo: il t test

ci chiediamo se ci sia un effetto su areainfl

di gender

di smoke

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 3 / 25

il t test: areainfl vs. gender

> shapiro.test(areainfl[gender == "F"])

W = 0.9656, p-value = 0.3188

> shapiro.test(areainfl[gender == "M"])

W = 0.9869, p-value = 0.9534

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 4 / 25

il t test: areainfl vs. gender

> var.test(areainfl ∼ gender)

F = 1.7507, num df = 35, denom df = 32, p-value = 0.113alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.8737085 3.4704827sample estimates:ratio of variances1.750693

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 5 / 25

il t test: areainfl vs. gender

> t.test(areainfl ∼ gender, var.equal = TRUE)

t = -0.9138, df = 67, p-value = 0.3641alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:-10.059498 3.741331sample estimates:mean in group F mean in group M40.34458 43.50367

non c’e effetto di gender su areainlf

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 6 / 25

il t test: areainfl vs. smoke

> shapiro.test(areainfl[smoke == "F"])

W = 0.9464, p-value = 0.1141

> shapiro.test(areainfl[smoke == "M"])

W = 0.9756, p-value = 0.5787

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 7 / 25

il t test: areainfl vs. smoke

> var.test(areainfl ∼ smoke)

F = 0.9778, num df = 31, denom df = 36, p-value = 0.9556alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.4943728 1.9688576sample estimates:ratio of variances0.9777634

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 8 / 25

il t test: areainfl vs. smoke

> t.test(areainfl ∼ gender, var.equal = TRUE)

t = 7.7903, df = 67, p-value = 5.747e-11alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:14.62507 24.70104sample estimates:mean in group high mean in group low52.39941 32.73635

c’e effetto di smoke su areainlf

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 9 / 25

problema introduttivo: il t test

ci siamo chiesti se ci sia un effetto su areainfl

di genderI no, p-value = 0.3641

di smokeI sı, p-value = 5.747e-11

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 10 / 25

interpretazione matematica

t =m1 −m2√

s21n1

+s2

2n2

F M

2030

4050

6070

area vs. gender

area

high low

2030

4050

6070

area vs. smoke

area

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 11 / 25

perche con 3 gruppi non si puo?

t =m1 −m2√

s21n1

+s2

2n2

etero mut wt

2030

4050

6070

area

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 12 / 25

idea:

.. se non possiamo con lemedie, proviamo con ledispersioni!

2030

4050

6070

F M

2040

60

area vs. gender

area

high low

2040

60

area vs. smoke

area

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 13 / 25

idea:

> sd(areainfl)

14.32745

> sd(areainfl[gender

== "F"])

16.08637

> sd(areainfl[gender

== "M"])

12.15774

> sd(areainfl[smoke ==

"high"])

10.39223

> sd(areainfl[smoke ==

"low"])

10.50974

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 14 / 25

L’idea cardine della Anova:

F M

2030

4050

6070

area vs. gender

area

high low

2030

4050

6070

area vs. smoke

area

the take home message:

Se c’e un effetto significativo sulla differenza di centralita, allora nei gruppisi riduce anche la dispersione (e viceversa).

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 15 / 25

la Anova: i comandi aov e lm

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 16 / 25

la Anova: i comandi aov e lm

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 17 / 25

la Anova: i comandi aov e lm

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 18 / 25

la Anova: le ipotesi matematiche

1 i dait siano distribuiti in maniera gaussiana in tutti i gruppi: questa el’ipotesi di normalita.

2 la loro dispersione, in termini di deviazione standard, sia la medesima(cioe σ1 = σ2 = σ3 = ..): questa e l’ipotesi di omoschedasticita.

I il test della varianza var.test di funziona solo con due gruppiI bartlett.test(areainfl ∼ il1b)

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 19 / 25

la Anova: le ipotesi matematiche

Bartlett test of homogeneity of variancesdata: areainfl by il1bBartlett’s K-squared = 9.3487, df = 2, p-value = 0.009331

etero mut wt

2030

4050

6070

area

.. vedremo fra poco come rimediare.

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 20 / 25

la Anova: interpretare l’output - le stime> modello = aov(areainfl ∼ il1b)> summary.lm(modello)

etero mut wt

2030

4050

6070

area

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 21 / 25

la Anova: interpretare l’output - gli standard error

> table(il1b)

il1b

etero 24mut 10

wt 35etero mut wt

area vs. il1b

010

2030

4050

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 22 / 25

la Anova: interpretare l’output - consuntivo e p-value

etero mut wt

2030

4050

6070

area

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 23 / 25

la Anova: interpretare l’output - consuntivo e p-value

> pt(1.959, 66)

0.9728302

> 1 - pt(1.959, 66)

0.02716985

> 2*(1 - pt(1.959, 66))

0.0543397

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 24 / 25

la Anova: argomenti in sospeso

Residual standard error

Multiple R-squared

F-statistic

la diagnostica del modello

Massimo Borelli () Testare differenze tra gruppi: la Anova May 5, 2014 25 / 25