Methodenlehre III, WS 2009/2010 - Ruhr-Universität Bochum · 11 3 14 4 10 5 12 7 13 3 8 6 Methode...

Methodenlehre III, WS2009/2010

Prof. Dr. HolgerDette

4. MultivariateMittelwertvergleiche

5. Diskriminanzanalyse

Methodenlehre III, WS 2009/2010

Prof. Dr. Holger Dette

Ruhr-Universitat Bochum

25. Januar 2010

1 / 75





4. Multivariate Mittelwertvergleiche

2 / 75





4.1 Beispiel: Vergleich von verschiedenenUnterrichtsmethoden

I Zwei ”Zufallsstichproben´´ (A und B) mit je 10 Schulern und 8Schulern

I Gruppe A wird nach Unterrichtsmethode A unterrichtet undGruppe B nach Unterrichtsmethode B

I Fur jeden Schuler werden zwei Variable gemessen

I Leistung (x1)

I Zufriedenheit (x2)

I Frage: besteht zwischen den beiden Unterrichtsmethoden einUnterschied?

3 / 75





Daten zu Beispiel 4.1

Methode Ax1 x211 5

9 310 410 411 314 410 512 713 3

8 6

Methode Bx1 x210 4

8 49 49 7

10 513 3

8 312 6

Beachte: Im Prinzip konnte man beide Variablen getrennt unter-suchen. (z.B. Hypothesen bzgl. der Variablen x1 mit t-Test fur zweiunabhangige Stichproben). Die Anwendung von mutliplen Tests fuhrtaber zu Schierigkeiten bei der Wahl des Niveaus (vgl. MethodenlehreII, 1.16).

4 / 75





4.2 Mathematisches Modell

I g Gruppen von Probanden

I in jeder Gruppe gibt es nj Probanden, fur die Daten erhobenwerden

I x(j)1 , . . . , x

(j)nj (j = 1, . . . , g)

I jedes Datum (d.h. Messung an einem Probanden) hat pVariablen/Merkmale.

x(j)m = (x

(j)m1, . . . , x

(j)mp) (m = 1, . . . , nj)

bezeichnet die Messwerte fur Proband m in Gruppe j (manbeachte, dass der obere Index j die Gruppe bezeichnet).

I alle Daten sind Realisierungen einer normalverteiltenZufallsvariable.

I die Daten entstammen aus ”unabhangigen” Gruppen

Ziel: Vergleich der Erwartungswertvektoren (d.h. den Vektoren ausden komponentenweise gebildeten Erwartungswerten).

5 / 75





4.3 Hypothesentest fur den Erwartungswert(Vektor) der Population (g = 1)

I Frage: ist der Erwartungswertvektor µ der Grundgesamtheitgleich einem gegebenen Vektor µ0

I Idee: lehne die Nullhypothese

H0 : µ = µ0

ab, falls der “Vektor” x(1)· − µ0 “groß” ist. Dabei bezeichnet

x(1)· =

1

n1

n1∑m=1

x(1)m

den Mittelwertvektor der beobachteten Daten.

I Beachte: Der Mittelwertvektor ist x(1)· ist der Vektor gebildet aus

den Mittelwerten fur die einzelnen Variablen x(1)m· .

6 / 75





4.4 Beispiel (Fortsetzung von 4.2)

I Ein Wissenschaftler behauptet, dass der Erwartungswertvektor derPopulation derjenigen Schuler, die nach Methode A unterrichtetwerden, durch den Vektor µ0 = ( 10

5 ) gegeben ist. In diesem Fallist p = 2, n1 = 10.

I Man berechnet den Mittelwertvektor

x(1)· = 1

n1

∑n1m=1 x

(1)m = 1

10

{(115

)+(93

)+(104

)+ . . .

}=

(10.84.4

)und erhalt

x(1)· − µ0 =

(0.8

−0.6

)I Beachte: Wenn die Nullhypothese gilt, sollten die beiden

Komponenten in diesem Vektor “ungefahr” gleich 0 sein,andernfalls sollte mindestens eine der Komponenten weitvon 0 entfernt sein.

7 / 75





4.5 Hotellings T 2-Test fur eine StichprobeI Modellannahmen: die beobachteten Daten sind Realisationen von

unabhangigen multivariat normalverteilten Zufallsvariablen.

I Testgroße

T 21 = n1(x

(1)· − µ0) D−1

1 (x(1)· − µ0)

wobei

D1 =1

n1 − 1

n1∑m=1

(x(1)m − x(1)· )(x(1)m − x

(1)· )T

eine Schatzung fur die Kovarianzmatrix der Population ist. DieseMatrix dient hier der Standardisierung, da nicht davon ausge-gangen werden kann, dass verschiedene Variablen dieselbeGroßenordnug haben.

I Die Nullhypothese H0 : µ = µ0 wird verworfen, falls

n1 − p

(n1 − 1)pT 21 > Fp,n1−p,1−α

ist. Dabei ist Fp,n1−p,1−α das (1− α)-Quantil der F -Verteilungmit (p, n1 − p) Freiheitsgraden.

8 / 75





Beispiel (Berechnung der Kovarianzmatrix)

Beachte: In Beispiel 4.1 erhalt man fur Gruppe A als Kovarianzmatrix

D1 =1

9

[{(11

5

)−(

10.8

4.4

)}{(11

5

)−(

10.8

4.4

)}T

+

{(9

3

)−(

10.8

4.4

)T}{(

9

3

)−(

10.8

4.4

)}+ . . .

]=

1

9

[(0.2

0.6

)(0.2, 0.6) +

(−1.8

−1.4

)(−1.8,−1.4) + . . .

]=

1

9

[(0.04 0.12

0.12 0.36

)+

(3.24 2.52

2.52 1.96

)+ . . .

]=

(3.29 − 0.36

−0.36 1.82

)

9 / 75





Beachte:I Berechnet man fur das erste und das zweite Merkmal der Daten

fur Unterrichtsmethode A die Varianz, so ergibt sich

s2x1 =1

9{(11− 10.8)2 + (9− 10.8)2 + (10− 10.8)2 + . . . }

= 3.29

s2x2 =1

9{(5− 4.4)2 + (3− 4.4)2 + (4− 4.4)2 + . . . }

= 1.82

I D.h. in der Diagonalen der Kovarianzmatrix stehen die(empirischen) Varianzen der Merkmale.

I Berechnet man fur das erste und zweite Merkmal die Kovarianz,so ergibt sich

s2x1x2 =1

9{(11− 10.8)(5− 4.4) + (9− 10.8)(3− 4.4) + . . . }

= −0.36

I D.h. in den Eintragen neben der Diagonalen stehen die(empirischen) Kovarianzen zwischen den Merkmalen.

10 / 75





Eine Bemerkung zur Kovarianzmatrix

Beispiel: 500 simulierte Daten (zweidimensional).

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●●

●

●●

●

●

●

●

●

● ●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−10 −5 0 5 10

−10

−5

05

10

X1

X2

Beachte: Die Kovarianzmatrix D1 wird zur ”Standardisierung”verwendet. Ziel ist es, die Daten so zu transfomieren, dass

I Die einzelnen Komponenten dieselbe Großenordnung haben.I Die beiden Komponenten unkorreliert sind.

11 / 75





Beispiel: Bei den 500 Daten, wurde jede Komponente getrenntz-standadisiert

●

●

●●

●

●

●

●

● ●

●

●

●

●

● ●

●●

●

●

●

●

●

●

●

●●

●

●

●●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●●●●

●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●●●● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

● ●

●

●

●

● ●●

●● ●

●

● ●

●

●

●

●

●● ●

●

●● ●

●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

● ●●

●

●

● ●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●●

●●

●

●

●●●

●

●

●

●

●●●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●●●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

−10 −5 0 5 10

−10

−5

05

10

X1

X2

Beachte:

I Die einzelnen Komponenten haben dieselbe Großenordnung.

I Die beiden Komponenten sind aber nicht unkorreliert.12 / 75





Beispiel: die 500 simulierten Daten werden wie folgt transformiert.

I Es gibt eine Matrix A mit A · A = D1 .I Transformiere die Daten durch

zi = A−1(x(1)i − x

(1)· )

●

●

● ●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●● ●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●

●●●

●

●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●●

● ●

●

●

●

●

●●

●

●●

●

●●

●

●

●

●

●

●●

●●

●●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●

●

●

●

●

●● ●

●

●●●

●

●

●

●

●●●

● ●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●● ●

●

●

●

●

●●

●● ●

●

●

●●

●

●

●

●●

●

● ●

●

●

● ●

●

●

●

●

●

●●

●

●

●

●

−10 −5 0 5 10

−10

−5

05

10

X1

X2

Beachte:I Die einzelnen Komponenten haben dieselbe Großenordnung.I Die beiden Komponenten sind unkorreliert.

13 / 75





Beispiel: Hotellings T 2-Test fur Beispiel 4.1

Fur die Daten aus Gruppe A im Beispiel 4.1 ergibt sich fur dieStatistik T1 der Wert

T 21 = 10 · (0.8,−0.6)

(3.29 −0.36−0.36 1.82

)−1(0.8−0.6

)= 10 · (0.8,−0.6)

(0.31 0.060.06 0.56

)(0.8−0.6

)= 10 · (0.8,−0.6)

(0.21−0.29

)= 3.42

Da F2,8,0.95 = 4.46 und 10−22·9 T 2

1 = 1.52, kann die Nullhypothese

H0 : µ =

(10

5

)zum Niveau 5% nicht verworfen werden (p-Wert: 0.275)

14 / 75





Anschauliche Interpretation von HotellingsT 2-Test fur die Daten aus Beispiel 4.1

●

●

●●

●

●

●

●

●

●

−15 −10 −5 0 5 10 15

−15

−10

−5

05

1015

X1

X2 ●

●

●●

●

●●

●

●

●

−15 −10 −5 0 5 10 15

−15

−10

−5

05

1015

Y1

Y2

I Links: Original DatenI Rechts: Daten nach der Transformation z = A−1(x− µ0)I Beachte: Die Nullhypothese wird abgelehnt, falls der ”durch-

schnittliche” Abstand der transformierten Daten zum Nullpunktdes Koordinatensystems zu groß ist.

15 / 75





SPSS Output fur die Daten aus Beispiel 4.1

Sig.Fehler

dfHypothese

dfFWertPillai-Spur

Wilks-Lambda

Hotelling-Spur

Größte charakteristische Wurzel nach Roy

Konstanter Term

,2758,0002,0001,522a

,380

,2758,0002,0001,522a

,380

,2758,0002,0001,522a

,724

,2758,0002,0001,522a

,276EffektEffekt

Multivariate Testsb

a. Exakte Statistik

b. Design: Konstanter Term

Beachte:

I Mit SPSS wurde die Nullhypothese H : µ = 0 mit den um denVektor µ0 = (10, 5)T verschobenen Daten uberpruft.

I Der Wert von Hotellings T 2 berechnet sich indem man den Wertder Hotelling-Spur mit (n − 1) multipliziert :

T 21 = (10− 1) · 0.380 = 3.42

I SPSS liefert noch die Ergbnisse fur drei weitere Tests fur dieNullhypothese H : µ = 0 (Pillai-Spur, Wilk’s-Lambda, Roy´sgroßter Eigenwert), die am Ende des Kapitels erklart werden.

16 / 75





4.6 Wichtigste Anwendung des EinstichprobenT 2-Tests: Vergleich von zwei abhangigenStichprobenI Beispiel: 5 Probanden machen ein Konzentrationstraining. Vor

und nach dem Training wird ein Konzentrationstest gemacht, indem 2 Variablen gemessen werden. Das ergibt die Daten:

vorherx1 x2

140 90140 100160 100140 80120 80

nachherx1 x2

150 80160 70160 90140 90140 70

nachher - vorherx1 x210 -1020 -30

0 -100 10

20 -10

I Frage: Bewirkt das Training einen Unterschied in derKonzentrationsfahigkeit?

I Idee: Falls kein Unterschied zwischen den Ergebnissen vor undnach dem Test besteht sollten die Differenzen (nachher-vorher)”klein” seien.

17 / 75





T 2-Tests: fur zwei abhangige Stichproben

I Idee: Man wendet Hotelling’s Einstichproben T 2-Test auf diekomponentenweise gebildeten Differenzen der Daten an, um dieHypothese

H0 : µ = 0

zu testen. Im Beispiel ergibt sich (n = 5, p = 2):I Mittelwertvektor der Differenzen:(

10

−10

)I

T 21 = 5 ⇒ F =

5− 2

4 · 2 · 5 = 1.87

I Das 95%-Quantil der F -Verteilung mit (2, 3) Freiheitsgraden istF2,3,0.95 = 9.55. Damit kann die Nullhypothese (”vor und nachdem Training besteht kein Unterschied”) nicht zum Niveau 5%verworfen werden.

18 / 75





Anschauliche Interpretation von HotellingsT 2-Test fur die Daten aus Beispiel 4.6

●

●

●

●

●

−30 −20 −10 0 10 20 30

−30

−20

−10

010

2030

X1

X2 ●

●●

●●

−30 −20 −10 0 10 20 30−

30−

20−

100

1020

30

Y1

Y2

I Links: Original Daten (Differenzen vorher - nachher)

I Rechts: Daten nach der Transformation z = A−1(x− µ0) (indiesem Fall ist µ0 = 0)

I Beachte: Die Nullhypothese wird abgelehnt, falls der ”durch-schnittliche” Abstand der transformierten Daten zum Nullpunktdes Koordinatensystems zu groß ist.

19 / 75





4.7 Vergleich von zwei unabhangigen Stichproben

I Frage: sind die Erwartungswertvektoren µ1 und µ2 der beidenPopulationen (vgl. Beispiel 4.1) gleich

H0 : µ1 = µ2

I Idee: die Nullhypothese wird abgelehnt falls der Vektor derDifferenzen

x(1)· − x

(2)·

“groß” ist (d.h. sich mindestens eine der Komponenten deutlichvon 0 unterscheidet). Dabei bezeichnet

x(j)· =

1

nj

nj∑m=1

x(j)m j = 1, 2

den Mittelwert (Vektor) der Gruppe j (j = 1: Lernmethode A,j = 2 Lernmethode B)

20 / 75





4.8 Beispiel (Fortsetzung von 4.1)Ein Wissenschaftler behauptet, dass zwischen den Unterrichtsme-thoden ein Unterschied bestht.

I mathematische Formulierung der Nullhypothese

H0 : µ1 − µ2 = 0 ⇐⇒ H0 : µ1 = µ2

I µj bezeichnet den Erwartungswert (Vektor) der Population jI Als Schatzung fur die Mittelwertdifferenz berechnet man zunachst

den Mittelwertvektor der beiden Populationen (x(1)· wurde bereits

in Beispiel 4.4 berechnet)

x(2)· =

1

n2

n2∑m=1

x(j)m =1

8

{(10

4

)+

(8

4

)+

(9

4

)+ . . .

}=

(9.875

4.5

)Damit erhalt man

x(1)· − x

(2)· =

(10.8

4.4

)−(

9.875

4.5

)=

(0.925

−0.1

)21 / 75





4.9 Hotelling’s T 2-Test fur den Vergleich vonzwei Stichproben aus unabhangigen Populationen

Modellannahmen:

I Zwei unabhangige Stichproben

{x(1)m = (x(1)m1 , . . . , x

(1)mp )| m = 1, . . . , n1}

{x(2)m = (x(2)m1 , . . . , x

(2)mp )| m = 1, . . . , n2}

I Die beobachteten Daten sind Realisationen von normalverteiltenZufallsvariablen.

I (x(1)1 , . . . , x

(1)n1 ) und (x

(2)1 , . . . , x

(2)n2 ) sind Realisationen

unabhangiger Zufallsvariablen (d.h. es liegen unabhangigeStichproben vor).

I Varianzhomogenitat und Kovarianzhomogenitat

22 / 75





4.9 Hotelling’s T 2-Test fur den Vergleich vonzwei Stichproben aus unabhangigen PopulationenI Testgroße

T 22 =

n1n2(n1 + n2 − 2)

n1 + n2(x

(1)· − x

(2)· )TW −1(x

(1)· − x

(2)· ),

wobei die Matrix

W =2∑

j=1

nj∑m=1

(x(j)m − x(j)· )(x(j)m − x

(j)· )T

die (gewichteten) Summen der Varianzen und Kovarianzeninnerhalb der beiden Gruppen enthalt.

I Die Nullhypothese H0 : µ1 = µ2 wird zum Niveau α verworfen,falls

n1 + n2 − p − 1

(n1 + n2 − 2)pT 22 > Fp,n1+n2−p−1,1−α

gilt. Dabei bezeichnet Fp,n1+n2−p−1,1−α das (1− α)-Quantil derF -Verteilung mit (p, n1 + n2 − p − 1) Freiheitsgraden.

23 / 75





Bemerkung zu der Matrix W

I Kovarianzmatrix fur Gruppe 1

D1 =1

n1 − 1

n1∑m=1

(x(1)m − x(1)· )(x(1)m − x

(1)· )T

I Kovarianzmatrix fur Gruppe 2

D2 =1

n2 − 1

n2∑m=1

(x(1)m − x(1)· )(x(1)m − x

(1)· )T

I Die Matrix ergibt sich als gewichtete Summe von D1 und D2:

W = (n1 − 1) D1 + (n2 − 1) D2

I Im Beispiel 4.1 ist

W = 9 ·(

3.29 −0.36−0.36 1.82

)+ 7 ·

(3.27 0.070.07 2.0

)=(

52.5 −2.75−2.75 30.38

)24 / 75





Beispiel (Fortsetzung von 4.1)

Fur die Matrix W erhalt man im Beispiel 4.1

W =

(52.5 − 2.75

−2.75 30.38

)⇒W −1 =

(0.0191 0.0017

0.0017 0.0330

)Das ergibt

T 22 =

10 · 8 · 16

10 + 8(0.925,−0.1)

(0.0191 0.0017

0.0017 0.0330

)(0.925

−0.1

)= 71.11 (0.925,−0.1)

(0.0175

−0.0017

)= 1.16

Wegen10 + 8− 2− 1

(10 + 8− 2) · 2T 23 = 0.54

und F2,15,0.95 = 3.68 kann die Nullhypothese H0 : µ1 = µ2 (“zwischenden Unterrichtsmethoden besteht kein Unterschied”) zum Niveau 5%nicht verworfen werden (p-Wert: 0.593).

25 / 75





SPSS Output: Vergleich von zwei unabhangigenStichproben

Sig.Fehler

dfHypothese

dfFWertPillai-Spur

Wilks-Lambda

Hotelling-Spur


Pillai-Spur

Wilks-Lambda

Hotelling-Spur


Konstanter Term

GRUPPE

,59015,0002,000,547a

,073

,59015,0002,000,547a

,073

,59015,0002,000,547a

,932

,59015,0002,000,547a

,068

,00015,0002,000380,886a

50,785

,00015,0002,000380,886a

50,785

,00015,0002,000380,886a

,019

,00015,0002,000380,886a

,981EffektEffekt

Multivariate Testsb

a. Exakte Statistik

b. Design: Konstanter Term + GRUPPE

I Der Wert von Hotellings T 2 berechnet sich durch Multiplikationdes Werts der Hotelling-Spur mit (n1 + n2 − 2):

T 22 = (10 + 8− 2) · 0.073 = 1.168

I SPSS liefert noch die Ergbnisse fur drei weitere Tests fur dieNullhypothese H : µ1 = µ2 (Pillai-Spur, Wilk’s-Lambda, Roy´sgroßter Eigenwert), die am Ende des Kapitels erklart werden.

26 / 75





4.10 Einfaktorielle multivariate Varianzanalyse(MANOVA)

Modellannahmen:

I g ≥ 2 unabhangige Stichproben.

{x(1)m = (x(1)m1 , . . . , x

(1)mp )| m = 1, . . . , n1}

...

{x(g)m = (x(g)m1 , . . . , x

(g)mp )| m = 1, . . . , ng}

I die beobachteten Daten sind Realisationen von normalverteiltenZufallsvariablen.

I (x(1)1 , . . . , x

(1)n1 ), . . . , (x

(g)1 , . . . , x

(g)n2 ) sind Realisationen

unabhangiger Zufallsvariablen (d.h. es liegen g unabhangigeStichproben vor).

I Varianzhomogenitat und Kovarianzhomogenitat.27 / 75





4.10 MANOVAI Es bezeichne µj den Erwartungswert (-vektor) der j-ten

Population (j = 1, . . . , g).I Nullhypothese: H0 : µ1 = · · · = µg

I Die Nullhypothese wird zu Gunsten der Alternative furH1 : µi 6= µj fur mindestens ein Paar i , j (i 6= j) verworfen falls furWilk’s gilt:

Λ = |W (W + B)−1| ≤ Λp,n−g ,n−1,α

Dabei bezeichnetI Λp,n−g,n−1,α das (1− α)-Quantil der Wilk’s-Λ-Verteilung mit

(p, n − g , n − 1) FreiheitsgradenI n =

∑gj=1 nj die Anzahl aller Beobachtungen

I Die Matrix

B =

g∑j=1

nj (x(j)· − x(·)

· )(x(j)· − x(·)

· )T

dient als Maß fur die Unterschiede zwischen den Gruppen(Streuung zwischen den Gruppen). D.h. man vergleicht jedenGruppenmittelwertvektor mit dem Mittelwertvektor von allenDaten.

28 / 75





Vergleich mit dem eindimensionalen FallI Im Fall p = 1 ergibt sich

Λ−1 =W + B

W= 1 +

B

W

= 1 +

∑gj=1 nj(x

(j)· − x

(·)· )2∑g

j=1

∑njm=1(x

(j)m − x

(j)· )2

I H0 wird verworfen, falls Λ “kleine” Werte annimmt, d.h. falls

B

W=

∑gj=1 nj(x

(j)· − x

(·)· )2∑g

j=1

∑njm=1(x

(j)m − x

(j)· )2

“große” Werte annimmt. D.h. der Test von Wilk ist eineVerallgemeinerung des F -Test fur multivariate Daten (vgl.Beispiel Methodenlehre II, 1.17)

I Fur große Stichprobenumfange kann man zeigen, dass der Test

−(n − 1− g + p

2) log Λ ≥ χ2

p(g−1),1−α

naherungsweise das Niveau α hat. Dabei bezeichnet χ2p(g−1),1−α

das Quantil der χ2-Verteilung mit p(g − 1) Freiheitsgraden29 / 75





SPSS und Wilk’s ΛI In SPSS wird statt der χ2-Approximation (Bartlett, 1947) eine

F -Approximation verwendet (Rao, 1952). Man kann zeigen, dass

Ff1,f2 =f2f1· 1− Λ1/s

Λ1/s

”naherunsweise” F -verteilt ist mit (f1, f2) Freiheitsgraden, wobei

f1 = p(g − 1) , f2 = m · s − 1

2p(g − 1) + 1

m = n − 1− p + g

2

s =

√p2(g − 1)2 − 4

p2 + (g − 1)2 − 5

I Als Approximation fur das α-Quantil der Wilk’s Λ-Verteilungerhalt man

Λp,n−g ,n−1,α ≈( 1

1 + f1f2· Ff1,f2,α

)sI Ist n im Vergleich zu g und p klein, dann liefert die F -Approxi-

mation die genaueren Werte.30 / 75





4.10 Abschließende BemerkungenI Wilk’s Test setzt die Normalverteilungsannahme und Varianz-

und Kovarianzhomogenitat voraus.I Sind λ1, . . . , λg die Eigenwerte der Matrix W −1B, dann gilt

Λ =∏g

i=11

1+λi= 1

1+λ1· 11+λ2

· · · · · 11+λg

I Neben der Determinante werden noch andere Kriterien fur dieKonstruktion von Teststatistiken verwendet:

I Hotelling’s Spurkriterium

H = Spur (B−1W ) =

g∑i=1

1

λi

I Pillai’s Spurkriterium

P = Spur (W (W + B)−1) =

g∑i=1

1

1 + λi

I Roy’s großter Eigenwert (der Matrix (W (W + B)−1):

R =g

maxi=1

1

1 + λi

31 / 75





4.11 Beispiel: MANOVA

I Anhand von Aufsatzen wird bei 6 Unter-, 4 Mittel- und 5Oberschichtenkindern

I ein Index fur die Satzlange (x1),I ein Index fur die Vielfalt der Wortwahl (x2) undI ein Index fur die Komplexitat der Satzkonstruktionen (x3)

erhoben.

I Stimmen die drei sozialen Schichten hinsichtlich dieserlinguistischen Variablen uberein?

I Daten (p = 3, n1 = 6, n2 = 4, n3 = 5)

Unterschicht Mittelschicht Oberschichtx1 x2 x3 x1 x2 x3 x1 x2 x33 3 4 3 4 4 4 5 74 4 3 2 5 5 4 6 44 4 6 4 3 6 3 6 62 5 5 5 5 6 4 7 62 4 5 6 5 63 4 6

32 / 75





Man berechnet die Gruppenmittelwerte

x(1)· =

1

6

( 334

)+( 4

43

)+ . . .

=( 3

69.67

)

x(2)· =

( 4.675.67

7

), x

(3)· =

( 79.679.67

),

den Gesamtmittelwert

x(·)· =

1

15

( 334

)+( 4

43

)+ . . .

=( 3.53

4.675.27

)und erhalt fur die Streuung zwischen den Gruppen

33 / 75





B = 6

( 36

9.67

)−( 3.53

4.675.27

)( 3

69.67

)−( 3.53

4.675.27

)T

+ 4

( 4.675.67

7

)−( 3.53

4.675.27

)( 4.67

5.675.27

)−( 3.53

4.675.27

)T

. . .

= 6( −0.53

1.334.4

)(−0.53, 1.33, 4.4) + 4

( 1.141.0

1.73

)(1.14, 1.0, 1.73)

=( 3.93 5.97 3.17

5.97 9.78 4.783.17 4.78 2.55

)

34 / 75





Fur die Matrix W erhalt man mit einer ahnlichen Rechnung wie inBeispiel 4.5

W =

13.8 −3.3 3.7−3.3 7.55 −0.45

1.7 −0.45 14.38

und damit fur Wilk’s Λ (die Berechnung der Determinante wird hiernicht dargestellt)

Λ = |W (W + B)−1| = 0.297

Es ist p = 3, n1 = 6, n2 = 4, n3 = 5 und man erhalt (Tabelle)

0.297 = Λ ≤ Λ3,12,14,0.95 = 0.315247

mit der F -Approximation (Rao) erzielt man die gleicheTestentscheidung (n = 15, s = 2, f1 = 6, f2 = 20)

f2f1· 1− Λ1/s

Λ1/s= 2.783 ≥ 2.599 = F6,20,0.95

Damit wird die Nullhypothese (die Erwartungswerte der Populationensind gleich) zum Niveau 5% verworfen.

35 / 75





SPSS Output fur Beispiel 4.11:

Sig.Fehler

dfHypothese

dfFWertPillai-Spur

Wilks-Lambda

Hotelling-Spur


Pillai-Spur

Wilks-Lambda

Hotelling-Spur


Konstanter Term

Schicht

,00311,0003,0008,435b

2,300

,01818,0006,0003,4812,321

,03920,0006,0002,784a

,297

,10222,0006,0002,049,717

,00010,0003,000347,487a

104,246

,00010,0003,000347,487a

104,246

,00010,0003,000347,487a

,010

,00010,0003,000347,487a

,990EffektEffekt

Multivariate Testsc

a. Exakte Statistik

b. Die Statistik ist eine Obergrenze auf F, die eine Untergrenze auf dem Signifikanzniveau ergibt.

c. Design: Konstanter Term + Schicht

36 / 75






37 / 75





5.1 Beispiel

I 20 Versuchspersonen werden gebeten einen Text abzuschreiben.Dabei werden

I der beim Schreiben gezeigte durchschnittliche Schreibdruck (x1)registriert

I die durchschnittliche Unterlange der Buchstaben (x2) ermittelt

I Außerdem werden die Personen mit dem Rosenzweig PF (PictureFrustration) Test klassifiziert. Folgende Kategorien kommenhierbei in Betracht:

I extrapunitiv: Aggresivitat ist gegen die Umwelt gerichtet

I intrapunitiv: Aggresivitat ist gegen das eigene Ich gerichtet

I impunitiv: Aggresivitat wird uberhaupt umgangen

38 / 75





Daten zu Beispiel 5.1

extrapunitiv intropunitiv impunitivx1 x2 x1 x2 x1 x213 3 16 5 11 815 5 16 8 13 714 4 18 8 13 715 4 17 4 12 613 4 17 8 15 916 4 12 515 5 12 7

14 8

39 / 75





Streudiagramm zu Beispiel 5.1

Schreibdruck

18161412

Du

rch

sch

nit

tlic

he

Un

terl

äng

e d

er B

uch

stab

en

9

8

7

6

5

4

3

impunitiv: die Aggresivität wird überhaupt umgangen

intropunitiv: Aggresivität ist gegen das eigene Ich gerichtet

extrapunitiv: Aggresivität ist gegen die Umwelt gerichtet

Aggresivität

40 / 75





Mathematisches Modell der Diskriminanzanalyse

I g Gruppen von Probanden

I in jeder Gruppe nj Probanden, jeweils gemessen in p Variablen

I x(j)1 , . . . , x

(j)nj (j = 1, . . . , g)

I x(j)m = (x

(j)m1, . . . , x

(j)mp) (m = 1, . . . , nj)

I p ist die Anzahl der gemessenen Variablen

Beachte: Das Modell entspricht der einfaktoriellen multivariatenVarianzanalyse (wobei hier keine Normalverteilungsannahme gemachtwird)

Ziel: der Diskriminanzanalyse ist die Bildung “optimaler”Linearkombinationen

y (j)ms = v1s x

(j)m1 + · · ·+ vps x (j)

mp (s = 1, 2, . . . ),

um die gegebenen Probandengruppen moglichst gut separieren zukonnen

41 / 75





Beispiele fur Linearkombination fur die Daten in5.1 (g = 3, p = 2)

I Mittelwert aus beiden Merkmalen: v1 = (v11, v21) = ( 12 ,

12 )

y(1)11 =

1

213 +

1

23 = 8, y

(1)21 =

1

215 +

1

25 = 10,

y(3)11 =

1

211 +

1

28 = 9.5

I Kontrast (Differenz aus den Merkmalen) (v21, v22) = ( 12 ,−

12 )

y(1)12 =

1

213− 1

23 = 5, y

(1)22 =

1

215− 1

25 = 5,

y(3)12 =

1

211− 1

28 = 1.5

42 / 75





Daten fur die beiden Linearkombinationen

ext int impy1 y2 y1 y2 y1 y28 5 10.5 5.5 9.5 1.5

10 5 12 4 10 39 5 13 5 10 3

9.5 5.5 10.5 6.5 9 38.5 8.5 12.5 4.5 2 310 6 13.5 3.510 5 9.5 2.5

11 3

Frage: was sind “optimale” Linearkombinationen?

43 / 75





5.2 Das Grundprinzip der Diskriminanzanalyse

Schritt 1: Wir bestimmen zunachst eine Linearkombination

y(j)m1 = v11 x

(j)m1 + · · ·+ vp1 x (j)

mp

I Beachte: die “neuen” Daten hangen von den Gewichtenv11, . . . , vp1 ab

I Das ergibt g Gruppen mit je nj (eindimensionalen) Daten

Gruppe 1 : y(1)11 , . . . , y

(1)n11

...

Gruppe g : y(g)11 . . . , y

(g)ng1

Man versucht jetzt, die Gewichte v11, . . . , vp1 so zu wahlen, dassman die Gruppen moglichst gut unterscheiden kann

44 / 75





I Eine (naheliegende) Moglichkeit: wahle v11, . . . , vp1 so, dass sich

(a) die Gruppenmittelwerte y(j)·1 = 1

nj

∑njm=1 y

(j)m1 moglichst stark

streuen.(b) die transformierten Daten innerhalb einer Gruppe moglichst wenig

streuen.I Betrachtet man als Maß fur die Streuung die Varianz, dann fuhrt

(a) auf die Maximierung von

F (v11, . . . , vp1) =

g∑j=1

nj (y(j)·1 − y ··1)2.

Dabei ist y(·)·1 = 1

n

∑gj=1

∑njm=1 y

(j)m1 der Mittelwert der transfor-

mierten Daten der Gesamtstichprobe und n = n1 + . . .+ ng dieAnzahl aller Probanden.

(b) fuhrt auf die Minimierung von

G (v11, . . . , vp1) =

g∑j=1

nj∑m=1

(y(j)m1 − y

(j)·1 )2

I Eine simultane Maxi- und Minimierung der Großen F und G istnicht moglich ! 45 / 75





I Man maximiert daher den Ausdruck

H(1)(v11, . . . , vp1) =F (v11, . . . , vp1)

G (v11, . . . , vp1)=

∑gj=1 nj (y

(j)·1 − y ··1)2∑g

j=1

∑njm=1(y

(j)m1 − y

(j)·1 )2

Den Maximalwert bezeichnen wir mit λ1. Man spricht auch vondem großten Eigenwert

I Man beachte: die Große H(1)(v11, . . . , vp1) ist (bis auf einenFaktor der Freiheitsgrade) die Statistik des F -Tests in dereinfaktoriellen Varianzanalyse (vgl. Methodenlehre II, 1.17)

I D.h. die Gewichte v11, . . . , vp1 fur die erste Linearkombinationwerden so bestimmt, dass die Statistik des F -Tests fur denVergleich der Gruppenmittelwerte der transformierten Datenmaximal wird

46 / 75





Beispiele fur die erste Linearkombination fur dieDaten in 5.1 (g = 3, p = 2)

I (v11, v21) ≈ (0.8348,−0.5506)

y(1)11 = 0.8348 · 13− 0.5506 · 3 = 9.2003,

y(1)21 = 0.8348 · 15− 0.5506 · 5 = 9.7687,

y(3)31 = 0.8348 · 11− 0.5506 · 8 = 4.7778

47 / 75





Transformierte Daten fur die erste optimaleLinearkombination

y(1)m1 y

(2)m1 y

(3)m1

ext int imp9.2003 10.6034 4.77789.7687 8.9517 6.99799.4845 10.6212 6.9979

10.3192 11.9888 6.71378.6497 9.7864 7.5663

11.1540 7.26439.7687 6.1631

7.2821

48 / 75





Schritt 2 (und Folgende): Man bestimmt nun eine weitereLinearkombinationen

y(j)m2 = v12 x

(j)m1 + · · ·+ vp2 x (j)

mp

so dass:

(1) die Große

H(2)(v12, . . . , vp2) =F (v12, . . . , vp2)

G (v12, . . . , vp2)=

∑gj=1 nj (y

(j)·2 − y ··2)2∑g

j=1

∑njm=1(y

(j)m2 − y

(j)·2 )2

maximal wird und

(2) die transformierten Daten {y (j)m1|m = 1, . . . , nj ; j = 1, . . . , g} und

{y (j)m2|m = 1, . . . , nj ; j = 1, . . . , g} unkorreliert sind

Den Maximalwert aus Schritt 2 bezeichnen wir mit λ2 (zweitgroßterEigenwert). Die aus den weiteren Schritten erhaltenen Großen werdenmit λ3 ≥ λ4 ≥ . . . bezeichnet.

49 / 75





Beispiele fur die beiden Linearkombination fur dieDaten in 5.1 (g = 3, p = 2)

I (v11, v21) ≈ (0.8348,−0.5506)

y(1)11 = 0.8348 · 13− 0.5506 · 3 = 9.2003,

y(1)21 = 0.8348 · 15− 0.5506 · 5 = 9.7687,

y(3)31 = 0.8348 · 11− 0.5506 · 8 = 4.7778

I (v11, v21) ≈ (0.4969, 0.8678)

y(1)12 = 0.4969 · 13 + 0.8678 · 3 = 9.0636,

y(1)21 = 0.4969 · 15 + 0.8678 · 5 = 11.7930,

y(3)31 = 0.4969 · 11 + 0.8678 · 8 = 12.4086

50 / 75





Transformierte Daten fur die ersten beidenoptimalen Linearkombinationen

ext int impy1 y2 y1 y2 y1 y2

9.2003 9.0636 10.6034 12.2900 4.7778 12.40869.7687 11.7930 8.9517 14.8933 6.9979 12.53479.4845 10.4283 10.6212 15.8872 6.9979 12.5347

10.3192 10.9253 11.9888 11.9192 6.7137 11.17008.6497 9.9314 9.7864 15.3903 7.5663 15.2642

11.1540 11.4222 7.2643 10.30229.7687 11.7930 6.1631 12.0378

7.2821 13.8994

Frage: Wie findet man die Transformationen?

51 / 75





Deskriptive Statistiken vor und nach derTransformation

SdMean SdMean

DurchschnittlicheUnterlänge der

BuchstabenSchreibdruck




Gesamt

Aggresivität

1,835,692,1213,96

1,257,131,2812,75

1,956,60,8416,80

,694,141,1314,43

SdMean SdMean

Y2Y1




Gesamt

Aggresivität

1,9012,291,898,70

1,5312,52,896,72

1,8414,081,1310,39

1,0210,76,809,76

52 / 75





Streudiagramm zu Beispiel 5.1 mit Eigenvektoren

Schreibdruck

18,0016,0014,0012,0010,00

Du

rch

sch

nit

tlic

he

Un

terl

äng

e d

er B

uch

stab

en

9,00

8,00

7,00

6,00

5,00

4,00

3,00

Gruppenmittelwert




Aggresivität

53 / 75





Altes und neues Koordiantensystem

Schreibdruck

18161412

Du

rch

sch

nit

tlic

he

Un

terl

äng

e d

er B

uch

stab

en

9

8

7

6

5

4

3




Aggresivität

Y2

16,0014,0012,0010,00

Y1

12,00

10,00

8,00

6,00

4,00




Aggresivität

54 / 75





5.3 Bemerkungen

(1) Ist x(j)m der Vektor der p-Variablen des m-ten Probanden in

Stichprobe j (= 1, . . . , g), dann ist

x(j)· =

1

nj

nj∑m=1

x(j)m

der Mittelwertvektor in Gruppe j und

x =1

N

g∑j=1

nj x(j)· =

1

n

g∑j=1

nj∑m=1

x(j)m

der Mittelwertvektor aller Beobachtungen. Die Matrix p × p

B =

g∑j=1

nj(x(j)· − x)(x

(j)· − x)T

ist ein multivariates Maß fur die Streuung zwischen denGruppen (vgl. 4.10)

55 / 75





(2) die Matrix

W =

g∑j=1

nj∑m=1

(x(j)m − x(j)· )(x(j)m − x

(j)· )T

ist ein multivariates Maß fur die Streuung innerhalb derGruppen (vgl. 4.8).

(2) Man kann zeigen, dass die Vektoren vs = (v1s , . . . , vps)(sukzessive unter der Nebenbedingung der Unkorreliertheit) dieGroßen

H(s)(vs) =vT

s B vs

vTs W vs

maximieren.(3) Man kann zeigen, dass die Vektoren v1, v2, . . . die Eigenvektoren

der Matrix

W −1 B

sind und die zugehorigen Maximalwerte λ1, λ2, . . . sind dieEigenwerte dieser Matrix, d.h. es gilt

(W −1 B)vj = λjvj j = 1, 2, . . .56 / 75





Zahlenbeispiel fur die Berechnung derEigenvektorenI SPSS liefert Schatzungen fur Mittelwerte und Kovarianzmatrizen

(innerhalb der Gruppen und in der gesamten Stichprobe); darausberechnen sich:

B =

(50.537 −8.155−8.155 36.184

)und

W =

(22.017 10.42510.425 28.952

)I Damit ergibt sich:

W −1B =

(2.928 −1.160−1.336 1.667

)mit

λ1 = 3.693, v1 =

(0.8348

−0.5506

)und λ2 = 0.902, v2 =

(0.4969

0.8678

)als Eigenwerten und zugehorigen Eigenvektoren

57 / 75





Zahlenbeispiel: SPSS-Ausgaben


BuchstabenSchreibdruckSchreibdruck

DurchschnittlicheUnterlänge der Buchstaben

Schreibdruck


Kovarianz

Korrelation

1,000,413

,4131,000

1,702,613

,6131,295

Gemeinsam Matrizen innerhalb der Gruppena

a. Die Kovarianzmatrix hat einen Freiheitsgrad von 17.

W = (20− 3) ·(

1.295 0.6130.613 1.702

)=

(22.017 10.42510.425 28.952

)

58 / 75







BuchstabenSchreibdruckSchreibdruck


Schreibdruck


Schreibdruck


Schreibdruck





Gesamt

3,418,124

,1243,818

1,554,893

,8931,643

3,800,400

,400,700

,476,429

,4291,286AggresivitätAggresivität

Kovarianz-Matrizena

a. Die Kovarianzmatrix für alle Fälle hat einen Freiheitsgrad von 19.

W = (7− 1) ·(

1.286 0.4290.429 0.476

)+ (5− 1) ·

(0.700 0.4000.400 3.800

)+(8− 1) ·

(1.643 0.8930.893 1.554

)=

(22.017 10.42510.425 28.952

)

59 / 75






KanonischeKorrelationKumulierte %% der VarianzEigenwert

1

2 ,689100,019,7,901a

,88780,380,33,685a

FunktionFunktion

Eigenwerte

a. Die ersten 2 kanonischen Diskriminanzfunktionen werden in dieser Analyse verwendet.

60 / 75





5.4 Bemerkungen

I Die Vektoren vs = (v1s , . . . , vps) in den Linearkombinationenheißen Diskriminanzfaktoren (man beachte die Analogie zurFaktorenanalyse). Allerdings sind die Diskriminanzfaktoren nichtnotwendig orthogonal.

I Bei g Gruppen und p Variablen gibt es

r = min {p, g − 1}

Faktoren. Wir erhalten also insgesamt r Maximalwerte

λ1 ≥ λ2 ≥ · · · ≥ λr ,

die Eigenwerte genannt werden. Die Große

ρs =λs

λ1 + λ2 + · · ·+ λr; s = 1, . . . , r

bezeichnet den Diskriminanzanteil des Diskriminanzfaktors s

61 / 75





5.5 Bemerkungen

I Die Große

ωs =λ1 + λ2 + . . .+ λsλ1 + λ2 + · · ·+ λr

; s = 1, . . . , r

bezeichnet das Diskriminanzpotenzial der Diskriminanzfak-toren 1, . . . , s. In vielen verwendet man nicht alle Diskriminanz-faktoren sondern nur diejenigen, fur die das Diskriminanzpotenzial”groß” ist. Damit erhalt man wie bei der Faktorenanalyse eineDimensionsreduktion.

I Durch die Diskriminanzanalyse werden r neue Koordinatenachsenbestimmt mit dem Ziel der sukzessiven maximalen Separierbarkeitder verglichenen Stichproben. Die neuen Achsen sind nichtnotwendig orthogonal.

62 / 75





Beachte:

I Wichtige Kennwerte der Diskriminanzanalyse

- Die z-standardisierten Positionen der Probanden auf denKoordinatenachsen heißen wie bei der FaktorenanalyseFaktorwerte.

- Die Korrelation zwischen den ursprunglichen Messwerten und denFaktorwerten heißen Faktorladungen und werden wie bei derFaktorenanalyse fur die Interpretation der Diskriminanzfaktorenverwendet. Eine sehr hohe positive oder sehr niedrige negativeFaktorladung besagt, dass die entsprechende Variable besonderscharakteristisch fur den Diskriminanzfaktor ist.

- Außerdem untersucht man die Mittelwerte der verglichenenGruppen auf dem Diskriminanzfaktor. Dadurch kann manfeststellen, wie gut die Gruppen durch den Diskriminanzfaktorgetrennt werden.

I Oft werden die Diskriminanzfaktoren noch mit demVarimax-Kriterium (vgl. 3.7) rotiert, um eine bessereInterpretation der Diskriminanzfaktoren zu erhalten

63 / 75





5.6 Wieviel Diskriminanzfaktoren?I Ist der Test fur die Hypothese gleicher Erwartungswerte in den

Gruppen aus 4.10 signifikant, so bedeutet das, dass man dieStichproben auf Grund aller Diskriminanzfaktoren signifikantvoneinander trennen kann. Dieser Test verwirft

H0 : µ1 = µ2 = . . . = µg

falls fur Wilk’s Λ die Ungleichung

V1 = −(n − g + p

2− 1) log Λ

= (n − g + p

2− 1) log

r∏j=1

(1 + λj)

= (n − g + p

2− 1)

r∑j=1

log(1 + λj) > χ2p(g−1),1−α

giltI In einem solchen Fall uberpruft man sukzessiv, ob bei Weglassen

von Diskriminanzfaktoren die Gruppen immer noch signifikantunterschieden werden konnen

64 / 75





I Im zweiten Schritt untersucht man die Ungleichung

V2 = −(n − g + p

2− 1)

r∑j=2

log(1 + λj) > χ2(p−1)(g−2),1−α

Gilt diese nicht (keine Signifikanz), so ist “nur” der ersteDiskriminanzfaktor signifikant und das Verfahren wirdabgebrochen. Sonst (Signifikanz) wird das Verfahren fortgesetzt.

I Im dritten Schritt untersucht man die Ungleichung

V3 = −(n − g + p

2− 1)

r∑j=3

log(1 + λj) > χ2(p−2)(g−3),1−α

Gilt diese nicht (keine Signifikanz), so sind “nur” der erste undzweite Diskriminanzfaktor signifikant und das Verfahren wirdabgebrochen. Sonst (Signifikanz) wird das Verfahren fortgesetzt.

I Man beachte:I dieses Verfahren setzt die Normalverteilung voraus.I der α-Fehler des Gesamtverfahrens wird nicht kontolliert.

65 / 75





Wieviel Diskriminanzfaktoren im Beispiel 5.1

I Beachte: g = 3 p = 2

I Zwei Faktoren genugen, denn

V1 = (n − g + p

2− 1)

2∑j=1

log(1 + λj)

= (20− 3 + 2

2− 1) [log(1 + 3.693) + log(1 + 0.902)]

= 16.401 > 9.487 = χ24,0.95

I Ein Faktoren genugt auch schon, denn

V2 = (n − g + p

2− 1)

2∑j=2

log(1 + λj)

= (20− 3 + 2

2− 1) log(1 + 0.902)

= 10.608 > 5.991 = χ22,0.95

66 / 75





5.7 Klassifikation

I Eng mit der Diskriminanzanalyse verbunden ist das Problem derZuordnung von weiteren Probanden zu den g Gruppen

“Zu welcher der g Gruppen passt ein Individuum auf Grund seinesindividuellen Merkmalprofils am besten”

I Beispiel: Eine Person, bei der Schreibdruck x1 = 13 und einedurchschnittliche Unterlange der Buchstaben x2 = 8 gemessenwurde, soll ohne Anwendung des Rosenzweig PF-Testshinsichtlich der Aggresivitat klassifiziert werden.

I Hier: zwei Klassifikationsverfahren, die auf Abstanden basieren

I lineare Klassifikation

I quadratische Klassifikation

67 / 75





5.8 Lineare Klassifikation

I Modellannahmen:

I unabhangige Gruppen

I Varianz-Kovarianzhomogenitat

I Varianz-Kovarianzmatrix in Gruppe j

Wj = 1nj−1

∑njm=1(x

(j)m − x

(j)· )(x

(j)m − x

(j)· )T (j = 1, . . . , g)

I Schatzung der Varianz-Kovarianzmatrix der Gesamtstichprobeerfolgt durch ein gewichtetes Mittel der Varianz-Kovarianz-matrizen der einzelnen Gruppen (n = n1 + · · ·+ ng ist derGesamtstichprobenumfang)

W = 1n−g {(n1 − 1)W1 + (n2 − 1)W2 + · · ·+ (ng − 1)Wg}

= 1n−g

∑gj=1

∑njm=1(x

(j)m − x

(j)· )(x

(j)m − x

(j)· )T

68 / 75





5.8 Lineare Klassifikation

I Der Mahalanobis-Abstand der “neuen” Daten x = (x1, . . . , xp)T

zu der Population j ist:

d linj (x) = (x− x

(j)· )TW −1(x− x

(j)· ) (j = 1, . . . , g)

wobei x(j)· = (x

(j)1· , . . . , x

(j)p· )T der Vektor der durchschnittlichen

Auspragungen der Merkmale in Gruppe j bezeichnet, d.h.

x(j)i· = 1

nj

∑njm=1 x

(j)mi

I Man ordnet das neue Datum x derjenigen Gruppe zu, fur die derzugehorige Abstand d lin

j (x) minimal wird

69 / 75




5. DiskriminanzanalyseBeispiel: Lineare Klassifikation fur die Daten aus Beispiel 5.1

x(1)· =

(14.43

4.14

), x

(2)· =

(16.80

6.60

), x

(3)· =

(12.75

7.13

),

W =1

17

(22.017 10.42510.425 28.952

)Damit erhalt man fur x = (13, 8)T die Abstande

I d lin1 (x) = 16.15

I d lin2 (x) = 18.39

I d lin3 (x) = 0.49

x ist also der Kategorie “impunitiv” zuzuordnen!

70 / 75





5.9 Quadratische Klassifikation

I Varianz-Kovarianzmatrix in Gruppe j

Wj =1

nj − 1

nj∑m=1

(x(j)m − x(j)· )(x(j)m − x

(j)· )T (j = 1, . . . , g)

I Als Abstand der “neuen” Daten x = (x1, . . . , xp)T zu derPopulation j verwendet man

dquadj (x) = (x− x

(j)· )TW −1

j (x− x(j)· ) + log |Wj |

I Man ordnet x derjenigen Gruppe zu, fur die der zugehorigeAbstand dquad

j (x) minimal wird

I Beachte: diese Prozedur setzt keineVarianz-Kovarianzhomogenitat voraus

71 / 75





Beispiel: Quadratische Klassifikation fur die Daten aus Beispiel5.1

x(1)· =

(14.43

4.14

), x

(2)· =

(16.80

6.60

), x

(3)· =

(12.75

7.13

),

W =1

17

(22.017 10.42510.425 28.952

), W1 =

(1.286 0.4290.429 0.476

),

W2 =

(0.700 0.4000.400 3.800

), W3 =

(1.643 0.8930.893 1.554

)Damit erhalt man fur x = (13, 8)T die Abstande

I dquad1 (x) = 56.7510

I dquad2 (x) = 25.1163

I dquad3 (x) = 1.1053

x ist also der Kategorie “impunitiv” zuzuordnen.

72 / 75





5.10 Ein Test auf Varianz-Kovarianzhomogenitat(Box-Test)

I Modellannahmen:- unabhangige Populationen- Normalverteilungsannahme

I Die Nullhypothese der Varianz-Kovarianzhomogenitat in den gGruppen wir verworfen, falls

(1− C )[n log |W | −

g∑j=1

nj log |Wj |]> χ2

p(p+1)(k−1)/2,1−α

gilt. Hier bezeichet

C =[ 2p2 + 3p − 1

6(p + 1)(k − 1)

][ g∑j=1

1

nj− 1

n

]eine Konstante und χ2

p(p+1)(g−1)/2,1−α das (1− α)-Quantil der χ2

Verteilung mit p(p + 1)(g − 1)/2 Freiheitsgraden.I Beachte: Dieser Test ist die Verallgemeinerung des Bartlett-Tests

(vgl. Methodenlehre II, 1.19) auf den multivariaten Fall73 / 75




5. DiskriminanzanalyseBeispiel: Test auf Varianz-Kovarianzhomogenitat fur die Daten ausBeispiel 5.1

C =2 · 22 + 3 · 2− 1

6(2 + 1)(3− 1)

(1

7+

1

5+

1

8− 1

20

)≈ 0.1509

(1− C )[n log |W | −

g∑j=1

log |Wj |]≈ 7.534 < χ2

2(2+1)(3−1)/2,1−α

= χ26,0.95 ≈ 12.591

Die Nullhypothese der Varianz-Kovarianzhomogenitat kann nichtverworfen werden.

74 / 75





Beispiel: SPSS-Test auf Varianz-Kovarianzhomogenitat fur die Datenaus Beispiel 5.1

Box-M

Näherungswert

df1

df2

Signifikanz

F

,389

2622,761

6

1,053

7,736

Textergebnisse

Testet die Null-Hypothese der Kovarianz-Matrizen gleicher Grundgesamtheit.

Beachte: SPSS verwendet eine etwas andere Box-M-Statistik:

(n − g) log |W | −g∑

j=1

(nj − 1) log |Wj | ≈ 7.701

die (mit einer anderen Konstante normiert) approximativ F -verteilt ist.

75 / 75

Methodenlehre III, WS 2009/2010 - Ruhr-Universität Bochum · 11 3 14 4 10 5 12 7 13 3 8 6 Methode...

Documents

Transcript of Methodenlehre III, WS 2009/2010 - Ruhr-Universität Bochum · 11 3 14 4 10 5 12 7 13 3 8 6 Methode...