Vorlesung Einführung in die Wahrscheinlichkeit

41
Vorlesung Einf¨ uhrung in die Wahrscheinlichkeit Prof. C. Mazza Wintersemester 2007/2008 Literatur W. Feller, An introduction to probability theory and some of its applications I (Wiley 1968). K.L. Chung, Elementary probability theory with stochastic processes (Springer 1974). J-Y. Ouvrard, Probabilit´ es 1, Capes et Agr´ egation (Cassini 1998) Contents 1 Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsr¨ aume, Beispiele 3 1.1 Verschiedene Wahrscheinlichkeitsbegriffe .................... 3 1.2 Zufallsexperimente, Wahrscheinlichkeitsr¨ aume .................. 4 1.3 Abz¨ ahlbare Wahrscheinlichkeitsr¨ aume ...................... 4 1.4 Allgemeine Wahrscheinlichkeitsr¨ aume ...................... 7 2 Bedingte Wahrscheinlichkeiten, unabh¨ angige Ereignisse 8 2.1 Die bedingte relative H¨ aufigkeit: ......................... 8 2.2 Bedingte Wahrscheinlichkeit: ........................... 9 2.3 Unabh¨ angigkeit: .................................. 9 3 Diskrete Zufallsgr¨ ossen 12 3.1 Die Verteilung einer Zufallsgr¨ osse ......................... 12 3.2 Einige Eigenschaften der Erwartung ....................... 13 3.3 Unabh¨ angige reelle Zufallsgr¨ ossen ......................... 14 3.4 Moment, Varianz aund Kovarianz ......................... 15 3.5 Die Faltung von Wahrscheinlichkeiten ...................... 17 1

Transcript of Vorlesung Einführung in die Wahrscheinlichkeit

Page 1: Vorlesung Einführung in die Wahrscheinlichkeit

VorlesungEinfuhrung in die Wahrscheinlichkeit

Prof. C. MazzaWintersemester 2007/2008

Literatur

W. Feller, An introduction to probability theory and some of its applications I(Wiley 1968).

K.L. Chung, Elementary probability theory with stochastic processes (Springer1974).

J-Y. Ouvrard, Probabilites 1, Capes et Agregation (Cassini 1998)

Contents

1 Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsraume, Beispiele 3

1.1 Verschiedene Wahrscheinlichkeitsbegriffe . . . . . . . . . . . . . . . . . . . . 3

1.2 Zufallsexperimente, Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . . 4

1.3 Abzahlbare Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Allgemeine Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . . . . . . 7

2 Bedingte Wahrscheinlichkeiten, unabhangige Ereignisse 8

2.1 Die bedingte relative Haufigkeit: . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Bedingte Wahrscheinlichkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 Unabhangigkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Diskrete Zufallsgrossen 12

3.1 Die Verteilung einer Zufallsgrosse . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.2 Einige Eigenschaften der Erwartung . . . . . . . . . . . . . . . . . . . . . . . 13

3.3 Unabhangige reelle Zufallsgrossen . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.4 Moment, Varianz aund Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.5 Die Faltung von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 17

1

Page 2: Vorlesung Einführung in die Wahrscheinlichkeit

3.6 Liste einiger wichtigen (diskreten) Verteilungen . . . . . . . . . . . . . . . . . 18

3.7 Die Verteilungsfunktion einer Zufallsgrosse . . . . . . . . . . . . . . . . . . . . 20

3.8 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.9 Beispiele von abhangigen Zufallsgrossen . . . . . . . . . . . . . . . . . . . . . 20

4 Zufallsgrossen mit Dichten 23

4.1 Unabhangige Zufallsgrossen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.2 Die Verteilungsfunktion einer Zufallsgrosse . . . . . . . . . . . . . . . . . . . . 27

4.3 Die Faltung von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 Lineare Abbildungen von Zufallsvektoren . . . . . . . . . . . . . . . . . . . . 29

4.5 Funktionen von reellen Zufallsgrossen . . . . . . . . . . . . . . . . . . . . . . 30

4.6 Zwei weitere wichtige Dichten: Die Student und die Exponential Verteilungen 30

5 Die Gesetze der grossen Zahlen 32

5.1 Die Ungleichung von Tschebyscheff . . . . . . . . . . . . . . . . . . . . . . . . 33

5.2 Das schwache Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . 34

5.3 Das starke Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 34

5.4 Anwendung der Gesetze der grossen Zahlen . . . . . . . . . . . . . . . . . . . 34

5.5 Markovsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6 Der zentrale Grenzwertsatz 36

Vorbemerkungen

Wahrscheinlichkeit und Statistik haben zwei gemeinsame Wurzeln, die fruh zusammengewach-sen sind:

1. Glucksspiele

2. Elementare beschreibende Statistik (Statistik = “Zusammenstellung von numerischenDaten fur die Zwecke des Staates”)

Heutige Unterscheidung:

Wahrscheinlichkeitsmodell

Wahrscheinlichkeitstheorie ↓ ↑ Statistik

Beobachtungen

2

Page 3: Vorlesung Einführung in die Wahrscheinlichkeit

Ohne wahrscheinlichkeitstheoretische Grundlegung kann man die heutige Statistik nicht ver-stehen. Deshalb wird die Statistik im Sommersemester behandelt.

1 Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsraume,Beispiele

1.1 Verschiedene Wahrscheinlichkeitsbegriffe

Schwierigkeit: es gibt mindestens vier, nur teilweise miteinander vertragliche Wahrschein-lichkeitsbegriffe:

a) Wahrscheinlichkeit = Mass des personlichen Glaubens.

Das entspricht dem umgangssprachlichen Wahrscheinlichkeitsbegriff; mathematischformalisiert von L.J. Savage (Foundations of Statistics, Wiley, 1954). Kritik: dieWahrscheinlichkeitstheorie wird damit zu einer psychologischen Theorie (wie verknupfenwir unseren a priori Glauben mit den Beobachtungen zu einem a posteriori Glauben),und unser Geist scheint diese Verknupfung nicht nach der sogenannten Bayes’schenFormel (s. Kapitel II) vorzunehmen, wie es die Subjektivisten von einer “idealen”Person fordern.

b) Wahrscheinlichkeit = Anzahl gunstige FalleAnzahl mogliche Falle .

Das ist die klassische Definition; die Wahrscheinlichkeit wird hier durch eine Symme-triebetrachtung gefunden.

Bemerkung die Wahrscheinlichkeit in 4 Wurfen mit einem Wurfel mindestens ein-mal eine Sechs zu werfen, ist

gunstige Fallemogliche Falle

= 1− ungunstige Fallemogliche Falle

= 1− 54

64.

Empirischer Hintergrund: das Resultat eines einzelnen Wurfes ist zwar nicht vorhersag-bar, auf die Lange treten aber alle sechs Moglichkeiten etwa gleichhaufig auf. Nachtraglichversucht man das durch eine Symmetriebetrachtung zu begrunden.

Beispiel n Wurfe einer symmetrischen Munze. Gesucht ist die Wahrscheinlichkeitpk, dass man k–mal “Kopf” erhalt. Man hat

pk =(

n

k

)(12

)n

, k = 0, 1, . . . , n.

Es gibt 2n mogliche Ausgange und(nk

):= n!

k!(n−k)! gunstige Falle!

Kritik: die klassische Definition erleidet Schiffbruch, sobald man gefalschte Wurfel oderMunzen betrachtet.

c) Wahrscheinlichkeit = Grenzwert der relativen Haufigkeit.

Diese Definition wird durch die bereits erwahnte beachtliche Stabilitat der relativenHaufigkeit suggeriert. Es ist schwierig, daraus eine mathematische Definition zu machen:

3

Page 4: Vorlesung Einführung in die Wahrscheinlichkeit

wie ist eine “zufallige” Folge ins Unendliche fortzusetzen? Der Ansatz von von Mises(Wahrscheinlichkeit, Statistik und Wahrheit, Springer, Wien, 1936) ist nicht ganzadaquat, wurde aber vor wenigen Jahren in Ordnung gebracht (P. Martin Lof: Defini-tion of random sequences. Information and Control 6 (1966), 602–619).

d) Wahrscheinlichkeit = implizit durch ein Axiomensystem definiert.Dieser Ansatz ist sehr handlich und hat sich allgemein eingeburgert, erschopft abernicht alle Aspekte des Wahrscheinlichkeitsbegriffes (z.B. kann er nicht zwischen zufalli-gen und unzufalligen Folgen von 0 und 1 unterscheiden!).

In dieser Vorlesung werden wir die Wahrscheinlichkeit durch ein Axiomensystem definieren.

1.2 Zufallsexperimente, Wahrscheinlichkeitsraume

Empirische Tatsache: es gibt Experimente (z.B. viermaliges Werfen eines Wurfels), welcheunter den gleichen Bedingungen mehrfach wiederholt werden konnen, aber nicht immer dasgleiche Resultat liefern. Bei oftmaliger Wiederholung stabilisiert sich jedoch die relativeHaufigkeit der verschiedenen moglichen Ergebnisse ω1, ω2, . . . , ωN : wenn ωi bei n–maligerWiederholung ni–mal aufgetreten ist, scheint ni

n fur n →∞ einem Grenzwert pi zuzustreben.

Wir werden das folgende Zufallsexperiment spater genauer analysieren.

Zufallsexperiment: n–maliges Werfen einer Munze.

Mogliche, unterscheidbare Ergebnisse (“Elementarereignisse”): jede Folge ωi der Lange nvon “Kopf” (0) und “Zahl” (1) ist ein mogliches Ereignis, es gibt also N = 2n moglicheErgebnisse.

Wahrscheinlichkeiten: bei einer “idealen” Munze hat jedes mogliche Ergebnis ω (nach derklassischen Definition) die gleiche Wahrscheinlichkeit 2−n; bei einer “gefalschten” Munzewerden die Wahrscheinlichkeiten verschieden sein.

Beachte: dieses Zufallsexperiment kann auch als n–malige Wiederholung eines Zufallsex-perimentes mit nur zwei moglichen Ergebnissen aufgefasst werden.

Ein anderes Beispiel eines Zufallsexperimentes: Man wirft eine “ideale” Munze so langebis man “Zahl” bekommt.

Mogliche Ergebnisse: alle Folgen ωi der Form (0, 0, . . . , 0,︸ ︷︷ ︸(i−1)−mal

1), i = 1, 2, . . . .

Die Menge aller moglichen Ausgange ist hier unendlich, aber abzahlbar.

Wahrscheinlichkeiten: pi := Wahrscheinlichkeit von ωi =(

12

)i

, i = 1, 2, . . . .

Beachte:∞∑

i=1

pi = 1.

1.3 Abzahlbare Wahrscheinlichkeitsraume

Ein abzahlbarer Wahrscheinlichkeitsraum besteht aus einer abzahlbaren Menge Ω = ω1, ω2, . . . ;jedem Element (“Elementarereignis”) ωi ist eine reelle Zahl pi ≥ 0 zugeordnet (die “Wahrschein-

4

Page 5: Vorlesung Einführung in die Wahrscheinlichkeit

lichkeit” von ωi), derart dass∞∑

i=1

pi = 1.

Die Teilmengen A ⊆ Ω heissen zusammengesetzte Ereignisse oder kurz Ereignisse; dieWahrscheinlichkeit P (A) eines Ereignisses ist definiert durch P (A) =

∑i:ωi∈A

pi.

Es gilt:

1) P (∅) = 0,

2) P (Ω) = 1,

3) P (∞⋃

i=1

Ai) =∞∑

i=1

P (Ai) falls Ai ∩ Aj = ∅ fur i 6= j. (∪ ist die Vereinigung, ∩ der

Durchschnitt)

Eine auf der Menge A aller Teilmengen von Ω definierte Funktion P , die die Eigenschaften1), 2), 3) besitzt, wird Wahrscheinlichkeitsmass, Wahrscheinlichkeitsverteilung oder kurzWahrscheinlichkeit genannt; das Tripel (Ω,A, P ) heisst abzahlbarer Wahrscheinlichkeit-sraum.

Wir stellen uns auf den axiomatischen Standpunkt: die pk sind beliebige vorgegebeneZahlen.

Beabsichtigte Interpretation

i) Bei oftmaliger Wiederholung des Experimentes tritt das Ereignis A mit einer relativenHaufigkeit nahe bei P (A) auf.

ii) Wenn P (A) nahe bei 1 (resp. bei 0) liegt, trifft A bei einmaliger Durchfuhrung desExperimentes praktisch sicher ein (resp. nicht ein).

Die Wahrscheinlichkeit wird also auch in dieser sogenannten “Haufigkeitsinterpretation” let-zten Endes durch den subjektiven Glauben interpretiert, aber nur qualitativ, nicht quan-titativ.

Sei (Ω,A,P) ein abzahlbarer Wahrscheinlichkeitsraum.

Die Folge A1, A2, . . . von Ereignissen heisst monoton wachsend (resp. fallend), fallsAi ⊆ Ai+1,∀i(Ai+1 ⊆ Ai,∀i) gilt.

Satz 1.1. A1, A2, . . . sei eine Folge von Ereignissen.

Behauptungen

1. P (Ac1) = 1− P (A1) (Ac

1 bedeutet das Komplement von A)

2. P (A1 ∪A2) = P (A1) + P (A2)− P (A1 ∩A2)

5

Page 6: Vorlesung Einführung in die Wahrscheinlichkeit

3. P (A1 ∪A2 ∪A3) = P (A1) + P (A2) + P (A3)−P (A1 ∩A2)− P (A1 ∩A3)− P (A2 ∩A3) + P (A1 ∩A2 ∩A3)

4.

P (n⋃

i=1

Ai) =n∑

i=1

P (Ai)−∑

i1<i2

P (Ai1 ∩Ai2)+∑i1<i2<i3

P (Ai1 ∩Ai2 ∩Ai3)− · · ·+ (−1)n+1P (A1 ∩A2 ∩ · · · ∩An)

5. Ai ↑ =⇒ limi→∞

P (Ai) = P (∞⋃

i=1

Ai),

Ai ↓ =⇒ limi→∞

P (Ai) = P (∞⋂

i=1

Ai).

Beweis.

1. Man hat A1 ∪Ac1 = Ω und somit P (A1) + P (Ac

1) = P (Ω) = 1.

2. Wegen A1 ∪A2 =(A1 − (A1 ∩A2)

)∪(A2 − (A1 ∩A2)

)∪ (A1 ∩A2) gilt

P (A1 ∪A2) = P (A1)− P (A1 ∩A2) + P (A2)− P (A1 ∩A2) + P (A1 ∩A2)= P (A1) + P (A2)− P (A1 ∩A2)

(A−B := A ∩Bc)

3. siehe 4.

4. Der Beweis geschieht durch Induktion uber n. Die Behauptung ist richtig fur n = 2.Nehmen wir an, sie sei bis n− 1 bewiesen. Dann ist

P (A1 ∪A2 · · · ∪An) = P((n−1⋃i=1

Ai) ∪An

) 2.= P (n−1⋃i=1

Ai) + P (An)− P((n−1⋃i=1

Ai) ∩An

).

Nach Voraussetzung gilt

P (n−1⋃i=1

Ai) =n−1∑i=1

P (Ai)−n−1∑

i1,i2=1i1<i2

P (Ai1 ∩Ai2) + · · ·+ (−1)nP (A1 ∩ · · · ∩An−1)

und

P((n−1⋃i=1

Ai

)∩An) = P

( n−1⋃i=1

(Ai ∩An))

=

n−1∑i=1

P (Ai ∩An)−n−1∑

i1,i2=1i1<i2

P (Ai1 ∩Ai2 ∩An) + · · ·+ (−1)nP (A1 ∩A2 · · · ∩An).

Daraus folgt

P (n⋃

i=1

Ai) =n∑

i=1

P (Ai)−n∑

i1,i2=1i1<i2

P (Ai1 ∩Ai2) + · · ·+ (−1)n+1P (n⋂

i=1

Ai).

6

Page 7: Vorlesung Einführung in die Wahrscheinlichkeit

5. Setzen wir (im Falle, wo Ai ↑) A′i := Ai − Ai−1, i = 2, 3, . . . , A′

1 := A1. Dann gilt∞⋃

i=1

Ai =∞⋃

i=1

A′i und somit

P (∞⋃

i=1

Ai) = P (∞⋃

i=1

A′i) =

∞∑i=1

P (A′i),

denn die Ereignisse A′j sind paarweise disjunkt. Ferner gilt

∞∑i=1

P (A′i) = lim

n→∞

n∑i=1

P (A′i) = lim

n→∞P (A′

1) + · · ·+ P (A′n)

= limn→∞

P (A1) +

(P (A2)− P (A1)

)+ · · ·+

(P (An)− P (An−1)

)= lim

n→∞P (An).

Im Falle, wo Ai ↓ hat man Aci ↑. Deswegen ist

P (⋃

Aci ) = 1− P (

∞⋂i=1

Ai) = limn→∞

P (Acn) = lim

n→∞

(1− P (An)

)und somit

P (∞⋂

i=1

Ai) = limn→∞

P (An).

1.4 Allgemeine Wahrscheinlichkeitsraume

Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω,A, P ), bestehend aus einer beliebigen MengeΩ, einer Menge A von Teilmengen (“Ereignisse”) von Ω und einer reellwertigen Funktion Pauf A, derart dass

A0 1. Ω ∈ A,

2. A ∈ A =⇒ Ac ∈ A,

3. Ai ∈ A, i = 1, 2, . . . =⇒∞⋃

i=1

Ai ∈ A.

(Eine solche Menge A heisst σ–Algebra von Teilmengen.)

A1 1. 0 ≤ P (A) ≤ 1, P (Ω) = 1,

2. P (∞⋃

i=1

Ai) =∞∑

i=1

P (Ai) falls Ai ∩Aj = ∅ fur i 6= j.

(Axiome von Kolmogoroff)

Es ist einfach zu sehen, dass der vorher bewiesene Satz auch im allgemeinen Fall gultigist.

Bemerkung Betrachten wir das folgende Experiment: Ein Punkt wird im Intervall [0, 1]“zufallig” ausgewahlt.

Mogliche Ergebnisse: Ω := [0, 1].

7

Page 8: Vorlesung Einführung in die Wahrscheinlichkeit

Wahrscheinlichkeiten: Hier muss man P (ω) = 0 setzen (warum?), und es ist nicht mehrmoglich, die Wahrscheinlichkeit irgendwelcher Teilmengen A von Ω als die Summe derWahrscheinlichkeiten ihrer Elemente zu definieren. Man kann aber zeigen, dass es eineeinzige Funktion P auf der kleinsten σ–Algebra gibt, welche die Intervalle I enthalt, so dass(A1) 1, 2 mit P (I) = Lange von I fur alle Intervalle I erfullt sind.

Beispiele von Wahrscheinlichkeiten, die durch Symmetriebetrachtungen ausgerechnetwerden

Beispiel 3 Aus einem Kartenspiel (36 Karten) greift man auf gut Gluck 3 Karten heraus.Gesucht ist die Wahrscheinlichkeit P dafur, dass sich unter ihnen genau ein As befindet.

Wir haben

P =gunstige Fallemogliche Falle

=

(41

)(322

)(363

) =4961785

≈ 0, 2778 .

Beispiel 4 Wir betrachten dasselbe Zufallsexperiment wie im dritten Beispiel. Gesuchtist die Wahrscheinlichkeit Q dafur, dass unter ihnen wenigstens ein As vorkommt (EreignisA).

Wir haben

P (A) = 1− P (Ac) = 1−(323

)(363

) ≈ 0, 3053.

Bemerkung: “auf gut Gluck” bedeutet, dass alle moglichen Ausgange gleichwahrscheinlichsind.

Beispiel 5 Eine Urne enthalt n weisse und n rote Kugeln. Der Reihe nach zieht manzufallig eine Kugel und dies ohne Zurucklegen. Wie gross ist die Wahrscheinlichkeit P , dassim Laufe der Ziehung nie mehr rote Kugeln als weisse Kugel gezogen worden sind?

Antwort: P = 1n+1 ; der Beweis wird in der Vorlesung durchgefuhrt.

2 Bedingte Wahrscheinlichkeiten, unabhangige Ereig-nisse

2.1 Die bedingte relative Haufigkeit:

Wir betrachten ein Zufallsexperiment (z.B. einen Wurf mit einem symmetrischen Wurfel).A und B seien zwei Ereignisse. Tritt bei n Wiederholungen des Experimentes genau nB–maldas Ereignis B ein, und findet bei diesen nB Versuchen nA∩B–mal zusammen mit B auchdas Ereignis A statt, so wollen wir den Quotienten

hA|B =nA∩B

nB

(=

nA∩B

n

/nB

n

)die bedingte relative Haufigkeit nennen.

8

Page 9: Vorlesung Einführung in die Wahrscheinlichkeit

Die bedingte relative Haufigkeit des Ereignisses A unter der Bedingung B in einer Versuchs-folge ist also gleich der relativen Haufigkeit von A in einer Teilfolge dieser Versuchsfolge,die aus denjenigen Versuchen der ursprunglichen Folge besteht, bei welchen B stattgefundenhat.

2.2 Bedingte Wahrscheinlichkeit:

Interpretiert man die Wahrscheinlichkeit eines Ereignisses als relative Haufigkeit, ist esdann sinnvoll, die bedingte Wahrscheinlichkeit P (A|B) von A, gegeben B, wie folgtzu definieren

P (A|B) :=P (A ∩B)

P (B)falls P (B) > 0 ist.

(Hier wird vorausgesetzt, dass ein allgemeiner Wahrscheinlichkeitsraum vorgegeben ist.)

2.3 Unabhangigkeit:

Zwei Ereignisse A, B heissen unabhangig, wenn

P (A ∩B) = P (A)P (B)

gilt.

Bemerkung: Im Falle, wo P (B) > 0 ist, sind A und B unabhangig dann und nur dann, wennP (A|B) = P (A) ist.

Beachte: Die Definition von Unabhangigkeit ist symmetrisch. Die Frage, ob die kausaleUnabhangigkeit durch stochastische Unabhangigkeit (wie oben definiert) formalisiert werdenkann, kann nur empirisch entschieden werden.

Satz 2.1 (Der “Satz von der totalen Wahrscheinlichkeit” und die Formel von Bayes ).(Ω,A, P ) sei ein Wahrscheinlichkeitsraum.Seien B1, · · · , Bk, A beliebige Ereignisse mit

a) P (Bi) > 0, ∀i und P (A) > 0,

b) Bi ∩Bj = ∅ fur i 6= j und

c)k⋃

i=1

Bi = Ω.

Dann gilt

— P (A) =k∑

j=1

P (A|Bj)P (Bj) (“Satz von der totalen Wahrscheinlichkeit”).

— Die unmittelbar daraus folgende Beziehung

P (Bi|A) =P (Bi ∩A)

P (A)=

P (A|Bi)P (Bi)k∑

j=1

P (A|Bj)P (Bj)

wird Formel von Bayes genannt.

9

Page 10: Vorlesung Einführung in die Wahrscheinlichkeit

Diese Formel hat eine fundamentale Bedeutung in der subjektiven Wahrscheinlichkeitsauf-fassung: sei P (Bi) das Mass unseres a priori Glaubens an die Richtigkeit der Hypothese Bi;wir kennen ausserdem die bedingten Wahrscheinlichkeiten P (A|Bi) fur das Eintreffen vonA unter den verschiedenen Hypothesen. Wenn nun das Experiment tatsachlich das Resul-tat A ergeben hat, modifiziert eine “ideale” Person ihren a priori Glauben zum a posterioriGlauben P (Bi|A) gemass der Bayes’schen Formel.

Beispiel 1 (vgl. Kapitel I, Beispiel 2)Zufallsexperiment: n Wurfe mit einer idealen Munze.

Ak: der k–te Wurf ergibt “Zahl”. Man hat

P (Ak) =2n−1

2n=

12, P (Ak ∩A`) =

2n−2

2n=

14

fur k 6= `

=⇒ fur k 6= ` sind Ak und A` unabhangig.

Beispiel 2Ich habe einen Sack voll Munzen. Die Halfte davon fallt mit Wahrscheinlichkeit p = 0, 9“Kopf”, die andere Halfte mit Wahrscheinlichkeit p = 0, 1. Ich ziehe auf Geratewohl eineMunze aus dem Sack und werfe sie zweimal. Sei Ki das Ereignis: “Kopf” im i–ten Wurf.Dann gilt:

P (K1) = P (K1|p = 0.9)︸ ︷︷ ︸0.9

P (p = 0.9)︸ ︷︷ ︸0.5

+ P (K1|p = 0.1)︸ ︷︷ ︸0.1

P (p = 0.1)︸ ︷︷ ︸0.5

= 0.5

P (K2) = 0, 5,P (K1 ∩K2) = (0.9)2 · 0.5 + (0.1)2 · 0.5 = 0.41,P (K2|K1) = 0.41

0.5 = 0.82 .

Angenommen, ich habe zweimal “Kopf” geworfen. Wie gross ist die Wahrscheinlichkeit, dassmeine Munze zur Klasse p = 0.9 gehort? (a posteriori Glauben!)

P (“p = 0.9”|K1 ∩K2) =P (“p = 0.9” ∩ (K1 ∩K2))

P (K1 ∩K2)=

0.5 · 0.9 · 0.90, 41

= 0.988

(Formel von Bayes mit A = K1 ∩K2, B1 ∼ “p = 0.1” und B2 ∼ “p = 0.9” )

10

Page 11: Vorlesung Einführung in die Wahrscheinlichkeit

Unabhangige Ereignisse

Definition Eine Familie A1, A2, · · · , An heisst unabhangig, falls

P (⋂j∈J

Aj) =∏j∈J

P (Aj) fur alle Teilmengen J von 1, 2, · · · , n.

Zum Beispiel, die Familie A1, A2, A3 ist unabhangig, falls P (A1∩A2) = P (A1)P (A2), P (A2∩A3) = P (A2)P (A3), P (A1 ∩A3) = P (A1)P (A3) und P (A1 ∩A2 ∩A3) = P (A1)P (A2)P (A3)gilt.

Definition Die Ereignisse A1, A2, · · · , An heissen paarweise unabhangig, falls P (Ai∩Aj) = P (Ai)P (Aj) fur i 6= j gilt.

Beachte: paarweise Unabhangigkeit impliziert nicht die Unabhangigkeit der Familie.

Beispiel: Wir betrachten 2 Wurfe mit einem Wurfel und definieren drei Ereignisse wie folgtA1 ∼ 1. Wurf zeigt gerade Augenzahl,A2 ∼ 2. Wurf zeigt gerade Augenzahl,A3 ∼ beide Wurfe haben die gleiche Paritat.

In diesem Falle sind die Ereignisse A1, A2, A3 paarweise unabhangig, aber die Familie istnicht unabhangig.

Beispiel 3 Rotgrun-Blindheit (R): Eine meist angeborene Storung des Farbensinnes;Farben zwischen Rot und Grun erscheinen als verschieden helles Gelb.

Untersuchungen haben ergeben: Bei den Mannern (M) tritt R viel haufiger auf als bei denFrauen (F ). Man kann namlich annehmen, dass P (R|M) = 8 % und P (R|F ) = 0, 4 % gilt.

Wir wollen jetzt die bedingte Wahrscheinlichkeit P (M |R) des “Ereignisses” M , gegeben Rausrechnen. Um die Sache zu vereinfachen, setzen wir P (M) = P (F ) = 1/2. Nach dem“Satz von der totalen Wahrscheinlichkeit” und der Formel von Bayes erhalten wir

P (R) = P (R|M)P (M) + P (R|F )P (F ) = 0, 08 · 0, 5 + 0, 004 · 0, 5 = 0, 042

und somit

P (M |R) =P (R|M) · P (M)

P (R)=

0, 08 · 0, 50, 042

= 0, 95 .

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum.

Definition Die Mengensysteme A1, · · · ,Ak sind (stochastisch) unabhangig, falls fur alle

k–Tupel A1 ∈ A1, . . . , Ak ∈ Ak, P (A1 ∩A2 ∩ · · · ∩Ak) =k∏

i=1

P (Ai).

Definition Eine Familie (At)t∈T von Mengensystemen heisst unabhangig, falls die Mengen-systeme (At)t∈J , fur alle endlichen Teilmengen J von T , unabhangig sind.

11

Page 12: Vorlesung Einführung in die Wahrscheinlichkeit

3 Diskrete Zufallsgrossen

(Ω,A, P ) sei ein Wahrscheinlichkeitsraum und E eine abzahlbare Menge.

Definition Eine diskrete Zufallsgrosse mit Werten in E ist eine Abbildung X von Ω inE, so dass

X−1(e) := ω ∈ Ω: X(ω) = e ∈ A, ∀ e ∈ E.

X ist eine reelle Zufallsgrosse, falls E ⊆ R und ein Zufallsvektor im Falle, wo E ⊆ Rk (k > 1).

Beispiel 1 (n–maliges Werfen einer symmetrischen Munze)

Ω = ω = (ω1, ω2, · · · , ωn) : ωi ∈ 0, 1, ∀i,

A = P(Ω), P (ω) = 12n ∀ω ∈ Ω.

X(ω) :=n∑

i=1

ωi

In diesem Fall ist E = 0, 1, 2, · · · , n und P(X−1(k)

)=(nk

)12n , k = 0, · · · , n

(siehe Beispiel 2, I, § 1).

Beispiel 2 (n–maliges Werfen einer Munze: die Binomial verteilung B(n, p))

Ai sei das Ereignis “Zahl” beim i–ten Wurf. Wir setzen voraus, dass die Familie A1, A2, · · · , An

unabhangig ist. X sei wie im Beispiel 1 definiert. Da die Munze nicht unbedingt symmetrischist, gilt P

(X−1(k)

)=(nk

)pk(1− p)n−k, wobei p = P (Ai) mit 0 < p < 1.

3.1 Die Verteilung einer Zufallsgrosse

Falls X Werte in E = e1, e2, . . . annimmt, definiert man PX(ei) := P(X−1(ei)

)fur

i = 1, 2, . . . . Fur eine Teilmenge A von E setzt man PX(A) :=∑

ei:ei∈A

PX(ei). Die von X

induzierte Wahrscheinlichkeit PX ist die Verteilung der Zufallsgrosse.

Im Beispiel 2 hat man PX(k) =(nk

)pk(1−p)n−k mit E = 0, 1, 2, . . . , n. Diese Verteilung,

die von zwei Parametern abhangt, spielt eine wichtige Rolle in der Wahrscheinlichkeitstheo-rie. Sie heisst Binomialverteilung

(B(n, p)

).

Die Erwartung Sei X eine reelle Zufallsgrosse mit Werten in E = x1, x2, . . . (⊆ R).Die Erwartung von X ist definiert als

E(X) =∞∑

i=1

xiP(X−1(xi)

)=

∞∑i=1

xiPX(xi),

falls∞∑

i=1

|xi|PX(xi) < ∞.

12

Page 13: Vorlesung Einführung in die Wahrscheinlichkeit

Figure 1: Die Binomialverteilung

Beispiel: Falls X eine B(n, p)–Verteilung besitzt, gilt E(X) = np:Nach Definition ist

E(X) =n∑

k=0

k(nk

)pk(1− p)n−k(E = 0, 1, 2, . . . , n)

=n∑

k=1

k n!k!(n−k)!p

k(1− p)n−k =n∑

k=1

pn · (n−1)!(k−1)!(n−1−(k−1))!p

k−1(1− p)(n−1−(k−1))

= p · nn−1∑k=0

(n−1

k

)pk(1− p)(n−1−k) = n · p .

3.2 Einige Eigenschaften der Erwartung

Satz 3.1. X, Y seien reelle Zufallsgrossen, so dass E(X) und E(Y ) definiert sind. Danngilt:

1. X ≥ 0 =⇒ E(X) ≥ 0,

2. E(cX) = c E(X), ∀ c ∈ R,

3. X ≡ 1 =⇒ E(X) = 1,

4. E(X + Y ) = E(X) + E(Y ).

Beweis

Die Behauptungen 1., 2. und 3. folgen unmittelbar aus der Definition der Erwartung. Um 4.zu beweisen, zeigt man zunachst, dass E(X + Y ) wohl definiert ist: E = x1, x2, . . . (F =y1, y2, . . . ) sei der Wertebereich von X (Y ). Dann nimmt die Zufallsgrosse Z := X + Y

13

Page 14: Vorlesung Einführung in die Wahrscheinlichkeit

Werte in G = xi + yj : i, j = 1, 2, . . . an. Also gilt∑i,j

|xi + yj |P(X−1(xi) ∩ Y −1(yj)

)≤∑i,j

|xi|P(X−1(xi) ∩ Y −1(yj)

)+∑i,j

|yj |P(X−1(xi) ∩ Y −1(yj)

)=

∞∑i=1

|xi|∞∑

j=1

P(X−1(xi) ∩ Y −1(yj)

)+

∞∑j=1

|yj |∞∑

i=1

P(X−1(xi) ∩ Y −1(yj)

)=

∞∑i=1

|xi|P(X−1(xi)

)+

∞∑j=1

|yj |P(Y −1(yj)

)< ∞

und somit existiert die Erwartung von X + Y .

Lasst man nun in den oberen Zeilen uberall den Absolutbetrag weg, sieht man sofort, dass

E(X + Y ) = E(X) + E(Y ).

Bemerkung 1 Im Beweis hat man naturlich vorausgesetzt, dass xi 6= xj und yi 6= yj furi 6= j. Fur die Zahlen xi + yj braucht es nicht der Fall zu sein!

Bemerkung 2 Aus 4. folgt: Falls E(Xi) fur i = 1, 2, . . . , n, existiert, dann existiert E(X1 +X2 + · · ·+ Xn) und

E(X1 + X2 + · · ·+ Xn) = E(X1) + E(X2) + · · ·+ E(Xn).

Mit Hilfe der Linearitat der Erwartung lasst sich die letztere fur die Binomialverteilung

einfach ausrechnen: X (wie im Beispiel 2) kann man als Summe schreiben: X =n∑

i=1

Yi, wobei

Yi die Werte 1 (mit Wahrscheinlichkeit p) und 0 (mit Wahrscheinlichkeit 1 − p) annimmt.E(Yi) = 1 · p + 0 · p = p =⇒ E(X) = np.

3.3 Unabhangige reelle Zufallsgrossen

Sei X eine Zufallsgrosse mit Werten in E = x1, x2, . . . ⊆ R und AX ⊆ A das System allerTeilmengen von Ω, die mit Hilfe von X beschrieben werden konnen, d.h. alle Ereignisse derForm X−1(B) mit B ⊆ E.

Definition Die Zufallsgrossen X1, . . . , Xk heissen (stochastisch) unabhangig, wenn dieMengensysteme AX1 , . . . ,AXk

unabhangig sind.

Beispiel: 2 Wurfe mit einem Wurfel.

Betrachten wir die Zufallsgrossen

Xi :=

1 falls beim i–ten Wurf die Augenzahl gerade ist0 sonst

i = 1, 2. Die Zufallsgrossen X1, X2 sind unabhangig.

Satz 3.2. Seien X, Y unabhangig. Falls E(X), E(Y ) existieren, gilt

E(XY ) = E(X) E(Y ).

14

Page 15: Vorlesung Einführung in die Wahrscheinlichkeit

Beweis Seien x1, x2, . . . und y1, y2, . . . die Werte von X und Y . Dann ist∑i,j

|xiyj |P(X−1(xi) ∩ Y −1(yj)

)=∑i,j

|xi| |yj |P(X−1(xi)

)· P(Y −1(yj)

)wegen der Unabhangigkeit. Somit ist die summe endlich, d.h. die Erwartung von X · Yexistiert. Weiter gilt

E(X · Y ) =∑i,j

xiyjP(X−1(xi) ∩ Y −1(yj)

)=∑i

xiP(X−1(xi)

)·∑j

yjP(Y −1(yj)

)= E(X) · E(Y ).

3.4 Moment, Varianz aund Kovarianz

Sei X eine Zufallsgrosse und g eine reelle Funktion, die (mindestens) auf dem Wertebereichvon X definiert ist. Dann ist g(X) auch eine Zufallsgrosse. Falls g(x) = xk, ∀x ∈ R, dannheisst E

(g(X)

)= E(Xk) das k–te Moment von X (vorausgesetzt, dass E(|X|k) < ∞) und

E(g(X − E(X)

)= E

((X − E(X))k

)das k–te zentrale Moment.

Beachte: Wenn k ≤ m und E(|X|m) < ∞, dann ist auch E(|X|k) endlich.

Beweis: Fur k ≤ m ist |X|k ≤ 1 + |X|m. Nach Satz 3.1 gilt dannE(|X|k) ≤ E(1) + E(|X|m) < ∞.

Wichtig ist das zweite zentrale Moment, die Varianz

σ2(X) = Var(X) = E((X − E(X))2

).

Beachte: Fur alle reellen Zahlen a, b gilt

σ2(aX + b) = a2σ2(X).

σ(X) heisst die Streuung von X.

Interpretationen: Die Erwartung sagt etwas uber die “Lage” der Zufallsgrosse, wahrenddie Streuung (Varianz) dazu dient, die Abweichung von der Erwartung zu charakterisieren.

Satz 3.3. (Schwarz’sche Ungleichung)

X, Y seien zwei reelle Zufallsgrossen.

Behauptung E(|XY |) ≤(

E(X2) · E(Y 2))1/2

.

Beweis: ∀λ ∈ R, gilt E(|X|+ λ|Y |)2 ≥ 0. Durch Satz 3.1 hat man aber

P (λ) := E(|X|+ λ|Y |)2 = E(X2) + λ2 E(Y 2) + 2λ E(|XY |)

und somit E(|XY |)2 ≤ E(X2) E(Y 2).

X und Y seien zwei reelle Zufallsgrossen mit E(X2) < ∞, E(Y 2) < ∞ und Var(X) > 0,Var(Y ) > 0.

15

Page 16: Vorlesung Einführung in die Wahrscheinlichkeit

Definitionen Die Kovarianz und die Korrelation zwischen X und Y sind definiertals

1. Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))

],

2. ρ(X, Y ) := Cov(X,Y )σ(X)·σ(Y ) .

Bemerkung Falls X und Y unabhangig sind, gilt Cov(X, Y ) = ρ(X, Y ) = 0. Aus derLinearitat der Erwartung folgt, dass Cov(X, Y ) = E(XY ) − E(X) E(Y ). Nach Satz 3.2 istE(XY ) = E(X) E(Y ) und deswegen Cov(X, Y ) = 0.

Definition Zwei Zufallsgrossen X und Y sind fast sicher gleich (X f.s.= Y ), falls P(ω :

X(w) 6= Y (ω))

= 0.

Satz 3.4. X, Y seien zwei Zufallsgrossen mit E(X2) < ∞, E(Y 2) < ∞, σ(X) > 0, σ(Y ) >0.

Behauptungen

1. ρ2(X, Y ) ≤ 1,

2. ρ(X, Y ) = 1 ⇐⇒ ∃a > 0, b ∈ R, so dass Yf.s= aX + b,

3. ρ(X, Y ) = −1 ⇐⇒ ∃a < 0, b ∈ R, so dass Yf.s= aX + b.

Beweis

1. Die Ungleichung ist nichts anderes als die Ungleichung von Schwarz (Satz 3.3, wenn manin der letzteren X durch X − E(X) und Y durch Y − E(Y ) ersetzt.

2. “⇐=” : σ2(aX + b) = a2σ2(X) und Cov(X, aX + b) = aσ2(X). Also gilt

ρ(X, Y ) =aσ2(X)√

a2σ2(X)σ2(X)= 1.

2. “=⇒” : Man definiert X ′ := X−E(X)σ(X) und Y ′ := Y−E(Y )

σ(Y ) . Die Korrelation lasst sichdann schreiben als ρ(X, Y ) = E(X ′ · Y ′). Nach Voraussetzung gilt also E(Y ′ − X ′)2 =

E(Y ′)2 + E(X ′)2 − 2 E(X ′ · Y ′) = 0 und deswegen ist Y ′ −X ′ f.s.= 0, d.h.

Yf.s.= E(Y ) + σ(Y )

(X − E(X))σ(X)

= aX + b

mit a = σ(Y )σ(X) und b = E(Y )− σ(Y )

σ(X) · E(X).

3. “⇐=” : Wie oben zeigt man, dass ρ(X, Y ) =aσ2(X)√a2σ4(X)

. Also gilt

ρ(X, Y ) =a

|a|= −1.

16

Page 17: Vorlesung Einführung in die Wahrscheinlichkeit

3. “=⇒” : Selbe Uberlegung wie oben. Man arbeitet aber mit der Summe Y ′ + X ′ undzeigt, dass in diesem Falle

Y ′ + X ′ f.s.= 0.

Satz 3.5. X1, X2, . . . , Xn seien unabhangige Zufallsgrossen mit E(X2i ) < ∞, i = 1, 2, . . . , n.

Behauptung Var( n∑

i=1

Xi

)=

n∑i=1

Var(Xi).

Beweis: Var(n∑

i=1

Xi) = E

[n∑

i=1

(Xi − E(Xi)

)]2= E

[ n∑i,j=1

(Xi − E(Xi)

)(Xj − E(Xj)

)]=

n∑i=1

Var(Xi) +n∑

i,j=1;i 6=j

Cov(Xi, Xj). Wegen der Unabhangigkeit ist aber die Kovarianz zwis-

chen Xi und Xj (i 6= j) null.

Mit Hilfe von Satz 3.5 lasst sich z.B. die Varianz der Binomialverteilung leicht ausrechnen:

Sei X B(n, p)-verteilt. Dann gilt X =n∑

i=1

Yi, wobei Y1, . . . , Yn unabhangig und identisch

verteilt sind (siehe Satz 3.1, Bemerkung 2).Var(Yi) = E(Y 2

i )−(

E(Yi))2 = p− p2 = p(1− p) und deswegen ist Var(X) = np(1− p).

3.5 Die Faltung von Wahrscheinlichkeiten

Frage: Gegeben n unabhangige reelle Zufallsgrossen X1, X2, . . . Xn mit bekannten Verteilun-

gen PX1 , PX2 . . . , PXn. Wie sieht die Verteilung PX der Summe X =

n∑i=1

Xi, die sogenannte

Faltung von PX1 , PX2 . . . , PXnaus?

Im allgemeinen (n beliebig) ist es unmoglich, die Faltung PX auf einfache Weise auszudrucken.Deshalb betrachten wir zunachst den Spezialfall n = 2.

Satz 3.6. X, Y seien zwei reelle unabhangige Zufallsgrossen mit Verteilungen PX , PY

und Wertebereichen E1 := x1, x2, . . . und E2 := y1, y2, . . . .

Sei E := z1, z2, . . . der Wertebereich von Z := X + Y . (Beachte, dass E = x + y : x ∈E1, y ∈ E2.)

Behauptung

PZ(zi) =∞∑

j=1

PY (zi − xj)PX(xj) =∞∑

j=1

PX(zi − yj)PY (yj).

17

Page 18: Vorlesung Einführung in die Wahrscheinlichkeit

Beweis

PZ(zi) = P (ω : Z(ω) = zi) =∞∑

j=1

P (ω : Z(ω) = zi ∩ ω : X(ω) = xj)

=∞∑

j=1

P (Z = zi ∩ X = xj) =∞∑

j=1

P (Z = zi | X = xj)P (X = xj)

=∞∑

j=1

P (Y = zi − xj | X = xj)PX(xj)

=∞∑

j=1

P (Y = zi − xj)PX(xj) wegen der Unabhangigkeit.

Also gilt

PZ(zi) =∞∑

j=1

PY (zi − xj)PX(xj).

3.6 Liste einiger wichtigen (diskreten) Verteilungen

X sei eine reelle Zufallsgrosse.

1. X besitzt eine Binomialverteilung (B(n, p)), falls

(a) X nimmt Werte in E := 0, 1, 2, . . . , n an,

(b) PX(i) =(ni

)pi(1− p)n−i, i ∈ E.

(siehe III, § 1, Beispiel 2)

2. M , N , n seien positive ganze Zahlen mit n ≤ N , M < N . X besitzt eine hyperge-ometrische Verteilung mit Parametern M , N , n, falls

(a) X nimmt Werte in E := k : k ∈ N, k ≤ M,n− k ≤ N −M an,

(b) PX(k) = (Mk )(N−M

n−k )(N

n) , k ∈ E.

3. Die Poisson Verteilung mit Parameter λ(> 0).X besitzt eine Poisson Verteilung P(λ), falls

(a) X Werte in E := 0, 1, 2, 3, . . . annimmt,

(b) PX(k) = e−λ λk

k!, k ∈ E.

Herleitung der Poisson Verteilung als Grenzwert von BinomialverteilungenWir betrachten eine gewisse Menge eines radioaktiven Elementes und ein Zeitintervall[0, T ].

X sei die Anzahl der radioaktiven Zerfalle im Intervall [0, T ]. X ist eine Zufallsgrosse(empirische Tatsache) und gesucht ist eine Approximation fur die Verteilung von X:

Wir dividieren das Intervall [0, T ] in n Teilintervalle ∆i der gleichen LangeT

n. Fur

grosse Werte von n darf man annehmen, dass in jedem Intervall ∆i (i = 1, . . . , n)hochstens ein Zerfall stattfindet. Ferner machen wir die folgenden Voraussetzungen:

18

Page 19: Vorlesung Einführung in die Wahrscheinlichkeit

1. Bezeichnet Ak das Ereignis, dass im Zeitintervall ∆k ein Zerfall stattfindet, so istdie Familie A1, A2, . . . , An unabhangig.

2. ∃ eine Konstante λ (die von der Substanz abhangt), so dass

P (Ai) = λ · Lange von ∆i = λ · T

n, i = 1, 2, . . . , n.

Unter diesen Voraussetzungen gilt:

P (X = k) = PX(k) =(

n

k

)(λ

T

n

)k(1− λ

T

n

)n−k

, , k = 0, 1, . . . , n ,

d.h. X besitzt eine B(n, λTn )-Verteilung.

Fur ein festes k lassen wir nun n gegen ∞ streben. Wir bekommen dann

limn→∞

P (X = k) = limn→∞

PX(k) = e−λT (λT )k

k!.

Die Grenzverteilung ist also eine Poisson Verteilung mit Parameter λT .Bemerkung: X sei P(λ)-verteilt. Dann gilt E(X) = λ: Nach Definition der Erwartungist

E(X) =∞∑

k=0

ke−λ λk

k!=

∞∑k=1

e−λ λk

(k − 1)!= e−λλ

∞∑k=1

λk−1

(k − 1)!= λe−λ · eλ = λ.

4. Die Multinomialverteilung mit Parametern n, p1, p2, . . . , pk.Diese Verteilung ist eine naturliche Verallgemeinerung der Binomialverteilung: Einzufalliges Experiment mit mehreren moglichen Resultaten A1, . . . , Ak wird n-mal un-abhangig wiederholt. Die Wahrscheinlichkeiten P (Aj) =: pj (j = 1, . . . , k) der moglichenResultate genugen dann der Bedingung p1 + p2 · · ·+ pk = 1. Wiederholt man den Ver-such n-mal und bedeutet Bn1,n2,...,nk

das Ereignis, dass unter den n Ergebnissen n1-malA1, n2-mal A2, . . . nk-mal Ak auftreten, wobei n1 + n2 + · · ·+ nk = n gilt, so ist

P (Bn1,n2,...,nk) =

n!n1!n2! . . . nk!

pn11 pn2

2 . . . pnk

k .

Beispiel: n-maliges Werfen eines (nicht unbedingt symmetrischen) Wurfels:

P (Bn1,n2,...,n6) =n!

n1! . . . n6!pn11 . . . pn6

6 ,wobei pi := P (i), i = 1, . . . , 6.

Satz 3.7. X, Y seien zwei unabhangige Zufallsgrossen mit Verteilungen P(λ1),P(λ2).

Behauptung Die Verteilung der Summe Z := X +Y , d.h. die Faltung von P(λ1)und P(λ2) ist die Poisson Verteilung P(λ1 + λ2).

Beweis. Nach Satz 3.6 gilt

PZ(k) =∞∑

j=0

PY (k − j)PX(j) =k∑

j=0

PY (k − j)PX(j)

=k∑

j=0

e−λ2λk−j

2

(k − j)!e−λ1

λj1

j!=

1k!

e−(λ1+λ2)k∑

j=0

k!(k − j)!j!

λj1λ

k−j2

=1k!

e−(λ1+λ2)k∑

j=0

(k

j

)λj

1λk−j2 =

e−(λ1+λ2)

k!· (λ1 + λ2)k .

19

Page 20: Vorlesung Einführung in die Wahrscheinlichkeit

3.7 Die Verteilungsfunktion einer Zufallsgrosse

X sei eine Zufallsgrosse. Die Verteilungsfunktion von X ist definiert als F (u) := P (X ≤ u).F erfullt:

1) F ist monoton wachsend,

2) limx→−∞

F (x) = 0, limx→∞

F (x) = 1,

3) F ist von rechts stetig, d.h. F (u + 0) := limun→arrowu

F (un) = F (u), denn

F (un) = P (X ≤ un) = PX

((−∞, un]

)−→ PX

((−∞, u]

)= F (u),

da (−∞, un] −→ (−∞, u].

Beachte: X nimmt hochstens abzahlbar viele Werte x1, x2, . . . an. Deswegen ist in diesemFalle F stuckweise konstant mit hochstens abzahlbar vielen Sprungen der Hohe F (xk) −F (xk − 0) an den Stellen xk, k = 1, 2, . . . . Bemerkung: Jeder Verteilung entspricht eineVerteilungsfunktion

3.8 Erzeugende Funktionen

Z sei eine Zufallsgrosse mit Werten in Z+ := 0, 1, 2, . . . . Setzt man pk := P (Z = k),

k = 1, 2, . . . , so ist die erzeugende Funktion g (oder gZ) von Z definiert als g(t) =∞∑

n=0pntn =

E(tZ). Da∞∑

n=0pn = 1 ist, konvergiert die Reihe mindestens fur alle t mit |t| ≤ 1.

1. pn = g(n)(0)n! , wobei g(n)(t) die n–te Ableitung von g an der Stelle t ist.

2. Fur 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex und es ist

g(0) = p0 g(1) = 1.

3. E(Z(Z − 1) . . . (Z − k + 1)

)= g(k)(1−), wobei g(k)(1−) = lim

t↑1g(k)(t).

Mittels 3 lassen sich Momente von Z oft leichter berechnen als direkt aus der Verteilung.Man geht rekursiv vor:

E(Z) = g(1)(1−), E(Z2) = E(Z(Z − 1)

)+ E(Z) = g(2)(1−) + g(1)(1−), usw..

3.9 Beispiele von abhangigen Zufallsgrossen

Bei Folgen von Zufallsgrossen war bis jetzt immer die Unabhangigkeit vorausgesetzt. Z.B.war das der Fall in den Kapiteln IV und V. Nachstehend sind drei Beispiele angegeben, wodiese Voraussetzung nicht erfullt ist. Das dritte Beispiel wird am Ende dieses Kapitels naheruntersucht.

20

Page 21: Vorlesung Einführung in die Wahrscheinlichkeit

Beispiel 1 Sei X1, X2, . . . eine Folge unabhangiger und identisch verteilter Zufallsgrossen.

Definiert man Zn :=n∑

i=1

Xi fur n = 1, 2, . . . , so sind die Zufallsgrossen Zn nicht mehr

unabhangig. Die schwachen Gesetze der grossen Zahlen und insbesondere der Zentralgren-zwetsatz geben uns Informationen uber das Verhalten von Zn im Falle, wo n gegen unendlichstrebt.

Beispiel 2 (einfaches Warteschlangen-Modell)Seien 0, 1, 2, . . . die Zeitpunkte, an denen ein Skilift, der pro Zeiteinheit eine Person befordernkann, abfahrt. Zwischen den Zeitpunkten n und n + 1 kommen Yn neue Skifahrer an. DieYn seien unabhangig. Die Lange Zn der Warteschlange unmittelbar vor der Abfahrt zur Zeitn bestimmt sich rekursiv durch

Zn = max(0, Zn−1 − 1) + Yn−1 (n ≥ 1).

Z0 = i0 sei eine bekannte Zahl.

Beispiel 3 Galton studierte 1873 das Phanomen des Aussterbens beruhmter Familien-namen. Es stellte sich die Frage nach der Wahrscheinlichkeit des Aussterbens der mannlichenLinie der Nachkommenschaft eines Mannes, wenn dieser und jeder seiner Sohne, Enkel usw.unabhangig voneinander mit Wahrscheinlichkeit pk genau k Sohne hat: Sei Z0 = 1. IstZn die Anzahl der mannlichen Nachkommen (in mannlicher Linie) in der n–ten Nachkom-

mensgeneration, und hat der j–te dieser Nachkommen X(j)n+1 Sohne, so ist Zn+1 =

Zn∑j=1

X(j)n+1.

Diese Familie Zn ist ein sogenannter Verzweigungsprozess.

Beachte: in diesem Falle sind die Zufallsgrossen Z0, Z1, Z2, . . . nicht unabhangig.

Um die Frage von Galton zu beantworten, mussen wir die Folge qn := P (Zn = 0), n =1, 2, . . . untersuchen, denn q := lim

n→∞qn ist die gesuchte Aussterbewahrscheinlichkeit.

Heute interessiert man sich fur Verzweigungsprozesse, von denen die obigen Prozesse deneinfachsten Fall darstellen; naturlich nicht wegen der Familiennamen, sondern weil ahnlicheVerzweigungen auch in anderen Situationen auftreten. Z.B. macht ein Neutron bei derKernspaltung eine zufallige Zahl weiterer Neutronen frei.

In den obigen Beispielen nehmen die Zufallsgrossen Zn Werte in Z+ := 0, 1, 2, . . . an.Alle Prozesse haben eine gemeinsame Eigenschaft, namlich: fur alle n und alle i0, i1, . . . , in ∈E gilt

P (Zn = in | Zn−1 = in−1, . . . , Z0 = i) = P (Zn = in | Zn−1 = in−1).

Dies ist die sogenannte Markoffsche Eigenschaft. Die Prozesse sind dann Markoffsche Ketten(siehe z.B. Karlin: A first course in stochastic processes, Academic Press (1969); Karlin-Taylor: A second course in stochastic processes, Academic Press (1981)).

Gesucht ist die Aussterbewahrscheinlichkeit q. Da Zn = 0, Zm = 0 fur alle m ≥ n im-pliziert, gilt q = lim

n→∞P (Zn = 0) = lim

n→∞qn. Die Zufallsgrossen X(j)

n haben alle die gleicheVerteilung, also auch die gleiche erzeugende Funktion

g(t) =∞∑

k=0

pktk.

21

Page 22: Vorlesung Einführung in die Wahrscheinlichkeit

Bezeichnet hn die erzeugende Funktion von Zn, so ist wegen P (Z0 = 1) = 1 naturlichh0(t) = t. Ausserdem gilt

hn+1(t) = hn

(g(t)

): hn+1(t) =

∞∑j=0

P (Zn+1 = j)tj =∞∑

j=0

∞∑m=0

P (Zn+1 = j, Zn = m)tj

=∞∑

j=0

∞∑m=0

P (m∑

`=1

X(`)n+1 = j, Zn = m)tj =

∞∑j=0

∞∑m=0

P (m∑

`=1

X(`)n+1 = j) · P (Zn = m)tj

(wegen der Unabhangigkeit von Zn und X(1)n+1, . . . , X

(m)n+1)

=∞∑

m=0

P (Zn = m)( ∞∑

j=0

P (m∑

`=1

X(`)n+1 = j)tj

)

=∞∑

m=0

P (Zn = m)E(t

mP=1

X(`)n+1)

=∞∑

m=0

P (Zn = m)m∏

`=1

E(tX(`)n+1)

(wegen der Unabhangigkeit der Zufallsgrossen X(1)n+1, . . . , X

(m)n+1)

=∞∑

m=0

P (Zn = m)(g(t)

)m (die Zufallsgrossen X(1)n+1, . . . , X

(m)n+1

sind identisch verteilt mit erzeugender Funktion g!)= hn

(g(t)

).

Also ist h1(t) = g(t), h2(t) = (g g)(t) und allgemein hn(t) = (g g · · · g)(t) die Funktion,die man durch n–fache iterierte Anwendung der Abbildung g erhalt. Da qn = P (Zn =0) = hn(0), gilt also q = lim

n→∞hn(0). Damit haben wir bei gegebenem g nur noch ein rein

analytisches Problem zu losen.

22

Page 23: Vorlesung Einführung in die Wahrscheinlichkeit

Satz 3.8. Die Aussterbewahrscheinlichkeit q ist die kleinste nicht-negative Losung der Gle-ichung

g(t) = t.

Ist g(1)(1) ≤ 1 und p1 < 1, so ist q = 1; ist g(1)(1) > 1, so ist q < 1.(g(1)(1) ist die erwartete Zahl der mannlichen Nachkommen jedes Mitgliedes der Nachkom-menschaft. Der Prozess stirbt also — abgesehen vom Fall p1 = 1 — mit Wahrscheinlichkeit1 aus, wenn im Mittel hochstens 1 mannlicher Nachkomme geboren wird, und sonst nur mitWahrscheinlichkeit < 1.)

Beweis Es gilt, wegen der Stetigkeit von g,

g(q) = g(lim hn(0)

)= lim g

(hn(0)

)= lim hn+1(0) = q.

q ist demnach Losung der Gleichung g(t) = t. Ist u ≥ 0 eine weitere Losung, so ist u = g(u) ≥g(0) = h1(0), und durch Induktion folgt aus u ≥ hn(0) dann u = g(u) ≥ g

(hn(0)

)= hn+1(0).

Durch den Grenzubergang n → ∞ ergibt sich u ≥ q. Damit ist die erste Teilaussagebewiesen.

Ist p0+p1 = 1, so kann in jeder Generation maximal ein mannlicher Nachfahre existieren. AusP (Zn+1 = 1) = P (Zn = 1) P (X(1)

n+1 = 1) = p1 P (Zn = 1) folgt induktiv P (Zn = 1) = pn1 .

Damit gilt q = lim(1− pn1 ). In diesem Fall ist g(1)(1) = p1 ≤ 1. Ist p1 < 1, so ist q = 1.

Sei also nun p0 + p1 < 1. Dann ist mindestens eines der pk mit k ≥ 2 positiv. g(1)(t) =∑k=1

kpktk−1 ist dann auf [0, 1) strikt monoton und g(t) dort strikt konvex. Wir betrachten

zwei Falle:

a) Ist g(1) ≤ 1, so ist g′(t) < 1 fur 0 ≤ t < 1. Nach dem Mittelwertsatz muss g(t) > t furt ∈ (0, 1) sin. Also ist 1 die einzige Losung von g(t) = t und damit q = 1.

b) Ist g(1)(1) > 1, so ist g(1)(t) > 1 fur hinreichend nahe bei 1 liegende t < 1. In diesemBereich ist g(t) < t. Da q die kleinste Losung ist, gilt dann 0 < q < 1, falls p0 > 0. Istp0 = 0, so ist g(0) = 0 und also q = 0.

Numerisches Beispiel : Hier kann die zufallige Anzahl der Kinder die Werten 0, 1, und2 mit Wahrscheinlichkeiten 0.25, 0.25 beziehungsweise 0.5 annehmen. Dann ist g durch

g(t) =14

+14t +

12t2,

gegeben und die Losung der Gleichung t = g(t) ist t = 0.5, die Aussterbewahrscheinlichkeitder Bevolkerung ist somit 0.5 !

4 Zufallsgrossen mit Dichten

Definition (Dichte)Eine reellwertige Funktion f heisst Dichte auf Rk, falls

a) f ≥ 0 und

b)∫

Rk

f dx = 1.

23

Page 24: Vorlesung Einführung in die Wahrscheinlichkeit

Definition (Zufallsgrossen mit Dichten)Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Eine Abbildung X von Ω in Rk ist eine Zu-fallsgrosse (Zufallsvektor) mit Dichte f , falls

a) X−1(I1 × I2 × · · · × Ik) ∈ A fur jede mogliche Wahl von Intervallen I1, . . . , Ik und

b) P (X ∈ I1 × I2 × · · · × Ik) = PX(I1 × · · · × Ik) =∫

I1×···×Ik

f(x)dx fur alle “Rechtecke”

I1 × I2 × · · · × Ik .

Beispiel 1 (Die gleichformige Verteilung auf dem Intervall [0, 1])Die reelle Zufallsgrosse X besitzt eine gleichformige Verteilung auf [0, 1], falls seine Dichte f

durch f(x) :=

1 fur x ∈ [0, 1],0 sonst definiert ist.

Beispiel 2 (Die Normalverteilung N(µ, σ2))Die reelle Zufallsgrosse X besitzt eine Normalverteilung N(µ, σ2)), σ > 0, µ ∈ R, falls ihreDichte ϕµ,σ2 durch

ϕµ,σ2(x) :=1

σ√

2πe−

(x−µ)2

2σ2 ,

x ∈ R definiert ist. Die Standard-Normalverteilung ist definiert durch die Dichte ϕ :=ϕ0,1.

Sei X eine N(0, 1) Zufallsgrosse. Die reelle Zufallsgrosse

Y = µ + σX, µ ∈ R, σ > 0,

besitzt eine Normalverteilung N(µ, σ2).

Beachte: ϕ0,1 ist eine Dichte, denn(∫ϕ(x)dx

)2

=∫

1√2π

e−x22 dx ·

∫1√2π

e−y2

2 dy =∫R2

12π

e−(x2+y2)

2 dx dy

=12π

∞∫0

( 2π∫0

e−r22 rdϕ)

)dr (Polarkoordinaten) =

∞∫0

e−r22 rdr = 1.

Definition (Erwartung)X sei eine reelle Zufallsgrosse mit Dichte f . Die Erwartung von X ist definiert als E(X) :=∫R

xf(x)dx, falls∫|x|f(x)dx < ∞.

Definition X sei wie oben und g sei eine auf R definierte reelle Funktion. Dann definiertman E

(g(X)

):=∫R

g(x)f(x)dx, falls∫R|g(x)|f(x)dx < ∞.

Beachte: Damit die letzte Definition einen Sinn hat, sollte man die folgende Eigenschaftbeweisen:

24

Page 25: Vorlesung Einführung in die Wahrscheinlichkeit

Figure 2: Normale Dichten

Figure 3: Gausssche Verteilingsfunktionen

Figure 4: Die Normal N(µ, σ2) Dichte

25

Page 26: Vorlesung Einführung in die Wahrscheinlichkeit

Besitzt g(X) eine Dichte h, dann gilt∫R

xh(x)dx =∫

g(x)f(x)dx.

(Ein Beweis (in einem Spezialfall) wird spater angegeben.)

Definition (Varianz)X sei eine reelle Zufallsgrosse mit Dichte f , so dass E(X2) < ∞. Die Varianz ist definiertals

Var(X) :=∫ (

x− E(X))2

f(x)dx = E(X2)−(

E(X))2

.

Die Streuung or Standard-Abweichung von X ist definiert als

σ(X) =√

Var(x).

Beispiel. Es ist sehr einfach zu verifizieren, dass

i) im Beispiel 1 (oben), E(X) = 12 , Var(X) = 1

12 und

ii) im Beispiel 2 , E(X) = µ, Var(X) = σ2.

Definition (Kovarianz, Korrelation)Der Zufallsvektor X = (X1, X2) mit Werten in R2 besitze die Dichte f . Die Kovarianzzwischen X1 und X2 ist definiert als

Cov(X1, X2) :=∫R2

(x1 − E(X1)

)(x2 − E(X2)

)f(x1, x2)dx1dx2

und die Korrelation als

ρ(X1, X2) :=Cov(X1, X2)√

Var(X1) ·Var(X2).

Beachte: Die Kovarianz ist nur dann definiert, wenn E(X21 ) < ∞ und E(X2

2 ) < ∞. Fur dieKorrelation braucht man die zusatzlichen Bedingungen Var(X1) > 0, Var(X2) > 0.

4.1 Unabhangige Zufallsgrossen

X1, X2, . . . , Xn seien n reelle Zufallsgrossen.

Definition Die Zufallsgrossen sind unabhangig, falls

P(X1 ∈ I1, X2 ∈ I2, . . . , Xn ∈ In

)=

n∏i=1

P (Xi ∈ Ii)

fur jede mogliche Wahl von Intervallen I1, I2, . . . , In.

26

Page 27: Vorlesung Einführung in die Wahrscheinlichkeit

Satz 4.1. Sind X1, X2, . . . , Xn unabhangige reelle Zufallsgrossen mit Dichten fi, i =1, . . . , n, dann besitzt der Zufallsvektor X := (X1, X2, . . . , Xn) die Dichte f(x1, x2, . . . , xn) =n∏

i=1

fi(xi).

Beweis.

P (X ∈ I1 × I2 × · · · × In) =n∏

i=1

P (Xi ∈ Ii) =n∏

i=1

∫Ii

f(xi)dxi

=∫

I1×I2×···×In

( n∏i=1

fi(xi))dx1dx2 . . . dxn .

Dies gilt fur alle “Recktecke” I1 × I2 × · · · × In. Also istn∏

i=1

fi(xi) die Dichte von X.

Bemerkung Die Satze 1, 2, 3, 4, 5 vom Abschnitt 1 (Diskreter Fall) sind auch furZufallsgrossen mit Dichten gultig.

4.2 Die Verteilungsfunktion einer Zufallsgrosse

X sei eine reelle Zufallsgrosse mit Dichte f . Die Verteilungsfunktion von X ist definiert als

F (u) := P (X ≤ u) =u∫

−∞f(v)dv.

Die Funktion F besitzt dieselben Eigenschaften wie im diskreten Fall.

Beachte: Falls die Dichte f im Punkte u stetig ist, dann gilt F ′(u) = f(u).

Beispiel X1, X2, X3, . . . , Xn seien unabhangige Zufallsgrossen mit gleichformiger Verteilungauf dem Intervall [0, 1].Wie sieht die Dichte von Y := maxX1, X2, . . . , Xn aus?

Wir berechnen zunachst die Verteilungsfunktion F von Y :

F (u) = P (Y ≤ u) = P (X1 ≤ u, X2 ≤ u, . . . , Xn ≤ u) =n∏

i=1

P (Xi ≤ u)

wegen der Unabhangigkeit. Also gilt F (u) = 0 fur u ≤ 0, F (u) = 1 fur u ≥ 1 und F (u) = un

fur 0 < u < 1. Die Dichte f von Y erhalten wir, indem man F ableitet. Also ist f(u) = nun−1

fur 0 ≤ u ≤ 1 und f(u) = 0 sonst. Wir sind jetzt in der Lage, E(Y ) und Var(Y ) auszurechnen:

E(Y ) =

1∫0

unun−1du =

1∫0

nundu =n

n + 1un+1

1∣∣0

=n

n + 1,

27

Page 28: Vorlesung Einführung in die Wahrscheinlichkeit

Var(Y ) = E(Y 2)−( n

n + 1

)2

=

1∫0

u2nun−1du−( n

n + 1

)2

= n

1∫0

un+1du−( n

n + 1

)2

=n

n + 2un+2

1∣∣0

−( n

n + 1

)2

=n

n + 2−( n

n + 1

)2

.

4.3 Die Faltung von Dichten

X, Y seien zwei reelle unabhangige Zufallsgrossen mit Dichten f , g.

Definition (Faltung)Die Faltung der dichten f und g ist die Dichte h der Summe Z := X + Y .

Satz 4.2. Die Faltung h der Dichten f und g ist gegeben durch

h(z) =

∞∫−∞

f(z − x)g(x)dx =

∞∫−∞

g(z − x)f(x)dx, ∀ z ∈ R.

Beweis. Sei Z = X + Y . Dann gilt

P (Z ≤ z) = P (X + Y ≤ z) =∫ ∫

x+y≤z

f(x)g(y)dx dy.

(Nach Satz 4.1 besitzt der Zufallsvektor (X, Y ) die Dichte f(x)g(y).)Das letzte Integral kann man schreiben als

∞∫−∞

( z−x∫−∞

g(y)dy)f(x)dx =

∞∫−∞

( z∫−∞

g(v − x)dv)f(x)dx

Fubini=

z∫−∞

( ∞∫−∞

g(v − x)f(x)dx)dv =

z∫−∞

h(v)dv.

Also gilt P (Z ≤ z) =z∫

−∞h(v)dv, ∀ z ∈ R und somit ist h die Dichte der Summe.

Definition (Chi-Quadrat Verteilung)X1, X2, . . . , Xn seien unabhangige Zufallsgrossen mit Standard Normal N(0, 1) Dichte ϕ.Die Chi-Quadrat Verteilung mit n Freiheitsgraden ist die Verteilung der Summe

Yn :=n∑

i=1

X2i .

28

Page 29: Vorlesung Einführung in die Wahrscheinlichkeit

Satz 4.3. Die Zufallsgrosse Yn besitzt die Dichte

fn(y) =1

2n/2Γ(n2 )

yn/2−1e−y2 fur y > 0 (n = 1, 2, . . . ),

wobei Γ(p) :=∞∫0

zp−1e−zdz (p > 0).

Ein Beweis kann mit Hilfe von Satz 4.2 durch Induktion gefuhrt werden.

Die Behauptung kann auch bewiesen werden, indem man mit Polarkoordinaten arbeitet:

Fn(y) := P (Yn ≤ y) =∫

x21+x2

2+···+s2n≤y

ϕ(x1)ϕ(x2) . . . ϕ(xn)dx1dx2 . . . dxn

=∫

x21+x2

2+···+x2n≤y

e−

nPi=1

X2i2

dx1dx2 . . . dxn = C

∫ √y

0

e−r22 rn−1dr ,

wobei C so gewahlt wird, dass P (Yn < ∞) = 1. Differenziert man die VerteilungsfunktionFn, erhalt man

fn(y) = C e−y2

(√y)n−1

· 12√

y= C e−

y2 y

n2−1 1

2.

Es muss gelten:

C

∫ ∞

0

e−y2 y

n2−1 1

2dy = 1 = C

∫ ∞

0

e−z2n2−1z

n2−1dz

d.h. C =1

Γ(n2 )2n/2−1

und somit fn(y) =1

Γ(n2 )2n/2

e−y2 y

n2−1 .

Summe von unhabhagige Normale Zuffalsgrosse Seien X und Y zwei unhabhangigenormale Zuffalsgrosse N(µ1, σ

21), resp. N(µ2, σ

22). Dann besitzt die Zuffalsgrosse Z = X +Y

eine normale Dichte N(µ1 + µ2, σ21 + σ2

2).

4.4 Lineare Abbildungen von Zufallsvektoren

X := (X1, . . . , Xn)T sei ein Zufallsvektor mit Dichte f(x1, . . . , xn).

Satz 4.4. Wenn A eine regulare (n × n)–Matrix ist, dann besitzt der Vektor Y := AX

die Dichte g(y) = f(A−1y

) 1|det(A)|

(y := (y1, y2, . . . , yn)T

).

Beweis. Sei R = I1 × I2 × · · · × In ein “Rechteck” in Rn. Dann gilt:

P (Y ∈ R) = P (AX ∈ R) = P (X ∈ A−1R) =∫

A−1R

f(x)dxx=:A−1y

=∫R

f(A−1(y)

)|det(A−1| dy

und somit ist f(A−1(y)

) 1|det(A)|

die Dichte von Y .

Spezialfall: Sind die Zufallsgrossen X1, . . . , Xn unabhangig mit Dichte ϕ und ist die MatrixA orthogonal, so sind die Zufallsgrossen Y1, Y2, . . . , Yn auch unabhangig mit der gleichenDichte ϕ.

29

Page 30: Vorlesung Einführung in die Wahrscheinlichkeit

4.5 Funktionen von reellen Zufallsgrossen

Satz 4.5. Sei X eine reelle Zufallsgrosse mit Werten in einem offenen Intervall I undDichte f > 0 auf I. Sei g eine eineindeutige stetig differenzierbare Funktion, die auf Idefiniert ist.

Behauptung Falls g′(x) 6= 0, ∀x ∈ I, dann besitzt die Zufallsgrosse Y := g(X) dieDichte

h(y) = f(g−1(y)

) 1|g′(g−1(y)

)|.

Beweis. Sei J ein Intervall in g(I). Dann gilt:

P (Y ∈ J) = P(g(X) ∈ J

)= P

(X ∈ g−1(J)

)=

∫g−1(J)

f(x)dxy:=g(x)

=∫J

f(g−1(y)

) 1|g′(g−1(y))|

dy

Korollar Wenn die Voraussetzungen von Satz 4.5 erfullt sind, dann folgt unmittelbar

E(g(X)

):=∫I

g(x)f(x)dx =∫

g(I)

y h(y)dy =: E(Y ).

Beispiel Sei X gleichformig verteilt auf dem Intervall (0, 1). Wir betrachten die FunktionY := X2. Nach Satz 4.5 ist dann die Dichte h von Y :

h(y) =1

2√

yfur 0 < y < 1 und 0 sonst.

Bemerkung. Fur das erwahnte Beispiel ist Satz 4.5 nicht direkt anwendbar. Man mann aberden Wertebereich von X so zerlegen

(R = (−∞, 0) ∪ (0,∞)

), dass auf beiden Teilmengen

die Voraussetzungen des Satzes erfullt sind.

4.6 Zwei weitere wichtige Dichten: Die Student und die Exponen-tial Verteilungen

(Die Student-Verteilung und die Exponentialverteilung)

1. Die Student-Verteilung

Definition Die Student-Verteilung mit n Freiheitsgraden ist die Verteilung von Un :=X0√

1n

n∑i=1

X2i

wobei die Zufallsgrossen X0, X1, . . . , Xn unabhangig Normal N(0, 1) sind.

30

Page 31: Vorlesung Einführung in die Wahrscheinlichkeit

Satz 4.6. ?? Die Zufallsgrosse Un besitzt die Dichte

hn(z) =1√

π ·√

n

Γ(n+12 )

Γ(n2 )

1

(1 + z2

n )n+1

2

.

Beweis.

√n∑

i=1

X2i besitzt die Dichte

kn(z) = 2z fn(z2) =z

Γ(n2 )

(z2

2

)n/2−1

e−z22 , z > 0.

(fn ist die Dichte der Chi-Quadrat Verteilung mit n Freiheitsgraden.) Der Quotient Qn :=X0√n∑

i=1

X2i

besitzt dann die Dichte

rn(u) =

∞∫0

z kn(z)ϕ(uz)dz =Γ(n+1

2 )√

πΓ(n2 )

1(1 + u2)(n+1)/2

,

(wenn man die Variablentransformation z2

2 (1 + u2) = v benutzt.) Un ist aber gleich√

nQn

und somit folgt die Behauptung.

Bemerkung Die Student-Verteilung mit einem Freiheitsgrad besitzt die Dichte h1(z) =1√π

1(1 + z2)

. Dies ist die sogenannte Cauchy Verteilung. Beachte:

∫|z|h1(z)dz = ∞ .

2. Die Exponentialverteilung

Definition Eine reelle Zufallsgrosse X hat eine Exponentialverteilung mit Parameter λ(λ > 0), falls X die Dichte

f(x) = λe−λx, x > 0

besitzt.

Herleitung der Exponentialverteilung mit Hilfe eines Beispieles aus der Physik:Die Atome eines radioaktiven Elementes zerfallen in zufalligen Zeitpunkten. Wie die Er-fahrung zeigt, hangt die Wahrscheinlichkeit dafur, dass ein zu einem gewissen Zeitpunkt t0noch nicht zerfallenes Atom wahrend des folgenden Zeitinvervalls der Lange t zerfallt, nurvon der Lange t dieses Zeitinvervalls ab, aber nicht vom Zeitpunkt t0. Wir bezeichnen mitX die Lebensdauer eines Atoms und F sei ihre Verteilungsfunktion. Wenn G(t) := 1−F (t),wissen wir, dass diese Funktion monoton abnimmt und dass G(0) = 1.

Ferner gilt:P (X ≥ t + s | X ≥ s) = P (X ≥ t) fur alle t, s ≥ 0,

31

Page 32: Vorlesung Einführung in die Wahrscheinlichkeit

d.h. G(s + t) = G(s)G(t), ∀ t, s ≥ 0. Damit haben wir fur die Funktion G(t) eine Funk-tionalgleichung erhalten, aus der wir diese bestimmen konnen. Um die Sache zu verein-fachen, nehmen wir zunachst an, dass G im Nullpunkt differenzierbar ist. Wenn wir inG(s + t) = G(s)G(t), s durch ∆t(> 0) ersetzen, bekommen wir

G(t + ∆t)−G(t)∆t

= G(t)

(G(∆t)− 1

)∆t

.

Lasst man nun ∆t gegen Null streben, so folgt

G′(t) = G′(0)G(t).

G′(0) muss negativ sein, denn G′(0) ≤ 0 (G ist monoton abnehmend). Aus G′(0) = 0 undG(0) = 1 wurde G(t) ≡ 1 folgen; es wurde also kein radioaktiver Zerfall stattfinden. Mandarf daher G′(0) = −λ mit λ > 0 setzen und als Losung erhalt man, wegen G(0) = 1,

G(t) = e−λt, d.h. F (t) = 1− e−λt und somit f(t) := F ′(t) = λe−λt .

Wir werden in der Vorlesung zeigen, dass man ohne die Voraussetzung der Differenzierbarkeitvon G im Nullpunkt dasselbe Ergebnis erhalt.

5 Die Gesetze der grossen Zahlen

Sei X1, X2, X3, . . . eine Folge von reellen Zufallsgrossen, die auf einem Wahrscheinlichkeit-sraum (Ω,A, P ) definiert sind. Sei c eine Konstante.

Definition 1 Die Folge Xn konvergiert in Wahrscheinlichkeit gegen c(Xn

P−→n→∞

c),

falls:∀ ε > 0, lim

n→∞P (|Xn − c| > ε) = 0.

Definition 2 Die Folge Xn konvergiert fast sicher gegen c(Xn

f.s.−→n→∞

c), falls

P (ω : limn→∞

Xn(ω) = c) = 1.

Satz 5.1. Die beiden folgenden Aussagen sind aquivalent:

1. xnf.s.−→

n→∞c

2. ∀ ε > 0, limn→∞

P (∞⋃

j=n

|Xj − c| > ε) = 0.

32

Page 33: Vorlesung Einführung in die Wahrscheinlichkeit

Beweis. Setzen wir An :=∞⋃

j=n

|Xj − c| > ε. Da An ↓ A :=∞⋂

n=1

∞⋃j=n

|Xj − c| > ε, gilt

(nach dem Satz) P (A) = limn→∞

P (An) = 0. Wir haben also

P( ∞⋃

j=n

|Xj − c| > 1

k

)−→

n→∞0, ∀ k ∈ 1, 2, 3, . . . ⇐⇒

P( ∞⋂

n=1

∞⋃j=n

|Xj − c| > 1

k

)= 0, ∀ k ∈ 1, 2, 3, . . . ⇐⇒

P( ∞⋃

k=1

∞⋂n=1

∞⋃j=n

|Xj − c| > 1

k

)= 0 ⇐⇒

P( ∞⋂

k=1

∞⋃n=1

∞⋂j=n

|Xj − c| ≤ 1

k

)= 1 ⇐⇒ Xn

f.s.−→n→∞

c.

Korollar Wenn Xnf.s.−→

n→∞c, konvergiert die Folge in Wahrscheinlichkeit gegen c.

Beweis. ε > 0 sei vorgegeben. Nach Satz 5.1, limn→∞

P( ∞⋃

j=n

|Xj − c| > ε)

= 0.

Da P (|Xn − c| > ε) ≤ P( ∞⋃

j=n

|Xj − c| > ε), folgt die Behauptung.

5.1 Die Ungleichung von Tschebyscheff

Satz 5.2. Sei X eine reelle Zufallsgrosse. Dann gilt:

∀ ε > 0, P (ω : |X(ω)| ≥ ε) = P (|X| ≥ ε) ≤ E(X2)ε2

.

Beweis: Fur A ⊆ Ω definiert man die Indikatorfunktion von A als 1A(ω) = 1, falls ω ∈ Aund = 0 sonst.

Da 1|X|≥ε · ε2 ≤ X2, bekommt man die Tschebyscheff’sche Ungleichung, indem man aufbeiden Seiten die Erwartung nimmt.

Bemerkung 1 Falls E(X2) < ∞, existiert die Erwartung von X. Wenn man in derUngleichung von Tschebyscheff X durch X − E(X) ersetzt, bekommt man

P (|X − E(X)| ≥ ε) ≤ Var(X)ε2

.

Interpretation: Je kleiner die Varianz von X ist, desto “kleiner” ist die Abweichung von derErwartung.

Bemerkung 2 X sei B(n, p)-verteilt. Dann ist

P (|X − np| ≥ nε) = P (|Xn− p| ≥ ε) ≤ Var(X)

ε2n2=

np(1− p)ε2n2

=p(1− p)ε2 · n

≤ 14ε2n

,

d.h.n∑

k=0; k:| kn−p|≥ε

(nk

)pk(1− p)n−k ≤ 1

4ε2n .

33

Page 34: Vorlesung Einführung in die Wahrscheinlichkeit

5.2 Das schwache Gesetz der grossen Zahlen

Satz 5.3. X1, X2, . . . sei eine Folge unabhangiger und identisch verteilter Zufallsgrossen.

Behauptung Falls E(|X1|) < ∞, dann gilt

Sn

n

P−→n→∞

E(X1), wobei Sn :=n∑

i=1

Xi .

Beweis: Diesen Satz beweisen wir unter der starkeren Bedingung E(X21 ) < ∞. (Der

allgemeine Fall ist zu kompliziert fur eine Einfuhrungsvorlesung!)

Nach der Ungleichung von Tschebyscheff hat man

P

(∣∣∣∣Sn

n− E(

Sn

n)∣∣∣∣ > ε

)≤

Var(

Sn

n

)ε2

∀ ε > 0.

Weiter gilt

E(Sn

n) = E(X1) und Var(

Sn

n) =

1n2

Var(Sn) =1n

Var(X1)

und somit folgt die Behauptung.

5.3 Das starke Gesetz der grossen Zahlen

Satz 5.4. (ohne Beweis)X1, X2, . . . , sei eine Folge von unabhangigen identisch verteilten Zufallsgrossen. Sn sei wieim Satz 5.3 definiert.

Behauptung Falls E(|X1|) < ∞, dann gilt

Sn

n

f.s.−→n→∞

E(X1).

5.4 Anwendung der Gesetze der grossen Zahlen

1. Als Zufallsexperiment betrachten wir das n–malige Werfen einer symmetrischen Munze,wobei n gross ist. Sn bezeichne die Anzahl von “Kopf”. Sn lasst sich schreiben als

Sn =n∑

i=1

Xi, wobei die Zufallsgrossen Xj i.i.d. sind, mit Xi = 1 (“Kopf” beim i–ten

Wurf) mit Wahrscheinlichkeit 12 und Xi = 0 mit Wahrscheinlichkeit 1

2 . Nach demstarken Gesetz der grossen Zahlen ist Sn

n ungefahr gleich E(Xi) = 12 . Diese Aussage

entspricht unserer Idee von der Stabilisierung der relativen Haufigkeit.

2. Wir betrachten eine gewisse Menge eines radioaktiven Elementes. Wir haben gese-hen, dass die Lebensdauer X eines Atoms eine Zufallsgrosse ist, die eine exponentielleVerteilung besitzt, d.h. ihre Verteilungsfunktion F lasst sich schreiben als F (t) =1 − e−λt, t ≥ 0, wobei λ eine positive Konstante ist (die sogenannte Zerfallskon-stante). Nach Definition ist die Halbwertszeit T des radioaktiven Elementes diejenige

34

Page 35: Vorlesung Einführung in die Wahrscheinlichkeit

Zeitdauer, wahrend der ein Atom mit der Wahrscheinlichkeit 12 zerfallt. Es muss also

gelten F (t) = 12 , also e−λT = 1

2 oder T = ln 2λ = ln 2 · E(X). Die Halbwertszeit ist

somit proportional zur Erwartung der Lebensdauer(

E(X) = 1λ !).

Im Zeitpunkt t = 0 seien N Atome vorhanden. St sei die Anzahl der im Zeitpunktt > 0 zerfallenen Atome. Wegen der Gesetze der grossen Zahlen, d.h. wegen desZusammenhangs zwischen relativer Haufigkeit und Wahrscheinlichkeit, ist die relativeAnzahl der Zerfalle bis zur Zeit t ungefahr gleich 1 − e−λt (N 1). Man sieht also,dass die Halbwertszeit diejenige Zeit ist, wahrend der ungefahr die Halfte der Masseeines radioaktiven Elementes zerfallt.

5.5 Die Markovsche Ungleichung

Satz 5.5. Sei f : R −→ [0,∞). Sei X eine Zufallsvariable mit E(f(X)) < ∞. Es gilt

P (f(X) > ε) ≤ E(f(X)))ε

, ∀ε > 0.

Beweis: Fur A ⊆ Ω definiert man die Indikatorfunktion von A als 1A(ω) = 1, falls ω ∈ Aund = 0 sonst. Da f(X) ≥ ε1f(X)≥ε, bekommt man die Ungleichung

E(f(X)) ≥ E(ε1f(X)≥ε) = εP (f(X) ≥ ε).

Bemerkung Wenn man f(x) = x2 einsetzt kriegt man wieder die Ungleichung vonTschebyscheff, da

E(f(X)) = E(X2) ≥ εP (X2 ≥ ε)= εP (|X| ≥

√ε).

Beispiel: Sei Sn =∑n

i=1 Xi, mit Xi unabhangige Bernoulli Zufallsvariablen mit Parameterp = 1/2. Die Ungleichung von Tschebyscheff angewandt auf Sn − n/2 besagt

P (|Sn

n− 1

2| > ε) ≤ 1

4nε2. (5.1)

Wenn n = 1000 und ε = 1/10 ergibt das

P (S1000 6∈ [400, 600]) ≤ 140

. (5.2)

Wir werden sehen, dass die von der Ungleichung (5.1) gegebene Schatzung nicht gut ist. Sei

f(x) = exp(tx).

Mit der Markovschen Ungleichung gilt

P (Sn

n− 1

2≥ ε) = P (Sn −

n

2≥ nε)

= P (exp(t(Sn −n

2)) ≥ exp(tnε))

≤ 1exp(tnε)

E(exp(t(Sn −n

2))),

35

Page 36: Vorlesung Einführung in die Wahrscheinlichkeit

und somit

P (Sn −n

2≥ nε) ≤ inf

t≥0

E(exp(t(Sn − n2 )))

exp(tnε).

Wir benutzen die Unabhangigkeit der beteiligten Zufallsvariablen, um zu zeigen dass, mitq = 1− p,

E((exp(t(Sn −n

2)) =

n∏i=1

E(exp(t(Xi −12))

= E(exp(t(X − 12))n

= (p exp(t/2) + q exp(−t/2))n

= cosh(t/2)n.

Daraus schliesst man

P (Sn −n

2≥ nε) ≤ inf

t≥0exp(n(ln(cosh(t/2))− tε)).

Wir wollen jetzt diese Ungleichung optimisieren, das heisst wir suchen das Minimum derFunktion h(t) = ln(cosh(t/2))− tε. Es kann leicht nachgepruft werden, dass dieses Minimumim Punkte tε erreicht wird, wobei

tε = ln(1 + 2ε

1− 2ε).

Wir betrachten die Entropiefunktion

I(ε) = −h(tε)

=12(1 + 2ε) ln(1 + 2ε) +

12(1− 2ε) ln(1− 2ε).

Man kann schreibenP (

Sn

n− 1

2≥ ε) ≤ exp(−nI(ε)). (5.3)

Wir machen dasselbe fur die Wahrscheinlichkeit P (Sn/n− 1/2 ≤ −ε), so dass

P (|Sn

n− 1

2| > ε) < 2 exp(−nI(ε)). (5.4)

Wenn n = 1000 und ε = 1/10, I(ε) ≈ 0.02, und (5.4) ergibt

P (S1000 6∈ [400, 600]) ≤ 3.6 10−9 !

(siehe (5.2))

6 Der zentrale Grenzwertsatz

Die wichtigsten zentralen Grenzwertsatze drucken die Tatsache aus, dass die Summe einergrossen Anzahl von unabhangigen Zufallsgrossen unter allgemeinen Bedingungen angenahertnormal verteilt ist: “Sei S die Summe von vielen unabhangigen kleinen Summanden und seien

µ := E(S) und σ2 := Var(S). Dann istS − µ

σgenahert N(0, 1) verteilt”. Diese Satze decken

36

Page 37: Vorlesung Einführung in die Wahrscheinlichkeit

die Grunde dafur auf, dass man in vielen Anwendungsgebieten sehr oft normalen oder fastnormalen Verteilungen begegnet. Ein typisches Beispiel hierfur sind die Ungenauigkeitenbei Messungen; der gesamte Messfehler setzt sich aus vielen verschiedenen kleinen Fehlernzusammen. Durch die zentralen Grenzwertsatze wird also die Annahme gerechtfertigt, dassdie Messfehler normal verteilt sind.

Satz 6.1. (Satz von de Moivre-Laplace)

X1, X2, . . . sei eine Folge von i.i.d. Zufallsgrossen, wobei Xi = 1 mit Wahrscheinlichkeit p

(0 < p < 1) und Xi = 0 mit Wahrscheinlichkeit 1− p. Sn sei als Sn =n∑

i=1

Xi definiert.

Behauptung Fur alle a, b, a ≤ b, gilt

limn→∞

P

(a <

Sn − E(Sn)√Var(Sn)

< b

)= lim

n→∞P

(a <

Sn − np√np(1− p)

< b

)

=∫ b

a

1√2π

e−x22 dx =

∫ b

a

ϕ(x)dx = Φ(b)− Φ(a), wobei Φ(u) :=∫ u

−∞ϕ(x)dx.

Satz 6.2. (Der klassische zentrale Grenzwertsatz)

X1, X2, . . . sei eine Folge von i.i.d. Zufallsgrossen mit E(X2i ) < ∞. Wir setzen µ := E(Xi)

und σ2 := Var(Xi).

Behauptung Fur alle a, b, a ≤ b gilt

limn→∞

P

(a <

Sn − E(Sn)√Var(Sn)

< b

)= lim

n→∞P

(a <

Sn − nµ√nσ2

< b

)=∫ b

a

ϕ(x)dx.

Diese Satze beweist man normalerweise mit Hilfe von Fouriertransformationen: sei X einereelle Zufallsgrosse, dann ist die charakteristische Funktion Ψ von X definiert durch

Ψ(t) = E(eitX) := E(cos(tX)

)+ iE

(sin(tX)

).

Die charakteristische Funktion der Summe von unabhangigen Zufallsgrossen ist gleich demProdukt der charakteristischen Funktionen:

E(eit(X+Y )

)= E

(eitX · eitY

)= E

(eitX

)· E(eitY

).

In dieser Vorlesung wollen wir aber eine andere “elementare” Methode benutzen. Mit dieserMethode beweisen wir den

Satz 6.3. (Satz von Ljapunoff)

Voraussetzungen Fur jedes n seien Xn1, . . . , Xnn unabhangige Zufallsgrossen mit Erwartung0 und E

(|Xni|3

)< ∞, ∀ i.

SetzeSn := Xn1 + Xn2 + · · ·+ Xnn ,σ2

ni := E(X2ni) = Var(Xni), i = 1, 2, . . . , n,

σ2n := E(S2

n) = Var(Sn) =n∑

i=1

σ2ni .

37

Page 38: Vorlesung Einführung in die Wahrscheinlichkeit

Behauptung Wenn

n∑i=1

E(|Xni|3)

σ3n

→ 0 fur n →∞, dann gilt

P

(Sn

σn< x

)−→

n→∞Φ(x) =

1√2π

∫ x

−∞e

u22 du, ∀x.

Bemerkung Die Pramisse der Behauptung sorgt dafur, dass die Xni “klein” sind gegenuberSn .

Beispiel Die Xni haben alle die gleiche Verteilung mit E(X2ni) = σ2, E(|Xni|3) = γ.

Dann giltn∑

i=1

E(|Xni|3)

σ3n

=nγ

(nσ2)3/2=

γ

σ3 ·√

n−→

n→∞0.

Satz 6.1 ist also ein Korollar von Satz 3.

Satz 6.2 ist unter der starkeren Voraussetzung E(|Xi|3) < ∞ auch ein Korollar von Satz 3.

Beweis von Satz 6.3 Ohne Beschrankung der Allgemeinheit nehmen wir σn = 1 an.

(Falls das nicht der Fallist, ersetzt man Xni durchXni

σn, i = 1, . . . , n.) Die Beweisidee besteht

darin, die Xni durch unter sich und von den Xni unabhangige normalverteilte ZufallsgrossenYni mit den gleichen Erwartungswerten und den gleichen Varianzen σ2

ni zu ersetzen und

zu zeigen, dass sich die Verteilung von Sn nur wenig von der Verteilung von Tn :=n∑

i=1

Yni

unterscheidet, welche normal N(0, 1) ist.

Beachte: die Zufallsgrosse Z ist N(µ, σ2) verteilt, falls Z dieselbe Verteilung hat wie σX +µ,wobei X N(0, 1) verteilt ist.

Sei f eine dreimal stetig differenzierbare Funktion mit |f ′′′(x)| ≤ M, ∀x. Dann ist mitU := Xn1 + · · ·+ Xn(n−1)

f(Xn1 + · · ·+ Xn(n−1) + Xnn) = f(U) + f ′(U)Xnn + f ′′(U) · X2nn

2+ r(U,Xnn).

Das Restglied r(U,Xnn) = f ′′′(U +ηXnn)X3

nn

6ist beschrankt durch |r(U,Xnn)| ≤ M

6|Xnn|3.

Also gilt

E (f(U + Xnn)) = E(f(U)

)+ E (f ′(U)Xnn) + E

(f ′′(U)

X2nn

2

)+ E

(r(U,Xnn)

)und

E (f(U + Ynn)) = E(f(U)

)+ E (f ′(U)Ynn) + E

(f ′′(U)

Y 2nn

2

)+ E

(r(U, Ynn)

)und somit

|E (f(U + Xnn))− E (f(U + Ynn)| ≤ M

6(E(|Xnn|3) + E|Ynn|3

),

38

Page 39: Vorlesung Einführung in die Wahrscheinlichkeit

dennE (f ′(U)Xnn) = E (f ′(U)) E(Xnn) = 0 = E (f ′(U)Ynn)

und

E

(f ′′(U)X2

nn

2

)= E (f ′′(U))

σ2nn

2= E

(f ′′(U)

Y 2nn

2

),

weil U , Xnn, Ynn unabhangig sind.

Wir fahren fort und erhalten∣∣E (f(Xn1 + · · ·+ Xn(n−1) + Xnn))− E

(f(Xn1 + · · ·+ Xn(n−1) + Ynn)

)∣∣≤ M

6

(E(|Xnn|3) + E(|Ynn|3)

),∣∣E (f(Xn1 + · · ·+ Xn(n−1) + Ynn)

)− E

(f(Xn1 + · · ·+ Xn(n−2)) + Yn(n−1) + Ynn)

)∣∣≤ M

6

(E(|Xn(n−1)|3) + E(|Yn(n−1)|3)

),

...

|E (f(Xn1 + Yn2 + · · ·+ Ynn))− E (f(Yn1 + · · ·+ Ynn))|

≤ M6

(E(|Xn1|3) + E(|Yn1|3)

).

Addieren ergibt (mit Hilfe der Dreiecksungleichung)

|E (f(Sn))− E (f(Tn))| ≤ M

6

(n∑

i=1

E(|Xni|3) +n∑

i=1

E(|Yni|3)

).

Es gilt

E(|Yni|3) =

√8π

σ3ni ≤

√8π

E(|Xni|3).

(Beweis siehe unten) und somit

|E (f(Sn))− E (f(Tn))| ≤ M

6

(1 +

√8π

)n∑

i=1

E(|Xni|3) =: εn .

Die rechte Seite εn strebt mit wachsendem n nach Voraussetzungen gegen 0.x0 und δ > 0 seien vorgegeben, aber beliebig.

a) Wahle fur f eine Funktion mit

f(x) = 1 fur x ≤ x0 − δ,

f(x) = 0 fur x ≥ x0 ,

0 ≤ f(x) ≤ 1 ∀x, |f ′′′(x)| ≤ M ∀x.

Dann gilt

Φ(x0 − δ) = P (Tn < x0 − δ) ≤ E(f(Tn)

)= E

(f(Sn)

)+ εn

≤ P(Sn < x0

)+ εn ,∀n.

39

Page 40: Vorlesung Einführung in die Wahrscheinlichkeit

Daraus folgt(∗) Φ(x0 − δ) ≤ lim inf

n→∞P (Sn < x0).

b) Wahle fur f eine Funktion mit

f(x) = 1 fur x ≤ x0 ,

f(x) = 0 fur x ≥ xo + δ ,

0 ≤ f(x) ≤ 1 ∀x, |f ′′′(x)| ≤ M ∀x.

Dann gilt

P (Sn < x0) ≤ E(f(Sn)

)= E

(f(Tn)

)+ εn

≤ P(Tn < x0 + δ

)+ εn = Φ(x0 + δ) + εn ,∀n.

Daraus folgt(∗∗) lim sup

n→∞P (Sn < x0) ≤ Φ(x0 + δ).

c) (∗) und (∗∗) zusammen ergeben

Φ(x0 − δ) ≤ lim infn→∞

P (Sn < x0) ≤ lim supn→∞

P (Sn < x0) ≤ Φ(x0 + δ),∀ δ > 0.

Da Φ stetig ist, erhalt man dann

limn→∞

P (Sn < x0) = Φ(x0),

Um den Beweis zu vervollstandigen, mussen wir noch zwei Details erledigen.

a) Wenn Y N(0, 1) verteilt ist, gilt E(|Y |3) =√

8π ,

b) wenn Ψ eine konvexe Funktion ist und wenn E(|X|) < ∞, gilt Ψ(

E(X))≤ E

(Ψ(X)

)(Ungleichung von Jensen).

Beweis von a): einfache Rechnung.

Beweis von b): eine Funktion Ψ ist konvex, wenn sie in jedem Punkt x eine Stutzgeradebesitzt, d.h. es gibt eine lineare Funktion ` ≤ Ψ mit `(x) = Ψ(x). Somit, fur x := E(X),

Ψ(

E(X))

= `(

E(X))

= E(`(X)

)≤ E

(Ψ(X)

).

Spezialfalle:

(i) Ψ(x) = x2 =⇒(

E(X))2 ≤ E(X2)

(ii) Ψ(x) = |x|3/2 =⇒(

E(|X|2))3/2 ≤ E(|X|3)

Im Beweis von Satz 3 haben wir den Fall (ii) benutzt.

40

Page 41: Vorlesung Einführung in die Wahrscheinlichkeit

Eine Anwendung des Satzes von de Moivre-Laplace.

Gesucht ist die Wahrscheinlichkeit, bei 600 Wurfen mit einem symmetrischen Wurfel min-destens 90 und hochstens 100 Sechsen zu erhalten.

S bezeichne die Anzahl von Sechsen. Gesucht ist also P (90 ≤ S ≤ 100).

1. Genaue Losung: Wir wissen, dass S, B(600, 16 ) verteilt ist. Also gilt

P (90 ≤ S ≤ 100) = P (S = 90) + P (S = 91) + · · ·+ P (S = 100)

=100∑

k=90

(600k

)(16)k(

56)100−k .

2. Eine gute Schatzung fur die gesuchte Wahrscheinlichkeit: Nach Satz 1, mit n = 600und p = 1

6 , wissen wir, dass

P

(a ≤ S − E(S)√

Var(S)≤ b

)= P

a ≤S − 600 · 1

6√600 · 1

6 ·56

≤ b

≈ P

(a ≤ S − 100

9, 13≤ b

)≈ Φ(b)− Φ(a), wobei Φ(u) :=

∫ u

−∞

1√2π

e−x22 dx.

Somit gilt

P (90 ≤ S ≤ 100) = P

(90− 100

9, 13≤ S − 100

9, 13≤ 100− 100

9, 13

)≈ Φ(0)− Φ(−1, 095) = 0, 5−

(1− Φ(1, 095)

)≈ 0, 36 ,

wobei der Wert Φ(1, 095) ∼= 0, 86 der in der Vorlesung verteilten Tafel entnommenwurde. (Wir haben die Tatsache benutzt, dass Φ(−x) = 1− Φ(x).)

41