14.1 Neuronale Netze 14 Neuronale ... - Fakultät Statistik · 14 Neuronale Netze 14.1 Ubersicht...

$: 14.1 Neuronale Netze 14 Neuronale ... - Fakultät Statistik · 14 Neuronale Netze 14.1 Ubersicht 14.1 Neuronale Netze Diese Koe zienten m ussen gesch atzt bzw. " gelernt \ werden.$
14 Neuronale Netze 14.1 Ubersicht

14.1 Neuronale Netze

Neuronale Netze

14 Neuronale Netze

Die Folien zu Neur(on)alen Netzen sind angelehnt an zweiLiteraturstellen:

Cross, S.S., Harrison, R.F., Kennedy, R.L. (1995):Introduction to neural networks; The Lancet 346, 1075–1079.

Hwang, J.T.G., Ding, A.A. (1997): Prediction intervals forartificial neural networks; Journal of the American StatisticalAssociation 92, 748–757.

Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 488



Kunstliches Neuronales Netz:

Ein kunstliches Neuronales Netz besteht aus einer Menge vonVerarbeitungseinheiten, sog. Knoten, die Neuronen simulierensollen, und die durch eine Menge von Gewichten

”verbunden“

sind, analog zu den synaptischen Verbindungen im Nervensystem.Die Knoten sind sehr einfache Berechnungselemente und basierenauf der Beobachtung, dass ein Neuron sich wie ein Schalter verhalt:wenn sich genugend Neurotransmitter im Zellkorper angesammelthat, wird ein Aktionspotential erzeugt. Dieses Potential wirdmathematisch modelliert als gewichtete Summe aller den Knotenerreichender Signale im Vergleich zu einer vorgegebenen Schranke.Nur falls diese Schranke uberschritten wird,

”feuert“ der Knoten.




Dass mit neuronalen Netzen komplexe Sachverhalte modelliertwerden konnen, liegt, wie bei einem Computer, nicht an derKomplexitat eines einzelnen Berechnungselements, sondern an derDichte und Komplexitat der Verbindungen. Im Gegensatz zu einemherkommlichen Computer, ist der Speicher eines NeuronalenNetzes verteilt uber seine gesamte Struktur und wird modifiziertdurch Erfahrung, sog. Lernen. Herkommliche Computer arbeitendagegen mit festen Programmen auf sehr komplexen zentralenArbeitseinheiten. Strukturell ist ein kunstliches Neuronales Netzdann auch eher vergleichbar mit einem naturlichen(biologischen) neuronalen Netz wie dem menschlichen Gehirn.




Mehrschicht-Netze:

Das verbreiteste Neuronale Netz ist das sogenannteMehrschicht-Netz (Multilayer Perceptron). Ein solches Netzkann hierarchisch organisiert werden in Schichten (layers) vonNeuronen, der Eingangsschicht (input layer), denZwischenschichten (interior layers) und der Ausgangsschicht(output layer). Ein feedforward (vorwarts leitendes) Netz lasstnur Signale in einer Richtung zu, von den Eingangsknoten nachden Ausgangsknoten. Wie bei jedem Neuronalen Netz wird jedeVerbindung zwischen zwei Knoten mit einem Gewicht belegt, dasden Einfluss des Eingangsknotens auf den Ausgangsknotenreprasentiert.




Abb. 13 : Neuronales Netz mit einer Zwischenschicht




Im Folgenden werden nur spezielle Mehrschicht-Netze betrachtet,namlich Netze mit nur einer Zwischenschicht (s. Abbildung).Die Eingangssignale X1, . . . ,XK werden dabei linear kombiniert mitindividuellen Gewichten βk als Input fur jeden Knoten derZwischenschicht. Der Knoten bearbeitet dieses Eingangssignaldann mit einer Aktivierungsfunktion g zur Erzeugung vonAusgangssignalen. Diese Ausgangssignale werden dann ihrerseitslinear kombiniert mit Gewichten αi zur Bestimmung des Wertes ydes einzigen Knotens der Ausgangsschicht, d.h. desAusgangssignals Y . Dabei wird ein Rauschen ε uberlagert.




Die Aktivierungsfunktion wird im Allg. nicht wie ursprunglich alsSprungfunktion gewahlt, die erst ab einem festgelegtenAktivierungspotential

”feuert“, sondern als symmetrische sigmoide

Funktion, d.h. es gilt :

g(x)→ 0 fur x → −∞ (34)

g(x)→ 1 fur t →∞ und (35)

g(x) + g(−x) = 1. (36)

Eine beliebte Wahl der Aktivierungsfunktion ist die logistischeAktivierungsfunktion:

g(x) =1

1 + e−x(37)

Offenbar kommen aber auch Verteilungsfunktionen vonsymmetrischen Verteilungen in Frage.




Insgesamt erhalt man als Modell, dass einem wie eben definiertenNeuronalen Netz entspricht:

Y = a0 +d∑

i=1

aig(βTi X + βi0) + ε =: f (X ; θ) + ε, (38)

wobei X = (X1, . . . ,XK )T der Vektor der Eingangssignale ist,βTi = (βi1, . . . , βiK ) der Vektor der Gewichte der Eingangssignalefur den i-ten Knoten der Zwischenschicht und ε eine Zufallsgroßemit (mindestens) Erwartungswert 0 ist. Damit erhalt man alsVektor der Modellkoeffizienten dieses Modells:

θ = (α0, . . . , αd , β10, . . . , βd0, βT1 , . . . , β

Td )T .




Diese Koeffizienten mussen geschatzt bzw.”gelernt“

werden. Die Koeffizienten eines Neuronalen Netzes konnenz.B. mit Hilfe der nichtlinearen Methode der KleinstenQuadrate geschatzt werden.

Leider gibt es bei der Modellfunktion ein entscheidendesProblem. Das Modell ist namlich in dem Sinne nichtidentifizierbar, dass es mehrere Koeffizientensatze gibt, diezu dem selben Wert der Modellfunktion f (X ; θ) fuhren.




Tatsachlich sind Neuronale Netze vom Typ (38) mitlogistischer Aktivierungsfunktion (37) niemalsidentifizierbar, und deshalb sollte von einer Interpretation dergeschatzten Koeffizienten eines Modells (38) in jedem FallAbstand genommen werden!

Man kann die Identifizierbarkeit von Neuronalen Netzen untergewissen Bedingungen sicherstellen, unter denen die zumModell (38) gehorige Kovarianzmatrix B derModellkoeffizienten invertierbar ist, was zur Bestimmung vonPrognoseintervallen wichtig ist.


15 Zeitreihenanalyse 15.1 Grundbegriffe

15.1 Zeitreihenanalyse

Zeitreihenanalyse

15 Zeitreihenanalyse15.1 Grundbegriffe



15.1 Zeitreihen – Grundbegriffe

Grundbegriffe

Ziel einer Zeitreihenanalyse ist die Bestimmung eines Modellsfur die Zeitabhangigkeit eines Merkmals.

Die Zeit gibt den Daten also eine”naturliche“ Struktur, und

der zeitliche Verlauf ist entscheidend fur die Interpretation!

Die Zeitreihenanalyse besteht aus der Modellierung derAbhangigkeit des Merkmals von der Zeit. Dabei wird imFolgenden immer davon ausgegangen, dass dieBeobachtungen des Merkmals aquidistant vorliegen.

Definition 13 (Zeitreihe)

Eine zeitliche Folge von Beobachtungswerten eines quantitativenMerkmals heißt Zeitreihe yt , t = 1, . . . ,T .




Beispiele:

Monatliche Durchschnittstemperatur

Jahrlicher Umsatz eines Unternehmens

Verbraucherpreisindex

DAX

Jahrliche Anzahl Studierende am Anfang (oder am Ende) vondieser Veranstaltung




Beispiel ??: Umsatzentwicklung zweier Firmen (Erinnerung)

Tab. 12 : Umsatzentwicklung zweier Firmen

Maier MullerQuartal Umsatz xt xt/x0

xt/x4 Umsatz yt yt/y0yt/y4

ab 1.1.’08 in 1000 EUR in 1000 EUR

0 1240 1.00 1.08 960 1.00 1.071 1210 0.98 1.05 980 1.02 1.092 1180 0.95 1.03 980 1.02 1.093 1190 0.96 1.03 920 0.96 1.034 1150 0.93 1.00 900 0.94 1.005 1080 0.87 0.94 860 0.90 0.966 1120 0.90 0.97 880 0.92 0.987 1130 0.91 0.98 920 0.96 1.02




●

●

●●

●

●

●●

0 1 2 3 4 5 6 7

800

900

1000

1100

1200

1300

Umsatz zweier Firmen

Quartal (= t−1)

Um

satz

in M

io E

UR

●

● ●

●

●

●

●

●

Müller

Maier ●

●

●

●

●

●

●

●

0 1 2 3 4 5 6 7

0.90

0.95

1.00

1.05

1.10

Umsatz zweier Firmen

Quartal (= t−1)

Um

satz

indi

zes

xt

x 4, y

ty 4

●

● ●

●

●

●

●

●

Müller

Maier

Abb. 14 : Verlauft die Umsatzentwicklung zweier Firmen parallel (gleich)oder nicht?




Interpretation

Aus dem ersten Liniendiagramm ergibt sich der Eindruck, dassdie Umsatzentwicklungen bei Maier und Muller nahezuparallel verlaufen.

Das zweite Diagramm macht allerdings den unterschiedlichenVerlauf zu Beginn der Zeitreihen deutlich!


15 Zeitreihenanalyse 15.2 Soll-Ist-Vergleiche

15.2 Zeitreihen – Soll-Ist-Vergleiche

Zeitreihenanalyse

15 Zeitreihenanalyse15.2 Soll-Ist-Vergleiche

Idee

Bei der Uberwachung technischer Prozesse werden im Allg. einoder mehrere Qualitatsparameter uber die Zeit beobachtet.

Fur solche Parameter liegen zumeist Sollwert undSpezifikationsgrenzen vor, die die gewunschte Lage undmaximale Streuung des Parameters angeben.

Zeichnet man Sollwert und Spezifikationsgrenzen in dasLiniendiagramm des Qualitatsparameters ein, so ist einSoll-Ist-Vergleich moglich.




Beispiel 1 (Dicke von 25 Kontaktlinsen)

25 Lose von Kontaktlinsen wurden in regelmaßigen Abstanden ausder Produktion entnommen und vermessen.

aus: Rick L. Edgeman, Susan B. Athey,”Digidot Plots for Process

Surveillance“, Quality Progress, Mai 1990, 66–68.




5 10 15 20 25

0.38

0.39

0.40

0.41

0.42

Dicke von Kontaktlinsen

Los Nr.

Dic

ke in

mm

Spezifikationsgrenzen (+− 0.01mm)Soll (0.4mm)

●

●

●

●

●

●●

●

●

●●

●

●●

●

●

●

●

●

●

●

●●

●●

Abb. 15 : Dicke von Kontaktlinsen




Interpretation

Keine Lose sind außerhalb der Spezifikation. Keinesystematische Entwicklung der Zeitreihe erkennbar!

Bemerkung

Im Folgenden sollen einige typische Abweichungen vomgewunschten Verhalten eines Qualitatsparameters beiSoll-Ist-Vergleichen untersucht werden.




Zunachst ein Uberblick:

außerhalb Spezifikation Trend

Zyklen Sprünge

Zu grosse Variabilität Zu kleine Variabilität

Abb. 16 : Uberblick – typische Strukturen




Interpretation

Guter, die die Spezifikation nicht erfullen, konnen nicht /schlecht verkauft werden.

Ein Trend fuhrt (zumindest langfristig) zu Werten außerhalbder Spezifikation.

Zyklen reprasentieren einen nicht konstantenProduktionsprozessverlauf.

Bei Sprungen wird der Sollwert des Parameters in Allg.systematisch verfehlt.

Bei zu großer oder zu kleiner Variabilitat passen dieSpezifikationsgrenzen schlecht zum Prozess.




Bemerkung

Alle erwahnten Abweichungen vom einem Idealprozess lassensich (mit etwas Geschick) aus Liniendiagrammen ablesen.

In der statistischen Modellierung wird es darauf ankommen,algebraische Formalisierungen fur grafisch gewonneneEinsichten zu erhalten.

Solche Formalisierungen werden im Folgenden fur Sprunge,Trend und Zyklen vorgestellt.

Typische Fragen und Probleme:

Gibt es einen”Trend“?

Treten zyklische Schwankungen auf?

Lassen sich zukunftige Werte prognostizieren?


15 Zeitreihenanalyse 15.3 Strukturbruche

15.3 Zeitreihen – Strukturbruche

Zeitreihenanalyse

15 Zeitreihenanalyse15.3 Strukturbruche

Definition 14 (Strukturbruch)

Ein Strukturbruch stellt eine”plotzliche“ Mittelwert-Veranderung

(Sprung) der Zeitabhangigkeit dar, d.h. eine Veranderung, die zueinem Zeitpunkt t0 sofort wirksam wird.




Modell fur MittelwertverschiebungenEinfache Mittelwertverschiebungen im Zeitpunkt t0 von α nachα + β haben die folgende Gestalt:xt = α +

”Rauschen“ fur t ≤ t0, aber xt =

α + β +”Rauschen“ fur t > t0,

wobei wird das Rauschen zum Zeitpunkt t ab sofort mit εtbezeichnen.




Bemerkungen

Zu beachten ist, dass schon sehr kleineMittelwertverschiebungen inhaltlich entscheidend sein konnen.

Kleine Mittelwertverschiebungen werden durch Stauchung derx-Achse und / oder Streckung der y -Achse imLiniendiagramm deutlich.

Beispiel:xt = 3.5 + εt , t ≤ 100xt = 3.5 + 0.4 + εt , t > 100.Betrachten Sie die folgenden 2 Darstellungen mit unterschiedlichenLangen der x- und der y -Achse. Hatten Sie dieMittelwertverschiebung in der ersten Darstellung erkannt?




0 50 100 150 200

2.0

2.5

3.0

3.5

4.0

4.5

5.0

Strukturbruch?

t

ohne

Ein

heit

Abb. 17 : Erkennt man den Strukturbruch?




0 100 200

2.0

2.5

3.0

3.5

4.0

4.5

5.0

Strukturbruch?

t

ohne

Ein

heit

Abb. 18 : Erkennt man den Strukturbruch?




Doch nun zur Frage: Wie erkennt man Strukturbruchemethodisch?

Ist gibt in der Literatur eine Vielzahl von Methoden, die jenach Datenlage und Art der erwarteten Strukturbruche mehroder weniger gut geeignet sind.Man kann Strukturbruche immer erst einige Zeit nach demStrukturbruch erkennen. Diese Zeitspanne lasst sich auchnicht mit noch so ausgefeilter Methodik auf 0 verringern.Die einfachste Methode ist es, lineare Modelle anzupassen undeine Varianzanalyse auf Unterschiede zwischen denParametern in Fenstern vor und nach einem vermutetenStrukturbruch durchzufuhren.Ist der Zeitpunkt eines Strukturbruchs unbekannt, soverwendet man gleitende Fenster, und sucht nach demkleinsten p-Wert. Dieser kann noch fur multiples Testenangepasst werden.


15 Zeitreihenanalyse 15.4 Trend

15.4 Trend

Zeitreihenanalyse

15 Zeitreihenanalyse15.4 Trend

Trendmodelle zahlen zu den altesten Versuchen, die langfristigeZeitabhangigkeit eines Merkmals zu modellieren.



15.4 Trend

Definition 15

Bei einem Merkmal liegt ein

linearer (Zeit-)Trend vor, wenn die Merkmalswerte linearmit der Zeit wachsen: xt = α + βt + εt (s. Abb. 19 a)).

uberlinearer (Zeit-)Trend vor, wenn die Merkmalswertelangfristig starker als linear mit der Zeit wachsen.

unterlinearer (Zeit)Trend vor, wenn die Merkmalswertelangfristig schwacher als linear mit der Zeit wachsen.

(Zeit-)Trend mit Sattigung vor, wenn die Merkmalswertesich fur immer weiter zuruckliegende und / oder fur immerweiter in der Zukunft liegende Zeitperioden immer mehr aneine untere und / oder obere Grenze annahern.



15.4 Trend

Ein Beispiel fur einen

uberlinearen Trend ist ein quadratischer Trend, fur den gilt:xt = α + β1t + β2t2 + εt .Analog spricht man auch von kubischen, . . . , undpolynomialen Trends, letzteres allgemein formalisierbardurch: xt = α + β1t + · · ·+ βqtq + εt

uberlinearen Trend ist der exponentielle Trend, fur den gilt:xt = eα+βt · εt (s. Abb. 19 b)).

”Offenbar“ ist der Logarithmus eines exponentiellen Trends

ein linearer Trend.

unterlinearen Trend ist ein logarithmischer Trend, fur dengilt: xt = α + β ln(1 + t) + εt (s. Abb. 19 c)).

Trend mit Sattigung ist ein logistischer Trend, fur den gilt:xt = α

1+exp(β+γt) + εt (s. Abb. 19 d)).



15.4 Trend

0 20 40 60 80 100

0

50

100

150

200

250

300

Linearer Trend

t

ohne

Ein

heit

xt = 2 + 3t + εt

0 20 40 60 80 100

0

100

200

300

400

500

600

Quadratischer Trend

t

ohne

Ein

heit

xt = 2 + 1t + 0.05t2 + εt

0 20 40 60 80 100

0

5

10

15

20

Exponentieller Trend

t

ohne

Ein

heit

xt = exp(− 2 + 0.05t)εt

0 20 40 60 80 100

4

6

8

10

12

14

16

Logarithmischer Trend

t

ohne

Ein

heit

xt = 2 + 3ln(1 + t) + εt

0 20 40 60 80 100

−0.5

0.0

0.5

1.0

1.5

2.0

2.5

Logistischer Trend

t

ohne

Ein

heit

xt =2

1 + exp(10 − 0.2t)+ εt

40 45 50 55 60

−0.5

0.0

0.5

1.0

1.5

2.0

2.5

Logistischer Trend

toh

ne E

inhe

it

xt =2

1 + exp(10 − 0.2t)+ εt

Abb. 19 : Beispiele verschiedener TrendtypenKatharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 520


15.4 Trend

Bemerkungen

Uberlineare Trends stehen z.B. fur schnell fortschreitendenVerschleiß.

Dem logistischen Trend liegt ein echt nicht-lineares Modellzugrunde, wahrend der exponentielle Trend mit Hilfe desLogarithmus

”linearisierbar“ ist.

Um die verschiedenen Trendtypen unterscheiden zu konnen,benotigt man naturlich genugend viele Beobachtungen inWertebereichen, die zur Unterscheidung wesentlich sind.

Beispielsweise lassen sich ein linearer Trend und einlogistischer Trend nur unterscheiden, wenn der logistischeTrend in der Nahe der Sattigungsgrenzen beobachtet wird.



15.4 Trend

Bemerkungen

Wenn innerhalb einer Beobachtungsperiode ein Strukturbruchauftritt, ist es manchmal sinnvoll, einen Trend nur aufgrundder Beobachtungen nach dem Strukturbruch zu bestimmen.

Auch ein schwacher linearer Trend fuhrt langfristig zu deutlichveranderten Merkmalswerten. Ein solcher Trend wird haufigebenfalls erst durch Stauchung der Zeit-Achse und / oderStreckung der y -Achse sichtbar.



15.4 Trend

Beispiel 2 (Weinverkaufe australischer Winzer)

Rotweinverkaufe Australischer Winzer in Anzahl an Flaschen mitweniger als 1 Liter Inhalt in den Monaten Januar 1980 bisDezember 1988.

aus: Rob Hyndman:”Time Series Data Library“,

http: // robjhyndman. com/ TSDL/ , Originalquelle: Australian Bureau of

Statistics



15.4 Trend

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

1500

020

000

2500

030

000

3500

040

000

Weinverkauf australischer Winzer

Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 198815

000

2000

025

000

3000

035

000

4000

0


Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 1988

Abb. 20 : Rotweinverkaufe Australischer Winzer in Anzahl an Flaschenmit weniger als 1 Liter Inhalt in den Monaten Januar 1980 bis Dezember1988. Trend in grun eingezeichnet.


15 Zeitreihenanalyse 15.5 Autoregression

15.5 Autoregression

Zeitreihenanalyse

15 Zeitreihenanalyse15.5 Autoregression

Bei Trendmodellen hangt der aktuelle Merkmalswert nur vonder aktuellen Zeitperiode ab.

Der wesentliche Unterschied von Zeitreihenmodellen undanderen Modellen ist aber, dass bei Zeitreihen auf Grund derZeitstruktur sog. dynamische Modelle zugelassen sind, d.h.Modelle, bei denen der aktuelle Merkmalswert (auch) vonanderen Zeitperioden abhangt.



15.5 Autoregression

Besonders einfache Modelle dieses Typs sind die so genanntenautoregressiven Modelle.

Zur Motivation dieser Modelle sollen zunachst einige sog.

”naive“ Zeitreihenmodelle vorgestellt werden.

Das einfachste Zeitreihenmodell basiert auf der Annahme,dass der fur die nachste zukunftige Zeitperiode erwartete Werteines Merkmals im Wesentlichen dem Wert in der jetzigenPeriode entspricht, wie z.B. bei der

”naiven“

Wettervorhersage, dass das Wetter von morgen ungefahr sosein wird wie das Wetter heute. Das fuhrt zu dem Modell:

yt = yt−1 + εt ,

wobei εt ∼ u.i. N(0, σ2), wobei yt−1 fur den Merkmalswertmit Zeitverzogerung 1 (Lag 1) steht.



15.5 Autoregression

Diese letztgenannte sehr vereinfachte Annahme erscheint nurbei kurzfristiger Betrachtung und auch nur danngerechtfertigt, wenn keine weiteren Informationen zurVerfugung stehen.

Eine Erweiterung dieses Ansatzes durch Einbeziehungzusatzlicher Information in Gestalt von weiteren schonbeobachteten Werten des Merkmals fuhrt z.B. zu einemModell, dass der fur die nachste zukunftige Zeitperiodeerwartete Wert eines Merkmals dem Mittelwert der Werte derk davor liegenden Perioden entspricht:

yt =yt−1 + . . .+ yt−K

K+ εt ,

wobei εt ∼ u.i.N(0, σ2), wobei yt−k fur den Merkmalswert mitZeitverzogerung k (Lag k) steht.



15.5 Autoregression

Hierbei wird allen einbezogenen Werten aus der Vergangenheitdie gleiche Bedeutung (das gleiche Gewicht) fur die nachstePeriode zugeordnet. Geht man dagegen davon aus, dassaktuellere Werte eine großere Bedeutung haben als weiterzuruckliegende, so muss man aktuelleren Werten ein großeresGewicht zuordnen.

Ein Beispiel dafur ist die sog. exponentiell gewichteteDurchschnittsbildung (Exponentially Weighted MovingAverage), das EWMA-Modell:

yt =βyt−1 + β2yt−2 + . . .+ βKyt−K

β + β2 + . . .+ βK+ εt ,

wobei εt ∼ u.i.N(0, σ2) und typischerweise 0 < β < 1 ist.



15.5 Autoregression

Ein Vorteil dieser naiven Ansatze liegt in der schnellen,unkomplizierten Berechnung des Werts des Merkmals in dernachsten Periode, die auch von Außenstehenden leichtnachvollzogen werden kann.

Die”

Naivitat“ dieser Ansatze liegt in der Festlegung derGewichte, ohne die aktuelle Datensituation zuberucksichtigen. Tatsachlich sind die naiven ModelleVorstufen der sog. autoregressiven Modelle, bei denen dieGewichte mit Hilfe der Daten bestimmt werden.



15.5 Autoregression

Definition 16 (AR(1) Prozesse)

Bei einem Merkmal Y spricht man von einem (stationaren)autoregressiven Prozess 1. Ordnung (AR(1)-Prozess), wennder Merkmalswert in der Zeitperiode t linear von demMerkmalswert in der Zeitperiode t − 1 abhangt:

yt = β1 + β2yt−1 + εt , |β2| < 1,

wobei ε ∼ u.i. N(0, σ2).



15.5 Autoregression

Definition 17 (AR(p) Prozesse)

Man spricht von einem (stationaren) autoregressiven Prozessp-ter Ordnung (AR(p)-Prozess), wenn p die maximaleZeitverzogerung (der maximale Lag) im Modell ist:

yt = β1 + β2yt−1 + . . .+ βp+1yt−p + εt ,

wobei ε ∼ u.i.N(0, σ2) und alle Nullstellen des charakteristischenPolynoms

1− β2z − β3z2 − . . .− βp+1zp

außerhalb des Einheitskreises liegen.



15.5 Autoregression

Bemerkung:Man beachte, dass die Einschrankung |β2| < 1 bzw.

”alle

Nullstellen des charakteristischen Polynoms1−β2z −β3z2− . . .−βp+1zp liegen außerhalb des Einheitskreises“die sog. Stationaritat des autoregressiven Prozesses garantiert.



15.5 Autoregression

Definition 18 (Stationaritat von stochastischen Prozessen)

Ein stochastischer Prozess (Yt)t∈Z heißt stationar, wenn dieErwartungswerte, Varianzen und Kovarianzen invariant sindgegenuber Verschiebungen entlang der Zeitachse, d.h. nicht vonder aktuellen Zeitperiode abhangen, d.h. wenn gilt:E[Yt ] und var(Yt) konstant fur alle t und cov(Yt ; Ys) nur abhangigvon der Differenz t − s.



15.5 Autoregression

Betrachten wir die Bedingung |β2| < 1, die die gultigenModelle 1. Ordnung einschrankt, noch ein wenig genauer.Tatsachlich entspricht ein autoregressiver Prozess 1. Ordnungnur dann einer gedampften Schwingung, wenn |β2| < 1 gilt. Indiesem Fall ist der Prozess stationar.

Falls dagegen |β2| > 1 ist bei einem Prozess 1. Ordnung, wirddas Merkmal fur immer weiter in der Zukunft liegendeZeitperioden einen explosiven Verlauf nehmen (s. Schonfeld,Methoden der Okonometrie II, 1971, S. 44).



15.5 Autoregression

Fur autoregressive Modelle hoherer Ordnung ist die obigeBedingung fur Stationaritat allerdings nicht mehr anschaulich.Die beiden Bedingungen sind allerdings fur Modelle 1.Ordnung aquivalent:

1− β2z0 = 0⇐⇒ z0 =1

β2

→ |z0| > 1⇐⇒ |β2| < 1.

Die Bezeichnung Autoregression grundet sich auf dieTatsache, dass ein Merkmal auf sich selber, (z.B.) eineZeitperiode vorher,

”zuruckgefuhrt“ wird.



15.5 Autoregression

Bei einem autoregressiven Prozess 1. Ordnung bewirkt, nacheiner relativ kurzen Einschwingphase, ein positiverKoeffizient β2 eine trage Schwingung (positiveAutoregression), ein negativer Koeffizient β2 eine

”nervose“

Schwingung (negative Autoregression), jeweils um β11−β2

.

Unabhangig vom Startwert der Schwingung wird sich derProzess also langfristig um diesen Wert einschwingen.Gemeint ist, dass der Erwartungswert des Prozesses furgenugend großes t konstant gleich β1

1−β2ist.

Beispiele fur autoregressive Prozesse sind technischeEinschwingvorgange.



15.5 Autoregression

Beispiele: Die nachsten Abbildungen zeigen Beispiele furBeobachtungen von autoregressiven Prozessen. Der Prozess

yt = 0.2 + 0.9yt−1 + N(0, 0.25)

in der ersten Abbildung schwingt nach dem Einschwingen relativtrage um 2 = 0.2/(1− 0.9).Die beiden Prozesse

y∗t = −0.9yt−1 + N(0, 0.25) und y∗∗t = −0.9yt−1

in der zweiten Abbildung schwingen sich beide recht schnell beiNull ein. Danach bleibt der rein deterministische Prozessy∗∗t = −0.9yt−1 im Wesentlichen bei Null, der gestorte Prozessschwingt weiter nervos um Null.



15.5 Autoregression

0 50 100 150 200

02

46

8

yt = 0.2 + 0.9yt−1 + N(0, 0.25)

t

y

Abb. 21 : Positive Autoregression



15.5 Autoregression

0 10 20 30 40 50 60

−5

05

yt = − 0.9yt−1

t

y

Abb. 22 : Negative Autoregression: ungestorter Prozess



15.5 Autoregression

0 10 20 30 40 50 60

−5

05

yt = − 0.9yt−1 + N(0, 0.25)

t

y

Abb. 23 : Negative Autoregression: gestorter Prozess



15.5 Autoregression

Bemerkung:Bei speziellen autoregressiven Prozessen hoherer Ordnung sprichtman von saisonalen Abhangigkeiten. Z.B. hangt bei Lag 7 undTagesmessungen der aktuelle Zeitreihenwert von dem Wert voreiner Woche ab.



15.5 Autoregression

Definition 19 (Saisonale autoregressive Modelle)

Bei einem Merkmal spricht man von einem saisonalenautoregressiven Prozess 1. Ordnung, wenn derMerkmalswert in der Zeitperiode t linear von demMerkmalswert in der Zeitperiode t − p abhangt:

yt = β1 + β2yt−p + εt , |β2| < 1, p > 1,

wobei εt ∼ u.i. N(0, σ2).

Man spricht von einem saisonalen autoregressiven Prozessk-ter Ordnung, wenn kp die maximale Zeitverzogerung (dermaximale Lag) im Modell ist:

yt = β1 + β2yt−p + . . .+ βk+1yt−kp + εt , p > 1

wobei εt ∼ u.i. N(0, σ2).Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 542


15.5 Autoregression

Bemerkungen zu saisonalen autoregressiven Modellen:

Gesonderte Aufmerksamkeit verdient der nichtstationare Fallβ2 = 1. Z.B. spricht man bei autoregressiven Modellen 1.Ordnung von einem Random walk Prozess, falls β1 = 0 undβ2 = 1 ist, d.h. wenn yt = yt−1 + εt gilt.

Bei solch einem Prozess ist die zukunftige Entwicklung immerweniger vorhersagbar, je langer der Prozess fortschreitet (vgl.Schlittgen, Streitberg, 1997, S. 93).

Aktienkurse sind bisweilen in guter Naherung Random Walks.

Beispiel: Die Nicht-Stationaritat eines Random walks wird inder nachsten Abbildung dadurch sichtbar, dass die Zeitreiheauch langfristig nicht um eine Konstante herum schwingt,anders als in den Abbildungen davor.



15.5 Autoregression

0 10 20 30 40 50 60

−4

−2

02

4

yt = yt−1 + N(0, 0.25)

t

y

Abb. 24 : Realisierungen eines Random walks



15.5 Autoregression

Eine Nichtstationaritat ist u. U. durch Differenzenbildungbehebbar. Die daraus resultierenden Modelle heißen auchintegrierte Modelle. Nach der Integration durch Differenzenbildunghofft man, ein stationares Modell zu erhalten. Das integrierteautoregressive Modell hat die folgende Form.

Definition 20 (Integrierte autoregressive Modelle)

Bei einem Merkmal spricht man von einem einmalintegrierten autoregressiven Prozess 1. Ordnung, wennder die 1. Differenz der Merkmalswerte in der Zeitperiode tlinear von der 1. Differenz der Merkmalswerte in derZeitperiode t − 1 abhangt:

yt − yt−1 = β1 + β2(yt−1 − yt−2) + εt , |β2| < 1,

wobei εt ∼ u.i. N(0, σ2).Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester 2013 545


15.5 Autoregression

Definition 20 – Integrierte autoregressive Modelle(Fortsetzung)

Man spricht von einem einmal integrierten autoregressivenProzess k-ter Ordnung, wenn gilt:

yt−yt−1 = β1+β2(yt−1−yt−2)+. . .+βk+1(yt−k−yt−k−1)+εt ,


Die Integration kann auch mittels mehrmaligerDifferenzenbildung erfolgen. Bei mehrmaligerDifferenzenbildung werden in den Modellen die Ausdruckevom Typ (yt − yt−1) ersetzt durch sog. hohere Differenzen,z.B. im Fall von zweifacher Differenzenbildung durch:

(yt − yt−1)− (yt−1 − yt−2) = yt − 2yt−1 + yt−2.


15 Zeitreihenanalyse 15.6 Moving-Average Prozesse

15.6 Moving-Average Prozesse

Zeitreihenanalyse

15 Zeitreihenanalyse15.6 Moving-Average Prozesse

Bisher haben wir ausschließlich dynamische Zeitreihenmodelleuntersucht, bei denen der Wert in der Zeitperiode t von dem Wertin der (oder den) vorangehenden Zeitperiode(n) abhangt und voneinem Zufallsschock εt , der unabhangig von den Zufallsschocks inden anderen Zeitperioden ist.

Eine grundlegend andere Art von stochastischen Prozessen sind diesog. Moving-Average-Prozesse, die gewichtete Mittel aus einemgegenwartigen und vergangenen Zufallsschocks sind.




Definition 21 (Moving-Average Prozesse)

Ein stochastischer Prozess (Yt)t∈Z heißtMoving-Average-Prozess der Ordnung q (MA(q)-Prozess),wenn er sich in der Form :

Yt = εt − β1εt−1 − . . .− βqεt−q

darstellen lasst, wobei εt ∼ u.i.N(0, σ2) ist.




Beispiel:Betrachte den MA(1)-Prozess:

Yt = εt − β1εt−1.

Dann gilt fur die Varianz und Autokovarianz 1. Ordnung :

var(Yt) = var(εt − β1εt−1) = (1 + β21) var(εt),

cov(Yt ,Yt−1) = cov(εt − β1εt−1, εt−1 − β1εt−2) = −β1 var(εt).

Also gilt fur den Autokorrelationskoeffizienten 1. Ordnung:

| corr(Yt ,Yt−1)| =

∣∣∣∣−β1

1 + β21

∣∣∣∣ ≤ 0.5.




Diese Beziehung gibt z.B. Anlass, an dem Vorliegen einesMA(1)-Prozesses zu zweifeln, wenn der empirischeAutokorrelationskoeffizient deutlich großer als 0.5 ist.

Offenbar sind MA(q)-Prozesse stationar. Allerdings haben diebeiden MA(1)-Prozesse Yt = εt − β1εt−1 undYt = εt − 1

β1εt−1 denselben Autokorrelationskoeffizienten;

dennβ1

1 + β21

=

1β1

1 +(

1β1

)2.

Um MA(q)-Prozesse eindeutig mit derAutokorrelationsfunktion zu verknupfen, wurde das Kriteriumder Invertierbarkeit eingefuhrt.




Definition 22 (Invertierbarkeit von MA(q)-Prozessen)

Ein MA(q)-Prozess

Yt = εt − β1εt−1 − . . .− βqεt−q

heißt invertierbar, wenn alle Nullstellen des charakteristischenPolynoms

β(z) := 1− β1z − β2z2 − . . .− βqzq

außerhalb des Einheitskreises liegen.




Bemerkung:Invertierbare MA(q)-Prozesse Yt = εt − β1εt−1 − . . .− βqεt−qlassen sich (eindeutig) als unendliche AR-Prozesse darstellen, d.h.es gibt eine (absolut summierbare) Koeffizientenfolge c0, c1, c2, . . .,so dass gilt: εt = c0Yt + c1Yt−1 + c2Yt−2 . . .(vgl. Schlittgen, Streitberg, 1997, S. 114).


15 Zeitreihenanalyse 15.7 Kombinierte Prozesse

15.7 Kombinierte Prozesse

Zeitreihenanalyse

15 Zeitreihenanalyse15.7 Kombinierte Prozesse

Definition 23 (Autoregressive Moving-Average-Prozesse)

Bei einem Merkmal Y spricht man von einem autoregressivenMoving-Average-Prozess (ARMA(p,q)-Prozess), wenn fur denMerkmalswert in der Zeitperiode t gilt:

yt = β1 + β2yt−1 + . . .+ βp+1yt−p + εt − γ1εt−1 − . . .− γqεt−q,





Definition 24 (Stationaritat und Invertierbarkeit im ARMAProzess)

ARMA-Prozesse heißen stationar und invertierbar, wenn derAR-Teil des Prozesses stationar ist und der MA-Teil invertierbar.

Bemerkungen:

Einen ARMA(1,1)-Prozess kann man schreiben:

Yt − β1 − β2Yt−1 = εt − γ1εt−1.

Integration und Saisonalitat sind naturlich auch beiARMA-Modellen moglich. Auch Kombinationen vonsaisonalen und nicht-saisonalen Modellen sind gebrauchlich.




Definition 25 (SARIMA Prozesse)

Man spricht allgemein man von saisonalen integriertenautoregressiven moving-average (SARIMA) Modellen, wobeidie Ordnung der beteiligten autoregressiven und moving-averageModelle und die Anzahl Differenzenbildungen in Kurzform notiertwird: SARIMA(p,d,q;P,D,Q) steht fur ein saisonales integriertesautoregressives Modell, wobei

p die Ordnung des nicht-saisonalen autoregressiven Modells,

d die Anzahl Diffenzenbildungen im nicht-saisonalen Modell,

q die Ordnung des nicht-saisonalen moving-average Modells,

P die Ordnung des saisonalen autoregressiven Modells,

D die Anzahl Diffenzenbildungen im saisonalen Modell,

Q die Ordnung des saisonalen moving-average Modells.




Beispiel:Ein SARIMA(1,1,0;1,0,0) hat die Form :

yt − yt−1 = β1 + β2(yt−1 − yt−2) + β3(yt−p − yt−p−1) + εt .

Also gilt:

yt = β1 + (1 + β2)yt−1 − β2yt−2 + β3yt−p − β3yt−p−1 + εt .


15 Zeitreihenanalyse15.8 Modellidentifikation nach Box-Jenkins

15.8 Modellidentifikation nach Box-Jenkins

Zeitreihenanalyse


Ausgangspunkt der Modellierung von Zeitreihen durchARIMA-Prozesse ist im sog. Box-Jenkins Ansatz die Phase derModellidentifikation. In dieser Phase wird eine Entscheidung uberdie Modellordnung (p,d,q) des ARIMA-Prozesses getroffen. DieseEntscheidung ist jedoch nur vorlaufig, da die folgendenAnalyse-Schritte (z.B. Schatzung, Interpretation) eine Revisionnotwendig machen konnen.




Im 1. Schritt der Modellidentifikation wird gepruft, ob einnicht-stationarer Prozess vorliegt. Gegebenenfalls wird manversuchen, mit Hilfe von (u. U. mehrfacher)Differenzenbildung die Nicht-Stationaritat zu beheben.

Großere Probleme bereitet meist die Spezifikation derOrdnungen p und q der AR- und MA-Teilprozesse. Derklassische Box-Jenkins-Ansatz verlangt vom Benutzer dasErkennen bestimmter Muster in derAutokorrelationsfunktion (ACF), d.h. in denAutokorrelationen als Funktion von dem betrachteten Lag,und einer dazu

”dualen“ Funktion, der sog. partiellen

Autokorrelationsfunktion (PACF).




Die partielle Autokorrelationen zum Lag k ist dieKorrelation zwischen Yt und Yt−k bei Ausschaltung desEinflusses der dazwischen liegenden ZufallsvariablenYt−1, . . . ,Yt−k+1

(s. Schlittgen, Streitberg, 1997, S. 301-306).

Leider ist diese Mustererkennung im Fall gemischter Prozessekeineswegs trivial.

Saisonale Modellanteile werden meist mit inhaltlichenArgumenten begrundet. Die Uberlagerung vonnicht-saisonalen und saisonalen Modellteilen macht dieIdentifikation des Modells meist außerordentlich schwierig.


15 Zeitreihenanalyse 15.9 Glattung

15.9 Glattung

Zeitreihenanalyse

15 Zeitreihenanalyse15.9 Glattung

Im Fall von (zu) großen irregularen Schwankungen ist das

”wesentliche“ Bildungsgesetz einer Zeitreihe oft schlecht zu

erkennen. In solchen Fallen versucht man, durch glattendesFiltern, d.h. durch lokale

”glatte“ Approximation, die Zeitreihe

so zu”filtern“, dass die wesentliche Information ubrig bleibt bzw.

das Rauschen wegfallt.



15.9 Glattung

Definition 26 (Linearer glattender Filter)

Eine lineare Transformation L einer Zeitreihe yt in eine andereZeitreihe zt heißt linearer glattender Filter, wenn gilt:

zt := L(yt) =s∑

u=−qguyt−u, t = s + 1, . . . ,T − q,

gu > 0,T := Anzahl Zeitperioden.

Bemerkungen:

Ein linearer Filter wird haufig durch die Liste seiner Gewichte

”in historischer Reihenfolge“ in der Form (gs . . . g−q)

angegeben.

Man beachte, dass glattende Filter durchweg positiveGewichte aufweisen.



15.9 Glattung

Lineare glattende Filter mitteln die Beobachtungen”in einem

kontinuierlich wandernden Zeitfenster fester Breite“q + s + 1, das nicht unbedingt symmetrisch um dieZeitperiode herum liegen muss, in der geglattet werden soll,da q 6= s zugelassen ist.

Durch Filtration wird eine Zeitreihe yt im Allg. kurzer. Im Falls > 0 wird der Anfang, im Fall q > 0 das Ende gekappt.

Ein linearer Filter heißt symmetrisch, wenn q = s.

Besonders haufig verwendete symmetrische Filter sind dieeinfachen gleitende Durchschnitte.



15.9 Glattung

Definition 27 (Gleitende Durchschnitte)

Ein linearer Filter heißt

gleitender Durchschnitt, wenn∑s

u=−q gu = 1

und einfacher gleitender Durchschnitt, wenn gu = 12q+1

mit u = −q, . . . , s = q und q ∈ N.

Bemerkung:Gleitende Durchschnitte werden haufig so gewahlt, dass dieGewichtung abnimmt mit dem Abstand von der Zeitperiode, in dergeglattet werden soll, wie z.B. im Fall von q = 1 bei dem Filter(0.25, 0.5, 0.25).



15.9 Glattung

●

●

●●●

●

●

●●

●

●

●

●

●

●

●

●●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●●

●

●●

●●

●●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●●●

●

●●

●

●●●

●

●●

●

0 50 100 150 200

3.0

3.5

4.0

4.5

Gleitender Durchschnitt mit q=5

t

y

Abb. 25 : Glattung durch einfachen gleitenden Durchschnitt



15.9 Glattung

Beispiel:In der Abbildung zeigt eine Glattung mit einem einfachengleitenden Durchschnitt mit q = 5 (Kurve) dieMittelwertverschiebung bei der durch Punkte gekennzeichnetenZeitreihe:

yt =

{3.5 + εt , εt ∼ u.i. N(0, 0.32), t < 100

3.8 + εt , εt ∼ u.i. N(0, 0.32), sonst

Bei solchen Daten spricht man von einem Strukturbruch.


15 Zeitreihenanalyse 15.10 Aggregieren

15.10 Aggregieren

Zeitreihenanalyse

15 Zeitreihenanalyse15.10 Aggregieren

Immer haufiger werden Merkmale in sehr kurzen Zeitabstandenerhoben, Prozessfaktoren etwa jede Minute oder 10 Minuten.Solche Zeitabstande sind meist durch die technischenMoglichkeiten bestimmt.


15 Zeitreihenanalyse 15.10 Aggregieren

15.10 Aggregieren

Das fuhrt nicht selten zu unterschiedlichenErhebungsabstanden fur verschiedene Zeitreihen. Wenn aberAussagen uber den Zusammenhang zwischen solchenZeitreihen gefunden werden sollen, ist es notwendig, dass dieZeitreihen zusammengehorige Beobachtungen aufweisen.

Das wird durch geeignetes Aggregieren erreicht, d.h. durchProblem angemessenes Zusammenfassen zu denselbenZeiteinheiten. Z.B. werden bei der einen Zeitreihe 6 regelmaßigaufeinander folgende 10-Minutenmessungen, bei der anderen 4unregelmaßig aufeinander folgende Messungen in derselbenStunde jeweils zu einer Stundenmessung zusammengefasst.

Die Art der Zusammenfassung hangt von der Problemstellungab. Z.B. konnen Mittelwerte angemessen sein oder Minimaoder Maxima.


15 Zeitreihenanalyse 0

15.11 Schwingungen (Zyklen)

Zeitreihenanalyse

15 Zeitreihenanalyse15.11 Schwingungen (Zyklen)

Insbesondere technische, aber auch sprachliche und musikalischeMerkmale lassen sich im Allg. durch regelmaßige (zyklische)Schwingungen modellieren, typischerweise durch Kosinus- undSinus-Wellen.

Zyklisch wiederkehrende Erscheinungen konnen mit den BegriffenPeriode und Frequenz beschrieben werden.




Die Periode gibt an, wie lange ein voller Zyklus dauert, z.B.1/14 Sekunde.

Die Frequenz besagt, wie haufig sich eine Erscheinunginnerhalb einer Zeiteinheit wiederholt, d.h. wie viele Zyklenpro Zeiteinheit ablaufen. Z.B. ist die Frequenz bei einerPeriode von 1/14 Sekunde gleich 14 Zyklen pro Sekunde, oderauch 14 Hz.



15.11 Trends – Saisoneffekte – Zyklen

Interpretation

In Abbildung 20 (links) ist uber die Zeit hinweg ein Trend(grun) zu erkennen.Erst das Verbinden der (aquidistanten) Punkte durch Linienzeigt eine weitere Struktur, den Saisoneffekt:

Das absolute Maximum (Modus) aller Verkaufe eines Jahreswird immer im Dezember angenommen,am zweitmeisten wird im August verkauft undder Monat mit den wenigsten Verkaufen ist immer der Januar.

Es gibt verschiedene Arten von Saisoneffekten, auchinnerhalb unterschiedlicher Zeiteinheiten:

eines Tages: Stromverbrauch Nachts geringereiner Woche: Stromverbrauch Samstags und Sonntags andersals an Werktageneines Monats: In der ersten Woche eines Monats mehrVerkaufe (es gab Geld)eines Jahres: Stromverbrauch im Winter hoher als im Sommer




Beispiel: Uberlagerung von Schwingung und Zeittrend

0 200 400 600 800 1000

−2

−1

01

2

Beispiel: 2 ⋅ sint

7

+t

10000

t

ohne

Ein

heit

0 200 600 1000

−2

−1

01

2

Beispiel: 2 ⋅ sint

7

+t

10000

t

ohne

Ein

heit

Abb. 26 : 2 unterschiedlich skalierte Darstellungen vonxt = 2 sin(t/7) + t/10000.

Bemerkung: So kleine Zeittrends wie in diesem Beispiel sind imFall von Rauschen noch schwieriger zu erkennen.




Definition 28 (Periodische Funktionen)

Eine Funktion f (t) heißt periodisch mit der Periode P 6= 0,wenn fur alle t ∈ R die Beziehung gilt: f (t + P) = f (t).

Als Grundperiode einer periodischen Funktion f bezeichnetman das kleinste positive P, so dass f (t + P) = f (t).

Als Frequenz λ von f (t) bezeichnet man den Kehrwert derGrundperiode P:

λ =1

P.

Bemerkung:Bei der Definition der Frequenz ist zu beachten, dass bei einerPeriode P einer Funktion f auch jedes ganzzahlige Vielfache ±kPeine Periode von f ist. Beispiele fur periodische Funktionen sinddie sog. harmonischen Schwingungen.




Definition 29 (Schwingungen)

Bei einem Merkmal liegt eine (harmonische) Schwingung vor,wenn gilt :

yt = β1 + β2 cos(2πλt) + β3 sin(2πλt) + εt ,

wobei εt ∼ u.i.N(0, σ2) und λ die Frequenz der Schwingungangibt sowie β2, β3 die Amplituden bzgl. Kosinus, Sinus.




Bemerkungen:

(Harmonische) Schwingungen sind regelmaßig und klingennicht ab. Bei der Modellierung mit harmonischenSchwingungen kommt der richtigen Wahl der Frequenz λeine entscheidende Bedeutung zu. Typischerweise werdendabei Frequenzen verwendet, die einem

”naturlichen“

Zeitabschnitt entsprechen, z.B. 1 Jahr oder 1 Sekunde. Wennman z.B. nT Messungen pro Tag vorliegen hat, ist λ = 1

nTbei

einem Tageszyklus.

Haufig sind Schwingungen mit verschiedenen Frequenzenuberlagert. Dann erhalt man ein Modell der Art:

yt = β1 +K∑

k=1

(β2k cos(2πλkt) + β2k+1 sin(2πλkt)) + εt .




Harmonische Schwingungen haben die vorteilhafteEigenschaft, dass der Einfluss von Schwingungen mit sog.Fourier-Frequenzen λk = k

n unabhangig voneinanderbestimmt werden kann, |k | < n

2 . Dabei ist im einfachsten Falln = Anzahl Beobachtungen in der gewunschten Zeiteinheit(etwa 1 Sekunde).

Diese Schwingungen beeinflussen sich nicht gegenseitig, siesind

”orthogonal“ zueinander (s. Schlittgen, Streitberg, 1997,

S. 56). Deshalb konnen diejenigen Frequenzen, die dengroßten Einfluss haben, unabhangig voneinander ermitteltwerden aus z.B. denjenigen Frequenzen, die inhaltlich Sinnmachen.




Orthogonalitat bei Fourier-Frequenzen

Bei Modellen ausschließlich mit uberlagerten harmonischenSchwingungen sind alle Regressoren orthogonal, wenn diebeteiligten Frequenzen λk Fourier-Frequenzen sind sowie

λk 6= 0.5( mod 1),

λk 6= λi ( mod 1),

λk 6= −λi ( mod 1), i 6= k ,

wobei a = b( mod c) bedeutet, dass b = a + kc mit k ∈ Z.

Die angegebenen Bedingungen an die Fourier-Frequenzenerzwingen nur, dass kein Regressor identisch gleich 0 ist unddass alle Regressoren verschieden sind.




Beispiel 2: Weinverkaufe

Bevor wir die Schwingung anzupassen versuchen, sollten wirden Trend aus den Daten herausrechnen.

Bei diesen Daten wird eine Uberlagerung von Jahres-,Halbjahres, Dritteljahres- und Vierteljahresschwingungenversucht.

Man kann zeigen, dass man diese Teilschwingungen einzelnbestimmen darf.

Es wird in den folgende Abbildung zunachst aus denOriginaldaten der Trend herausgerechnet und dann werdenschrittweise Schwingungen hinzugefugt.

Die”Modellparameter“ der vorgestellten Modelle sind im Allg.

unbekannt und mussen mit Hilfe der Beobachtungen xt ,t = 1, . . . ,T , angenahert werden.




1500

020

000

2500

030

000

3500

040

000


Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 1988

2000

025

000

3000

035

000


Datum

Anz

ahl F

lasc

hen

< 1

l (tr

endb

erei

nigt

)

1980 1982 1984 1986 1988

Abb. 27 : Weinverkaufe: Originaldaten und trendbereinigte Daten




2000

025

000

3000

035

000


Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 1988

2000

025

000

3000

035

000


Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 1988

Abb. 28 : Weinverkaufe: trendbereinigte Daten mit a) Ganzjahres- undb) zusatzlich Halbjahresschwingungen




2000

025

000

3000

035

000


Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 198820

000

2500

030

000

3500

0


Datum

Anz

ahl F

lasc

hen

< 1

l

1980 1982 1984 1986 1988

Abb. 29 : Weinverkaufe: trendbereinigte Daten mit a) Ganz-, Halb-,Drittel- und b) zusatzlich Vierteljahresschwingungen


15 Zeitreihenanalyse 15.12 Modellidentifikation bei Schwin-gungen

15.12 Modellidentifikation bei Schwingungen

Zeitreihenanalyse

15 Zeitreihenanalyse15.12 Modellidentifikation bei Schwingungen

Wir stellen uns jetzt die Frage, ob es moglich ist, den unerklartenRest der Zeitreihe im Beispiel ebenfalls durch harmonischeSchwingungen anderer Frequenz zu erklaren.

Dass das tatsachlich gilt, werden wir im Folgenden herleiten. Dazubenotigen wir allerdings den Begriff der Fouriertransformiertenbzw. des Periodogramms(s. Schlittgen, Streitberg, 1997, S. 54-68).




Definition 30 (Fourier-Transformation von Zeitreihen)

Die Fourier-Transformierte einer Zeitreihe (yt)t=1,...,T istdefiniert durch:

Fy (λk) := C (λk) + iS(λk)

:=T∑

t=1

yt cos(2πk

Tt) + i

T∑

t=1

yt sin(2πk

Tt),

λk :=k

T, k ∈ Z.




Definition 31 (Umkehrung der Fourier-Transformierten)

Fur die Umkehrung der Fourier-Transformierten gilt:

yt = y +2

T

M∑

k=1

C (λk) cos(2πk

Tt) +

2

T

M∑

k=1

S(λk) sin(2πk

Tt),

wenn T = 2M + 1, und

yt = y +2

T

M−1∑

k=1

C (λk) cos(2πk

Tt) +

2

T

M−1∑

k=1

S(λk) sin(2πk

Tt)

+1

TC

(1

2

)cos(πt)

wenn T = 2M.




Zeitdarstellung und Frequenzdarstellung von Zeitreihen sindaquivalent, da die Fouriertransformation umkehrbar ist. Aus derUmkehrung der Fourier-Transformation ist ersichtlich, dass zurDarstellung einer Zeitreihe nur endlich viele harmonischeSchwingungen benotigt werden. Von besonderer Bedeutung sinddabei wiederum die Fourier-Frequenzen λk = k

T wegen derOrthogonalitatseigenschaft. Tatsachlich werden zur Darstellungvon T Beobachtungen eines stochastischen Prozesses(= Zeitreihe) hochstens T orthogonale Regressoren benotigt.




Definition 32 (Periodogramm)

Der quadrierte Betrag der Fourier-Transformierten heißtPeriodogramm:

Iy

(k

T

):=

∣∣∣∣∣T∑

t=1

yt cos(2πk

Tt) + i

T∑

t=1

yt sin(2πk

Tt)

∣∣∣∣∣

2

= C

(k

T

)2

+ S

(k

T

)2

.




Bemerkungen:

Das Periodogramm I (λ) hat fast die Eigenschaften einerDichtefunktion fur λ, denn:

1 I (λ) ≥ 0 und2∫ 0.5

−0.5I (λ)dλ = var(yt).

Damit hat das normierte Periodogramm I (λ)var(yt)

dieEigenschaften einer Dichtefunktion(Bew. s. Schlittgen/Streitberg, S. 80).




Wichtige FrequenzenDas Periodogramm ist ein sehr gutes Hilfsmittel zur Identifikationder fur die Darstellung einer Zeitreihe wichtigen Frequenzen. Jehoher der Peak bei einer Frequenz, desto wichtiger die Frequenz.Und da nur Peaks in Fourier-Frequenzen dargestellt werden, unddie dazugehorigen Regressoren orthogonal sind, konnen die Peakssogar unabhangig voneinander betrachtet werden.




So wichtig die Orthogonalitat der Fourierfrequenzen ist, sorestriktiv ist ihre ausschließliche Verwendung aber fur dieInterpretation der Periodogramme. Die wahren Frequenzenwerden namlich sehr wahrscheinlich nicht auf einer Fourierfrequenzliegen. Deshalb wird man auch in Fallen, wo wirklich nur eineFrequenz der Zeitreihe zugrunde liegt, diese Frequenz aus demPeriodogramm nicht ohne Weiteres entnehmen konnen. Tatsachlichwerden statt der einen

”unsichtbaren“ wahren Frequenz mehrere

benachbarte Fourierfrequenzen als wichtig ausgewiesen werden.Man spricht von einem Verschmiereffekt (leakage effect).

Tatsachlich wird die Wahl des hochsten Peaks die Schatzung derwichtigsten Frequenz im Allg. verzerren. Deshalb verwendet manhaufig geglattete Periodogramme zur Auswahl der wichtigenFrequenzen.


15 Zeitreihenanalyse 15.13 Komponentenmodelle

15.13 Komponentenmodelle

Komponentenmodelle:Betrachte Zeitreihe als zusammengesetzt aus systematischenKomponenten und irregularer Restkomponente:

Systematische Komponenten Restkomponente

Trend nicht erklarte oderSaison erfasste EinflusseKonjunktur, Zyklus

Haufige Annahme: Additive oder multiplikative Uberlagerung derKomponenten




Definition 33 (Additives Komponentenmodell)

Ein Additives Komponentenmodell ist definiert durch

yt = zt + kt + st + εt , t = 1, . . . ,T , (39)

wobei die

Trendkomponente zt langfristige systematische Veranderung im Niveauder Zeitreihe beschreibt,

Konjunkturkomponente kt den Verlauf von Konjunkturzyklen beschreibt,

Saisonkomponente st saisonale Einwirkungen (jahrlich, jahreszeitlich), inWellenmustern mit konstanter Periodenlange, beschreibt (muss nichtunbedingt eine harmonische Schwingung sein),

irregulare Komponente εt nicht erklarte Einflusse, kleine um Nullschwankende Werte, zusammenfasst.




Bemerkungen

Die Trennung von Trend- und Konjunkturkomponente ist oftschwierig, daher Zusammenfassung zu glatter Komponentegt = zt + kt :

yt = gt + st + εt , t = 1, . . . ,T , mit

gt glatte Komponente,st Saisonkomponente,εt irregulare Komponente.

Additive Modelle sind nicht geeignet, wenn z. B. mitwachsendem Trend auch Ausschlag der Saison und Streuungzunimmt.




Definition 34

Ein Multiplikatives Komponentenmodell ist definiert durch

yt = gt · st · εt , t = 1, . . . ,T (40)

Bemerkungen

Uberfuhrung in additives Modell durch Logarithmieren zureinfachen Handhabbarkeit:

log yt = log (gt · st · εt) = log gt + log st + log εt



15.13 Zeitreihenanalyse: Literatur

Schlittgen, R., Streitberg, B.H.J. (1997): Zeitreihenanalyse.Oldenburg, Munchen.

Schonfeld, P. (1971): Methoden der Okonometrie II. VerlagVahlen, Munchen.


14.1 Neuronale Netze 14 Neuronale ... - Fakultät Statistik · 14 Neuronale Netze 14.1 Ubersicht...

Documents

Transcript of 14.1 Neuronale Netze 14 Neuronale ... - Fakultät Statistik · 14 Neuronale Netze 14.1 Ubersicht...