Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining...

Post on 06-Aug-2020

1 views 0 download

Transcript of Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining...

W. Bradley Knox und Peter Stone

Combining Manual Feedback withSubsequent MDP Reward Signals forReinforcement Learning

14.12.2012 | Informatik FB 20| Knowlegde Engineering| Yasmin Krahofer | 1

Inhalt

• Problemstellung

• MDP

• TAMER

• Kombinationsmethoden

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 2

• Experimente

• Ergebnisse

• Fazit

• Quellen

Problemstellung

• Lernende Agenten gehen mehr und mehr von der

Forschung ins reale Leben über

Probleme:

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 3

1. Nicht alle Endbenutzer haben Fachkenntnisse

2. Manche Trainingsdaten sind kostspielig, erbringen aber

keine gute Leistung

Nicht alle Endbenutzer haben Fachkenntnisse

• In realer Welt kann nicht jeder Mensch programmieren

• Soll dennoch in der Lage sein, einem Agenten ein

gewünschtes Verhalten beizubringen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 4

Kostspielige Trainingsdaten mit geringer Leistung

• Sie sollen reduziert werden

• Wenn möglich komplett weglassen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 5

Wichtige Begriffe

• Markov Decision Process

• TAMER

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 6

Wichtige Begriffe

• Markov Decision Process

• TAMER

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 7

Markov Decision Prozess

• MDP – Wofür ?

• MDP – Funktionsweise

• MDP Reward

• Eigenschaften des MDP

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 8

MDP – Wofür ?

• Wahrscheinlichkeitsberechnung

• Schlägt nächsten Zustand vor

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 9

MDP – Funktionsweise

s1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 10

MDP – Funktionsweise

s1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

2. In Zustand s sind ein oder

mehrere Aktionen verfügbar

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 11

MDP – Funktionsweise

s1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

2. In Zustand s sind ein oder

mehrere Aktionen verfügbar

3. Eine Aktion a wird gewählt

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 12

3. Eine Aktion a wird gewählt

MDP – Funktionsweise

1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

2. In Zustand s sind ein oder

mehrere Aktionen verfügbar

3. Eine Aktion a wird gewählt

s

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 13

3. Eine Aktion a wird gewählt

4. Nachfolgende Zeitpunkt bewegt

sich Prozess in Zustand s‘ und

liefert den dazugehörigen

Rewards‘‘s‘ s‘‘‘

MDP Reward

• Als Signal genutzt

• Drückt Belohnung, von Zustand s in Zustand s‘, zu

gelangen aus

• Fehlerlos

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 14

• Informationsarm

• z.T. Verzögert

Eigenschaften des MDP

• s‘ abhängig von aktuellem Zustand s und Aktion a

• Unabhängig von davor gewählten Aktionen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 15

Wichtige Begriffe

• Markov Decision Process

• TAMER

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 16

TAMER

• Was ist TAMER ?

• Wie funktioniert TAMER ?

• Bisherige Ergebnisse von TAMER

• Schlussfolgerungen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 17

Was ist TAMER ?

• Teaching Agents Manually via Evaluative Reinforcement

• Framework

• Agenten können interaktiv geformt werden

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 18

Wie funktioniert TAMER ?

• Menschlicher Trainer gibt positives oder negatives

Feedback Signal

• An Hand der Signale wird Human Reinforcement Function

Ĥ erstellt

• TAMER wählt Aktion auf Grund von Ĥ

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 19

• TAMER wählt Aktion auf Grund von Ĥ

Bisherige Beobachtungen von TAMER

• Sample Komplexität wird reduziert � Gewährleistung einer

guten Policy

• Laien können Agenten zu gewünschtem Verhalten

trainieren

• Agenten lernen in einem MDP ohne Reward Function

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 20

• Agenten lernen in einem MDP ohne Reward Function

Überlegungen

• Human Reinforcement Signal: informationsreich und

fehleranfällig

• MDP Reward: informationsarm und fehlerlos

�Kombination des Human Reinforcement Signals und des

MDP Reward

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 21

MDP Reward

Problem bei der Umsetzung

Kombination von Reinforcement Algorithmen mit TAMER

� TAMER ist mit Reward Function nicht kompatibel !

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 22

Kombinationsmethoden

Ziel:

• Etablierung von Kombinationsmethoden für TAMER und

RL Algorithmen

• Erforschung verschiedener Wege, um sie umzusetzen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 23

Kombinationsmethoden

• SARSA(λ) als Reinforcement Learning Algorithmus

• Q Function wird erstellt

• Q Function wird aktualisiert

• Q Function betrachtet zuvorgegangen Wege

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 24

(Aktionssequenzen)

Kombinationsmethoden

• Aktion a

• Zustand s

• Ĥ(s,a)

• R(s,a)

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 25

• Q(s,a)

• Parameter

• weight – wird dekrementiert

• constant – bleibt konstant

Methode 1

R‘(s,a) = R(s,a) + (weight * Ĥ(s,a))

• Reward Signal wird durch die Summe von sich und einem

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 26

Anteil der Human Reinforcement Function ersetzt

• Anteil der Reinforcement Function nimmt ab � somit auch

ihr Einfluss

� Vorhersage des Menschen wird mit der Zeit

unbedeutender

Methode 2

f‘ = f.append(Ĥ(s,a))

• Annahme, dass die Q Function über einen Feature Vector

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 27

erlernt wird

• Fügt zu sich selbst zusätzlich noch die Information der

Human Reinforcement Function hinzu

• Information kann vom Reinforcement Learning

Algorithmus, je nach Bedarf, mehr oder weniger genutzt

werden

Methode 3

Q(s,a) � (constant * Ĥ(s,a))

• Q Function so trainieren, dass sie sich an einen Anteil von

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 28

Ĥ(s,a) annähert

• Q wird mit 0 initialisiert

• Ĥ wird als Q Function behandelt

Methode 4

Q‘ (s,a) = Q(s,a) + constant * Ĥ(s,a)

• Ähnlich wie Methode 1

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 29

• Statt MDP Reward wird Q Function benutzt

• Ĥ(s,a) nimmt nicht ab

Methode 5

A‘ = A ᴜ argmaxa[Ĥ(s,a)]

• Fügt zu der Menge der möglichen Aktionen die Aktion

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 30

hinzu, welche der TAMER Agent wählen würde

• Mindestens zwei optimale Aktionen stehen zur Verfügung

Methode 6

a = argmaxa[Q(s,a) + weight * Ĥ(s,a)]

• Ein Anteil der Human Reinforcement Function Ĥ wird zur

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 31

Q Function während der Aktionsauswahl hinzugefügt

• Der Anteil der Human Reinforcement Function Ĥ nimmt mit

der Zeit ab

Methode 7

P (a = argmaxa [Ĥ(s,a)]) = p

• p ist eine fixe Wahrscheinlichkeit

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 32

• Entweder wählt Reinforcement Learning Algorithmus die nächste

Aktion aus oder

• TAMER Agent wählt die nächste Aktion aus, während der

Reinforcement Learning Algorithmus überwacht und aktualisiert

• Anfangs wird die Aktion von Ĥ gewählt

• Gegen Ende vom RL-Algorithmus

Methode 8

R‘(st ,a) = R(s,a) + constant * (Ф(st) – Ф(st-1))

Ф(s) = maxaH(s,a)

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 33

• H wird über Potentialfunktion Ф genutzt

• Potentialfunktion Ф gibt an, welches die optimale Aktion a

im Zustand s ist

• Aktueller Zustand und Zustand aus Zeitschritt davor wird

betrachtet

• Je größer die Abweichung desto größer der Einfluss

Experimente - Randbedingungen

• SARSA(λ) als Reinforcement Algorithmus

• Mountain Car Umgebung

• Zwei Human Reinforcement Functions

• Ĥ1 : durchschnittliche Funktion

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 34

• Ĥ2 : beste Funktion

• Zwei Parameter Sets

• Optimistisch: Initialisierung von Q = 0

• Pessimistisch: Initialisierung von Q = -120

• constant und weight

• Auswahl der besten Parameter

Erfolgskriterien

1. Höheres Level der Endperformanz der

Kombinationstechnik ist größer als RL Algorithmus oder

TAMER alleine

2. MDP Reward ist nach mehreren Lernepisoden (> 500)

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 35

2. MDP Reward ist nach mehreren Lernepisoden (> 500)

größer als RL Algorithmus oder TAMER alleine

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 36

Nur mit Q=0

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 37

Nur mit Q=0

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 38

Methode 2, 5

Nur mit Q=0

Schlechtesten Ergebnisse

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 39

Methode 2, 5

Methode 8

Nur mit Q=0

Schlechtesten Ergebnisse

Etwas verbessert

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 40

Methode 2, 5

Methode 8

Methode 3,4,6,7

Nur mit Q=0

Schlechtesten Ergebnisse

Etwas verbessert Besten Ergebnisse

2. Höherer Reward

Methode 1,6,7

Verbesserungen mit beiden Initialisierungen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 41

2. Höherer Reward

Methode 1,6,7

Methode

Verbesserungen mit beiden Initialisierungen

Verbessert sich

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 42

Methode 4auch etwas

2. Höherer Reward

Methode 1,6,7

Methode

Methode 3

Verbesserungen mit beiden Initialisierungen

Verbessert sich

Verschlechterungen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 43

Methode 4

Methode 8

Methode 2

Methode 5

auch etwas

•Nicht unbedingt besser als SARSA(λ)•Geringe Verbesserung unter einer der beiden H Funktionen•Schlechter als SARSA(λ) alleine

Beste Methode

Methode 1,6,7

Methode 3,4,6,7

Höhere Endperformanz Höherer Reward

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 44

Beste Methode

Methode 1,6,7

Methode 3,4,6,7

Höhere Endperformanz Höherer Reward

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 45

Methode 6

Fazit

Zwei erkennbare Muster

1. Wird die Q Funktion am Anfang manipuliert, führt das zu

einer schlechteren Performanz

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 46

Fazit

Zwei erkennbare Muster

1. Wird die Q Funktion am Anfang manipuliert, führt das zu

einer schlechteren Performanz

2. Wenn der Agent sanft in eine Richtung geleitet wird und

der Einfluss von Ĥ mit der Zeit reduziert wird, führt das

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 47

der Einfluss von Ĥ mit der Zeit reduziert wird, führt das

zu einer guten Performanz

Ziel

• Etablierung von Kombinationsmethoden für TAMER und

RL Algorithmen

• Erforschung verschiedener Wege, um sie umzusetzen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 48

Frage

Ziel:

• Etablierung von Kombinationsmethoden für TAMER und

RL Algorithmen

• Erforschung verschiedener Wege, um sie umzusetzen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 49

Erreicht, ja oder nein ?

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 50

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 51

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

• Erkennung (Gesichtsdetektion) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 52

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

• Erkennung (Gesichtsdetektion) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 53

• Roboter (Operationen) � nein

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

• Erkennung (Gesichtsdetektion) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 54

• Roboter (Operationen) � nein

• Für komplexe Anwendungen noch nicht genügend

erforscht

Quellen

• http://en.wikipedia.org/wiki/Markov_decision_process

• http://en.wikipedia.org/wiki/Markov_property

• http://en.wikipedia.org/wiki/SARSA

• http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 55

html

• http://www.cs.utexas.edu/~bradknox/papers/aamas10post

er-knox.pdf