Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining...

55
W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012 | Informatik FB 20| Knowlegde Engineering| Yasmin Krahofer | 1

Transcript of Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining...

Page 1: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

W. Bradley Knox und Peter Stone

Combining Manual Feedback withSubsequent MDP Reward Signals forReinforcement Learning

14.12.2012 | Informatik FB 20| Knowlegde Engineering| Yasmin Krahofer | 1

Page 2: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Inhalt

• Problemstellung

• MDP

• TAMER

• Kombinationsmethoden

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 2

• Experimente

• Ergebnisse

• Fazit

• Quellen

Page 3: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Problemstellung

• Lernende Agenten gehen mehr und mehr von der

Forschung ins reale Leben über

Probleme:

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 3

1. Nicht alle Endbenutzer haben Fachkenntnisse

2. Manche Trainingsdaten sind kostspielig, erbringen aber

keine gute Leistung

Page 4: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Nicht alle Endbenutzer haben Fachkenntnisse

• In realer Welt kann nicht jeder Mensch programmieren

• Soll dennoch in der Lage sein, einem Agenten ein

gewünschtes Verhalten beizubringen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 4

Page 5: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Kostspielige Trainingsdaten mit geringer Leistung

• Sie sollen reduziert werden

• Wenn möglich komplett weglassen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 5

Page 6: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Wichtige Begriffe

• Markov Decision Process

• TAMER

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 6

Page 7: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Wichtige Begriffe

• Markov Decision Process

• TAMER

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 7

Page 8: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Markov Decision Prozess

• MDP – Wofür ?

• MDP – Funktionsweise

• MDP Reward

• Eigenschaften des MDP

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 8

Page 9: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

MDP – Wofür ?

• Wahrscheinlichkeitsberechnung

• Schlägt nächsten Zustand vor

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 9

Page 10: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

MDP – Funktionsweise

s1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 10

Page 11: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

MDP – Funktionsweise

s1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

2. In Zustand s sind ein oder

mehrere Aktionen verfügbar

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 11

Page 12: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

MDP – Funktionsweise

s1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

2. In Zustand s sind ein oder

mehrere Aktionen verfügbar

3. Eine Aktion a wird gewählt

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 12

3. Eine Aktion a wird gewählt

Page 13: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

MDP – Funktionsweise

1. Zu jedem Zeitpunkt befindet sich

Prozess in einem Zustand s

2. In Zustand s sind ein oder

mehrere Aktionen verfügbar

3. Eine Aktion a wird gewählt

s

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 13

3. Eine Aktion a wird gewählt

4. Nachfolgende Zeitpunkt bewegt

sich Prozess in Zustand s‘ und

liefert den dazugehörigen

Rewards‘‘s‘ s‘‘‘

Page 14: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

MDP Reward

• Als Signal genutzt

• Drückt Belohnung, von Zustand s in Zustand s‘, zu

gelangen aus

• Fehlerlos

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 14

• Informationsarm

• z.T. Verzögert

Page 15: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Eigenschaften des MDP

• s‘ abhängig von aktuellem Zustand s und Aktion a

• Unabhängig von davor gewählten Aktionen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 15

Page 16: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Wichtige Begriffe

• Markov Decision Process

• TAMER

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 16

Page 17: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

TAMER

• Was ist TAMER ?

• Wie funktioniert TAMER ?

• Bisherige Ergebnisse von TAMER

• Schlussfolgerungen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 17

Page 18: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Was ist TAMER ?

• Teaching Agents Manually via Evaluative Reinforcement

• Framework

• Agenten können interaktiv geformt werden

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 18

Page 19: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Wie funktioniert TAMER ?

• Menschlicher Trainer gibt positives oder negatives

Feedback Signal

• An Hand der Signale wird Human Reinforcement Function

Ĥ erstellt

• TAMER wählt Aktion auf Grund von Ĥ

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 19

• TAMER wählt Aktion auf Grund von Ĥ

Page 20: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Bisherige Beobachtungen von TAMER

• Sample Komplexität wird reduziert � Gewährleistung einer

guten Policy

• Laien können Agenten zu gewünschtem Verhalten

trainieren

• Agenten lernen in einem MDP ohne Reward Function

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 20

• Agenten lernen in einem MDP ohne Reward Function

Page 21: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Überlegungen

• Human Reinforcement Signal: informationsreich und

fehleranfällig

• MDP Reward: informationsarm und fehlerlos

�Kombination des Human Reinforcement Signals und des

MDP Reward

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 21

MDP Reward

Page 22: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Problem bei der Umsetzung

Kombination von Reinforcement Algorithmen mit TAMER

� TAMER ist mit Reward Function nicht kompatibel !

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 22

Page 23: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Kombinationsmethoden

Ziel:

• Etablierung von Kombinationsmethoden für TAMER und

RL Algorithmen

• Erforschung verschiedener Wege, um sie umzusetzen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 23

Page 24: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Kombinationsmethoden

• SARSA(λ) als Reinforcement Learning Algorithmus

• Q Function wird erstellt

• Q Function wird aktualisiert

• Q Function betrachtet zuvorgegangen Wege

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 24

(Aktionssequenzen)

Page 25: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Kombinationsmethoden

• Aktion a

• Zustand s

• Ĥ(s,a)

• R(s,a)

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 25

• Q(s,a)

• Parameter

• weight – wird dekrementiert

• constant – bleibt konstant

Page 26: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 1

R‘(s,a) = R(s,a) + (weight * Ĥ(s,a))

• Reward Signal wird durch die Summe von sich und einem

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 26

Anteil der Human Reinforcement Function ersetzt

• Anteil der Reinforcement Function nimmt ab � somit auch

ihr Einfluss

� Vorhersage des Menschen wird mit der Zeit

unbedeutender

Page 27: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 2

f‘ = f.append(Ĥ(s,a))

• Annahme, dass die Q Function über einen Feature Vector

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 27

erlernt wird

• Fügt zu sich selbst zusätzlich noch die Information der

Human Reinforcement Function hinzu

• Information kann vom Reinforcement Learning

Algorithmus, je nach Bedarf, mehr oder weniger genutzt

werden

Page 28: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 3

Q(s,a) � (constant * Ĥ(s,a))

• Q Function so trainieren, dass sie sich an einen Anteil von

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 28

Ĥ(s,a) annähert

• Q wird mit 0 initialisiert

• Ĥ wird als Q Function behandelt

Page 29: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 4

Q‘ (s,a) = Q(s,a) + constant * Ĥ(s,a)

• Ähnlich wie Methode 1

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 29

• Statt MDP Reward wird Q Function benutzt

• Ĥ(s,a) nimmt nicht ab

Page 30: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 5

A‘ = A ᴜ argmaxa[Ĥ(s,a)]

• Fügt zu der Menge der möglichen Aktionen die Aktion

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 30

hinzu, welche der TAMER Agent wählen würde

• Mindestens zwei optimale Aktionen stehen zur Verfügung

Page 31: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 6

a = argmaxa[Q(s,a) + weight * Ĥ(s,a)]

• Ein Anteil der Human Reinforcement Function Ĥ wird zur

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 31

Q Function während der Aktionsauswahl hinzugefügt

• Der Anteil der Human Reinforcement Function Ĥ nimmt mit

der Zeit ab

Page 32: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 7

P (a = argmaxa [Ĥ(s,a)]) = p

• p ist eine fixe Wahrscheinlichkeit

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 32

• Entweder wählt Reinforcement Learning Algorithmus die nächste

Aktion aus oder

• TAMER Agent wählt die nächste Aktion aus, während der

Reinforcement Learning Algorithmus überwacht und aktualisiert

• Anfangs wird die Aktion von Ĥ gewählt

• Gegen Ende vom RL-Algorithmus

Page 33: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Methode 8

R‘(st ,a) = R(s,a) + constant * (Ф(st) – Ф(st-1))

Ф(s) = maxaH(s,a)

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 33

• H wird über Potentialfunktion Ф genutzt

• Potentialfunktion Ф gibt an, welches die optimale Aktion a

im Zustand s ist

• Aktueller Zustand und Zustand aus Zeitschritt davor wird

betrachtet

• Je größer die Abweichung desto größer der Einfluss

Page 34: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Experimente - Randbedingungen

• SARSA(λ) als Reinforcement Algorithmus

• Mountain Car Umgebung

• Zwei Human Reinforcement Functions

• Ĥ1 : durchschnittliche Funktion

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 34

• Ĥ2 : beste Funktion

• Zwei Parameter Sets

• Optimistisch: Initialisierung von Q = 0

• Pessimistisch: Initialisierung von Q = -120

• constant und weight

• Auswahl der besten Parameter

Page 35: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Erfolgskriterien

1. Höheres Level der Endperformanz der

Kombinationstechnik ist größer als RL Algorithmus oder

TAMER alleine

2. MDP Reward ist nach mehreren Lernepisoden (> 500)

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 35

2. MDP Reward ist nach mehreren Lernepisoden (> 500)

größer als RL Algorithmus oder TAMER alleine

Page 36: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 36

Nur mit Q=0

Page 37: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 37

Nur mit Q=0

Page 38: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 38

Methode 2, 5

Nur mit Q=0

Schlechtesten Ergebnisse

Page 39: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 39

Methode 2, 5

Methode 8

Nur mit Q=0

Schlechtesten Ergebnisse

Etwas verbessert

Page 40: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

1. Höhere Endperformanz

Optimistische Initialisierung

Methode 1

Pessimistische Initialisierung

Methode 2-8

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 40

Methode 2, 5

Methode 8

Methode 3,4,6,7

Nur mit Q=0

Schlechtesten Ergebnisse

Etwas verbessert Besten Ergebnisse

Page 41: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

2. Höherer Reward

Methode 1,6,7

Verbesserungen mit beiden Initialisierungen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 41

Page 42: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

2. Höherer Reward

Methode 1,6,7

Methode

Verbesserungen mit beiden Initialisierungen

Verbessert sich

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 42

Methode 4auch etwas

Page 43: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

2. Höherer Reward

Methode 1,6,7

Methode

Methode 3

Verbesserungen mit beiden Initialisierungen

Verbessert sich

Verschlechterungen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 43

Methode 4

Methode 8

Methode 2

Methode 5

auch etwas

•Nicht unbedingt besser als SARSA(λ)•Geringe Verbesserung unter einer der beiden H Funktionen•Schlechter als SARSA(λ) alleine

Page 44: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Beste Methode

Methode 1,6,7

Methode 3,4,6,7

Höhere Endperformanz Höherer Reward

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 44

Page 45: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Beste Methode

Methode 1,6,7

Methode 3,4,6,7

Höhere Endperformanz Höherer Reward

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 45

Methode 6

Page 46: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Fazit

Zwei erkennbare Muster

1. Wird die Q Funktion am Anfang manipuliert, führt das zu

einer schlechteren Performanz

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 46

Page 47: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Fazit

Zwei erkennbare Muster

1. Wird die Q Funktion am Anfang manipuliert, führt das zu

einer schlechteren Performanz

2. Wenn der Agent sanft in eine Richtung geleitet wird und

der Einfluss von Ĥ mit der Zeit reduziert wird, führt das

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 47

der Einfluss von Ĥ mit der Zeit reduziert wird, führt das

zu einer guten Performanz

Page 48: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Ziel

• Etablierung von Kombinationsmethoden für TAMER und

RL Algorithmen

• Erforschung verschiedener Wege, um sie umzusetzen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 48

Page 49: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Frage

Ziel:

• Etablierung von Kombinationsmethoden für TAMER und

RL Algorithmen

• Erforschung verschiedener Wege, um sie umzusetzen

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 49

Erreicht, ja oder nein ?

Page 50: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 50

Page 51: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 51

Page 52: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

• Erkennung (Gesichtsdetektion) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 52

Page 53: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

• Erkennung (Gesichtsdetektion) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 53

• Roboter (Operationen) � nein

Page 54: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Erreicht, ja oder nein ?

• Jein

• Guter Ansatz

• Spiele (Schach, Backgammon, etc.) � ja

• Erkennung (Gesichtsdetektion) � ja

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 54

• Roboter (Operationen) � nein

• Für komplexe Anwendungen noch nicht genügend

erforscht

Page 55: Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning 14.12.2012

Quellen

• http://en.wikipedia.org/wiki/Markov_decision_process

• http://en.wikipedia.org/wiki/Markov_property

• http://en.wikipedia.org/wiki/SARSA

• http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.

14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 55

html

• http://www.cs.utexas.edu/~bradknox/papers/aamas10post

er-knox.pdf