Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining...
Transcript of Combining Manual Feedback with Subsequent MDP Reward ......W. Bradley Knox und Peter Stone Combining...
W. Bradley Knox und Peter Stone
Combining Manual Feedback withSubsequent MDP Reward Signals forReinforcement Learning
14.12.2012 | Informatik FB 20| Knowlegde Engineering| Yasmin Krahofer | 1
Inhalt
• Problemstellung
• MDP
• TAMER
• Kombinationsmethoden
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 2
• Experimente
• Ergebnisse
• Fazit
• Quellen
Problemstellung
• Lernende Agenten gehen mehr und mehr von der
Forschung ins reale Leben über
Probleme:
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 3
1. Nicht alle Endbenutzer haben Fachkenntnisse
2. Manche Trainingsdaten sind kostspielig, erbringen aber
keine gute Leistung
Nicht alle Endbenutzer haben Fachkenntnisse
• In realer Welt kann nicht jeder Mensch programmieren
• Soll dennoch in der Lage sein, einem Agenten ein
gewünschtes Verhalten beizubringen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 4
Kostspielige Trainingsdaten mit geringer Leistung
• Sie sollen reduziert werden
• Wenn möglich komplett weglassen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 5
Wichtige Begriffe
• Markov Decision Process
• TAMER
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 6
Wichtige Begriffe
• Markov Decision Process
• TAMER
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 7
Markov Decision Prozess
• MDP – Wofür ?
• MDP – Funktionsweise
• MDP Reward
• Eigenschaften des MDP
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 8
MDP – Wofür ?
• Wahrscheinlichkeitsberechnung
• Schlägt nächsten Zustand vor
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 9
MDP – Funktionsweise
s1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 10
MDP – Funktionsweise
s1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
2. In Zustand s sind ein oder
mehrere Aktionen verfügbar
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 11
MDP – Funktionsweise
s1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
2. In Zustand s sind ein oder
mehrere Aktionen verfügbar
3. Eine Aktion a wird gewählt
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 12
3. Eine Aktion a wird gewählt
MDP – Funktionsweise
1. Zu jedem Zeitpunkt befindet sich
Prozess in einem Zustand s
2. In Zustand s sind ein oder
mehrere Aktionen verfügbar
3. Eine Aktion a wird gewählt
s
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 13
3. Eine Aktion a wird gewählt
4. Nachfolgende Zeitpunkt bewegt
sich Prozess in Zustand s‘ und
liefert den dazugehörigen
Rewards‘‘s‘ s‘‘‘
MDP Reward
• Als Signal genutzt
• Drückt Belohnung, von Zustand s in Zustand s‘, zu
gelangen aus
• Fehlerlos
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 14
• Informationsarm
• z.T. Verzögert
Eigenschaften des MDP
• s‘ abhängig von aktuellem Zustand s und Aktion a
• Unabhängig von davor gewählten Aktionen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 15
Wichtige Begriffe
• Markov Decision Process
• TAMER
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 16
TAMER
• Was ist TAMER ?
• Wie funktioniert TAMER ?
• Bisherige Ergebnisse von TAMER
• Schlussfolgerungen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 17
Was ist TAMER ?
• Teaching Agents Manually via Evaluative Reinforcement
• Framework
• Agenten können interaktiv geformt werden
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 18
Wie funktioniert TAMER ?
• Menschlicher Trainer gibt positives oder negatives
Feedback Signal
• An Hand der Signale wird Human Reinforcement Function
Ĥ erstellt
• TAMER wählt Aktion auf Grund von Ĥ
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 19
• TAMER wählt Aktion auf Grund von Ĥ
Bisherige Beobachtungen von TAMER
• Sample Komplexität wird reduziert � Gewährleistung einer
guten Policy
• Laien können Agenten zu gewünschtem Verhalten
trainieren
• Agenten lernen in einem MDP ohne Reward Function
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 20
• Agenten lernen in einem MDP ohne Reward Function
Überlegungen
• Human Reinforcement Signal: informationsreich und
fehleranfällig
• MDP Reward: informationsarm und fehlerlos
�Kombination des Human Reinforcement Signals und des
MDP Reward
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 21
MDP Reward
Problem bei der Umsetzung
Kombination von Reinforcement Algorithmen mit TAMER
� TAMER ist mit Reward Function nicht kompatibel !
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 22
Kombinationsmethoden
Ziel:
• Etablierung von Kombinationsmethoden für TAMER und
RL Algorithmen
• Erforschung verschiedener Wege, um sie umzusetzen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 23
Kombinationsmethoden
• SARSA(λ) als Reinforcement Learning Algorithmus
• Q Function wird erstellt
• Q Function wird aktualisiert
• Q Function betrachtet zuvorgegangen Wege
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 24
(Aktionssequenzen)
Kombinationsmethoden
• Aktion a
• Zustand s
• Ĥ(s,a)
• R(s,a)
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 25
• Q(s,a)
• Parameter
• weight – wird dekrementiert
• constant – bleibt konstant
Methode 1
R‘(s,a) = R(s,a) + (weight * Ĥ(s,a))
• Reward Signal wird durch die Summe von sich und einem
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 26
Anteil der Human Reinforcement Function ersetzt
• Anteil der Reinforcement Function nimmt ab � somit auch
ihr Einfluss
� Vorhersage des Menschen wird mit der Zeit
unbedeutender
Methode 2
f‘ = f.append(Ĥ(s,a))
• Annahme, dass die Q Function über einen Feature Vector
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 27
erlernt wird
• Fügt zu sich selbst zusätzlich noch die Information der
Human Reinforcement Function hinzu
• Information kann vom Reinforcement Learning
Algorithmus, je nach Bedarf, mehr oder weniger genutzt
werden
Methode 3
Q(s,a) � (constant * Ĥ(s,a))
• Q Function so trainieren, dass sie sich an einen Anteil von
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 28
Ĥ(s,a) annähert
• Q wird mit 0 initialisiert
• Ĥ wird als Q Function behandelt
Methode 4
Q‘ (s,a) = Q(s,a) + constant * Ĥ(s,a)
• Ähnlich wie Methode 1
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 29
• Statt MDP Reward wird Q Function benutzt
• Ĥ(s,a) nimmt nicht ab
Methode 5
A‘ = A ᴜ argmaxa[Ĥ(s,a)]
• Fügt zu der Menge der möglichen Aktionen die Aktion
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 30
hinzu, welche der TAMER Agent wählen würde
• Mindestens zwei optimale Aktionen stehen zur Verfügung
Methode 6
a = argmaxa[Q(s,a) + weight * Ĥ(s,a)]
• Ein Anteil der Human Reinforcement Function Ĥ wird zur
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 31
Q Function während der Aktionsauswahl hinzugefügt
• Der Anteil der Human Reinforcement Function Ĥ nimmt mit
der Zeit ab
Methode 7
P (a = argmaxa [Ĥ(s,a)]) = p
• p ist eine fixe Wahrscheinlichkeit
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 32
• Entweder wählt Reinforcement Learning Algorithmus die nächste
Aktion aus oder
• TAMER Agent wählt die nächste Aktion aus, während der
Reinforcement Learning Algorithmus überwacht und aktualisiert
• Anfangs wird die Aktion von Ĥ gewählt
• Gegen Ende vom RL-Algorithmus
Methode 8
R‘(st ,a) = R(s,a) + constant * (Ф(st) – Ф(st-1))
Ф(s) = maxaH(s,a)
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 33
• H wird über Potentialfunktion Ф genutzt
• Potentialfunktion Ф gibt an, welches die optimale Aktion a
im Zustand s ist
• Aktueller Zustand und Zustand aus Zeitschritt davor wird
betrachtet
• Je größer die Abweichung desto größer der Einfluss
Experimente - Randbedingungen
• SARSA(λ) als Reinforcement Algorithmus
• Mountain Car Umgebung
• Zwei Human Reinforcement Functions
• Ĥ1 : durchschnittliche Funktion
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 34
• Ĥ2 : beste Funktion
• Zwei Parameter Sets
• Optimistisch: Initialisierung von Q = 0
• Pessimistisch: Initialisierung von Q = -120
• constant und weight
• Auswahl der besten Parameter
Erfolgskriterien
1. Höheres Level der Endperformanz der
Kombinationstechnik ist größer als RL Algorithmus oder
TAMER alleine
2. MDP Reward ist nach mehreren Lernepisoden (> 500)
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 35
2. MDP Reward ist nach mehreren Lernepisoden (> 500)
größer als RL Algorithmus oder TAMER alleine
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 36
Nur mit Q=0
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 37
Nur mit Q=0
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 38
Methode 2, 5
Nur mit Q=0
Schlechtesten Ergebnisse
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 39
Methode 2, 5
Methode 8
Nur mit Q=0
Schlechtesten Ergebnisse
Etwas verbessert
1. Höhere Endperformanz
Optimistische Initialisierung
Methode 1
Pessimistische Initialisierung
Methode 2-8
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 40
Methode 2, 5
Methode 8
Methode 3,4,6,7
Nur mit Q=0
Schlechtesten Ergebnisse
Etwas verbessert Besten Ergebnisse
2. Höherer Reward
Methode 1,6,7
Verbesserungen mit beiden Initialisierungen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 41
2. Höherer Reward
Methode 1,6,7
Methode
Verbesserungen mit beiden Initialisierungen
Verbessert sich
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 42
Methode 4auch etwas
2. Höherer Reward
Methode 1,6,7
Methode
Methode 3
Verbesserungen mit beiden Initialisierungen
Verbessert sich
Verschlechterungen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 43
Methode 4
Methode 8
Methode 2
Methode 5
auch etwas
•Nicht unbedingt besser als SARSA(λ)•Geringe Verbesserung unter einer der beiden H Funktionen•Schlechter als SARSA(λ) alleine
Beste Methode
Methode 1,6,7
Methode 3,4,6,7
Höhere Endperformanz Höherer Reward
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 44
Beste Methode
Methode 1,6,7
Methode 3,4,6,7
Höhere Endperformanz Höherer Reward
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 45
Methode 6
Fazit
Zwei erkennbare Muster
1. Wird die Q Funktion am Anfang manipuliert, führt das zu
einer schlechteren Performanz
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 46
Fazit
Zwei erkennbare Muster
1. Wird die Q Funktion am Anfang manipuliert, führt das zu
einer schlechteren Performanz
2. Wenn der Agent sanft in eine Richtung geleitet wird und
der Einfluss von Ĥ mit der Zeit reduziert wird, führt das
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 47
der Einfluss von Ĥ mit der Zeit reduziert wird, führt das
zu einer guten Performanz
Ziel
• Etablierung von Kombinationsmethoden für TAMER und
RL Algorithmen
• Erforschung verschiedener Wege, um sie umzusetzen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 48
Frage
Ziel:
• Etablierung von Kombinationsmethoden für TAMER und
RL Algorithmen
• Erforschung verschiedener Wege, um sie umzusetzen
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 49
Erreicht, ja oder nein ?
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 50
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 51
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
• Erkennung (Gesichtsdetektion) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 52
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
• Erkennung (Gesichtsdetektion) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 53
• Roboter (Operationen) � nein
Erreicht, ja oder nein ?
• Jein
• Guter Ansatz
• Spiele (Schach, Backgammon, etc.) � ja
• Erkennung (Gesichtsdetektion) � ja
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 54
• Roboter (Operationen) � nein
• Für komplexe Anwendungen noch nicht genügend
erforscht
Quellen
• http://en.wikipedia.org/wiki/Markov_decision_process
• http://en.wikipedia.org/wiki/Markov_property
• http://en.wikipedia.org/wiki/SARSA
• http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.
14.12.2012 | Informatik FB20 | Knowledge Engineering | Yasmin Krahofer | 55
html
• http://www.cs.utexas.edu/~bradknox/papers/aamas10post
er-knox.pdf