Thesis : Contraints and Observability In Markov Decision Processes

DAMASwww.damas.ift.ulaval.ca

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?

Contraintes et observabilitédans les systèmes de Markov décentralisés

Camille Besse

Département d’Informatique et de Génie Logicielhttp://damas.ift.ulaval.ca

Septembre 2010

DAMASwww.damas.ift.ulaval.ca Camille Besse 1 / 32

Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan

Prologue

Cette présentation ...

ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes

å Donc si vous avez des questions ...

N’hésitez pas et posez les ! ! !



Prologue


ne s’adresse pas à un public averti

contient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes





Prologue


ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiques

est composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes





Prologue


ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemples

se veut compréhensible par tous et touteså Donc si vous avez des questions ...




Prologue


ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes





Exemple introductif

Imaginons une ferme automatisée ...

Où travaille un robot ...devant réaliser plusieurs tâches journalières :

Nourrir les poulesTraire les vachesArroser le potager(etc ...)

Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)

Comment modéliser ce problème de planification ?



Exemple introductif


Où travaille un robot ...

devant réaliser plusieurs tâches journalières :Nourrir les poulesTraire les vachesArroser le potager(etc ...)





Exemple introductif








Exemple introductif




Ce robot n’est malheureusement pas parfait

å Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)




Exemple introductif








Exemple introductif

St

0

0

0



Exemple introductif

At

apoules

avaches

apotager



Exemple introductif

r t

rpoules

rvaches

rpotager



Exemple introductif

St

0

0

0

apotager



Exemple introductif

St+1

0

0

1

apotager

rpotager



Exemple introductif

St+1

0

0

1

avaches



Exemple introductif

St+2

0

0

1

avaches

0



Exemple introductifReprésentation graphique d’un Processus décisionnel de Markov

r t−1 r t r t+1 rT

St−2 St−1 St St+1 ST

At−1 At At+1 AT

T T T T

O O O O

R R R R



Exemple introductifEt en partiellement observable ?

St

0

?

?



Exemple introductifEt en partiellement observable ?

St+1

?

?

1



Exemple introductifReprésentation graphique en partiellement observable

r1 r2 r3 rT

S0 S1 S2 S3 ST

O0 O1 O2 O3

A1 A2 A3 AT



Exemple introductifEt en multiagent ?

St

?

?

?

At1

At2



Exemple introductifReprésentation graphique en multiagent

S0 S1 S2 S3 ST

O01

O02

O11

O12

O21

O22

O31

O32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2



Contributions et plan de la présentation

Processus Décisionnel de Markov

Légende

Modèle Existant





Problèmes de Satisfaction

de Contraintes Markoviens

Légende

Modèle Existant

Modèle Proposé






de Contraintes MarkoviensNEREUS

Légende

Modèle Existant

Modèle Proposé

Problème







R-FRTDP

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème







R-FRTDP

+ Bornes

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème







Partiellement Observable

R-FRTDP

+ Bornes

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème








Quasi-Déterministe

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème








Quasi-Déterministe

Multiagent

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème








Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

+ Bornes

+ Bornes PAC

NEREUS

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème








Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

dRollout

+ Bornes

+ Bornes PAC

NEREUS

Déménageurs

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème








Quasi-Déterministe

Multiagent

Décentralisé

R-FRTDP

dRollout

+ Bornes

+ Bornes PAC

NEREUS

PatrouilleDéménageurs

Légende

Modèle Existant

Modèle Proposé

Algorithme

Problème


Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats

Plan

1ere Partie : Contraintes et Modèles de Markov




R-FRTDP

+ Bornes

NEREUS



Problèmes de satisfaction de contraintes

2

4

53

1



Problèmes de satisfaction de contraintes dynamiques

2

4

53

1



Problèmes de Markov avec satisfaction de contraintes

Solutions

st+1 st+1 st+1

CSPt+1 CSPt+1 CSPt+1

st CSPt

a0 ... ai ... aσ



Exemple illustratif à la ferme




Arbre de résolution d’un MDP classique

〈Pou , V, Pot 〉

〈0, 0, 0〉

〈Pou , Pou〉

〈1, 0, 0〉〈0, 0, 0〉

〈Pou , V〉

〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉

〈Pou , Pot 〉

〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈V, V〉

〈0, 1, 0〉〈0, 0, 0〉

〈V, Pou〉

〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉

〈V, Pot 〉

〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉〈Pot , Pot 〉

〈0, 0, 1〉〈0, 0, 0〉

〈Pot , V〉

〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉

〈Pot , Pou〉

〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉

7 états possibles selon les probabilitéspour 9 actions jointes

7 états possibles selon les probabilitéspour seulement 6 actions jointes




Arbre de résolution d’un MaCSP avec allDiff〈Pou , V, Pot 〉

〈0, 0, 0〉

〈Pou , V〉

〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉

〈Pou , Pot 〉

〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈V, Pou〉

〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉

〈V, Pot 〉

〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉

〈Pot , V〉

〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉

〈Pot , Pou〉

〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉

7 états possibles selon les probabilitéspour 9 actions jointes

7 états possibles selon les probabilitéspour seulement 6 actions jointes



Résultats théoriques

Gain dans un problème d’allocation séquentiel

Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :

Gain =|T ||X |

C|X ||T |

Complexité du modèle en pire cas

Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.

Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.



Résultats empiriques

10

100

1000

10000

100000

1e+006

1 2 3 4 5 6 7 8

Tim

e (m

s)

Number of Tasks

MaCSPMDP


Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique

Plan

2eme Partie : Contraintes et Observabilité dansles Modèles de Markov



Multiagent

Décentralisé

Quasi-Déterministe + Bornes PAC

Incendie



L’état de croyance

r1 r2 r3 rT

S0 S1 S2 S3 ST

O0 O1 O2 O3

b0 b1 b2 b3

A11 A2

1 A31 AT

1



L’état de croyance : un exemple

b(s)



Complexité des modèles de Markov selonl’observabilité

NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

PObservability

Complexity




NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

Observability

Complexity




NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

(M)POMDP

Observability

Complexity




NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

DEC-POMDP

(M)POMDP

Observability

Complexity




NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P(M)MDP∞

DEC-POMDP

(M)POMDP

UMDP

UMDP∞

DEC-MDP

Free Com.DEC-MDP-COM

Free Com.DEC-POMDP-COM

Observability

Complexity




NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P

Gap

(M)MDP∞

DEC-POMDP

(M)POMDP

UMDP

UMDP∞

DEC-MDP

Free Com.DEC-MDP-COM

Free Com.DEC-POMDP-COM

? ? ?

Observability

Complexity



Modèle avec observation bijective

Observabilité bijective

∃o1 ∈ Ω, ∀a ∈ A, ∀s ∈ So1 ,

with So1 = s ∈ S|∃o1 ∈ Ω,P(o1|s,a) > P(o|s,a),∀o 6= o1,then |Ω| = |S| and |So1 | = 1





États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5





ν = 3, θ = 0.8États Observations

s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o1|s1) = 0.8

P(o2|s1) = 0.1

P(o3|s1) = 0.1






s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o1|s2) = 0.1

P(o2|s2) = 0.8

P(o3|s2) = 0.1






s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o2|s3) = 0.1

P(o3|s3) = 0.8

P(o4|s3) = 0.1






s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o3|s4) = 0.1

P(o4|s4) = 0.8

P(o5|s4) = 0.1






s1

s2

s3

s4

s5

o1

o2

o3

o4

o5

P(o3|s5) = 0.1

P(o4|s5) = 0.1

P(o5|s5) = 0.8



Résultats théoriques obtenus

Convergence de l’état de croyance en probabilité

Sous l’hypothèse d’observation bijective, l’état de croyance bk est telque bk (s) > 1− ε ssi

n >1

2 ln νθ(1−θ)

ln[

1− εε

(1 + ν1− k

2

)]+

k2

(1)

Réduction de la complexité en pire cas pour les

Étant donné un à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est .





0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

K

P (

bK >

1−ε

)

θ = 0.9θ = 0.8θ = 0.7θ = 0.6

Réduction de la complexité en pire cas pour les

Étant donné un à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est .





0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

K

P (

bK >

1−ε

)

θ = 0.9θ = 0.8θ = 0.7θ = 0.6

Réduction de la complexité en pire cas pour les POMDPs

Étant donné un POMDP à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est ΣP2k−1.





0 10 20 30 40 500

0.2

0.4

0.6

0.8

1

K

P (

bK >

1−ε

)

θ = 0.9θ = 0.8θ = 0.7θ = 0.6

Réduction de la complexité en pire cas pour les DEC-POMDPs

Étant donné un DEC-POMDP à horizon infini avec actionsdéterministes et respectant l’hypothèse d’observabilité bijective,trouver une politique qui permette d’obtenir une récompenseescomptée espérée donnée avec une forte probabilité est PSPACE.




NonePartial& Noisy

Joint& Perfect

Complete& Noisy

Complete& Perfect

NEXP

EXPΣP

poly ⊆ PSPACE

ΣPk

ΣP1 = NP

P

Gap

Observability

Complexity

(M)MDP∞

(M)POMDP

DEC-POMDP

QDET-POMDP

QDET-DEC-POMDP



avec actions stochastiques

0 10 20 30 40 500

0.5

1

1.5

2

2.5

3

3.5

σa2= .05 σ

o2= 0.12892 θ = 0.92214

K

P (

bK >

1−ε

)

±2σ2

±σ2

Mean


Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats

Plan

3eme Partie : Observabilité dans les modèles deMarkov décentralisés



Multiagent

DécentralisédRollout

Patrouille Déménageurs



Bases sur les POMDPs décentralisés

S0 S1 S2 S3 ST

O01

O02

O11

O12

O21

O22

O31

O32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2




S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2




S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2




S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

b11

b12

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2




S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

b11

b12

b21

b22

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2




S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

b01

b02

b11

b12

b21

b22

b31

b32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2




S0 S1 S2 S3 ST

O11

O12

O21

O22

O31

O32

b01

b02

b11

b12

b21

b22

b31

b32

A11

A12

A21

A22

A31

A32

AT1

AT2

Agent 1

Agent 2



Algorithme de Rollout décentralisé

b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )




b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )




b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

aboaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )




b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

aa

oaob

aboaob

ac oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )




b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

V (bTba1 )

V (bTbb1 )

aa

oaob

aboaob

aboaob

ac oaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

H(b1ba1 )

H(b1bb1 )




b01

b1aa1

b1ab1

b1ba1

b1bb1

b1ba1

b1bb1

b1ca1

b1cb1

V (bTaa1 )

V (bTab1 )

V (bTba1 )

V (bTbb1 )

V (bTca1 )

V (bTcb1 )

V (bTba1 )

V (bTbb1 )

aa

oaob

aboaob

aboaob

acoaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )

H(b1ba1 )

H(b1bb1 )

b02

b1aa2

b1ab2

b1ba2

b1bb2

b1ca2

b1cb2

V (bTaa2 )

V (bTab2 )

V (bTba2 )

V (bTbb2 )

V (bTca2 )

V (bTcb2 )

aa

oaob

aboaob

acoaob

H(b1aa1 )

H(b1ab1 )

H(b1ba1 )

H(b1bb1 )

H(b1ca1 )

H(b1cb1 )



Planification en ligne avec observabilité décentraliséeet sans communication

Observation la plus probable

o?i ← 〈oi ,o?

−i〉où o?

−i = arg maxo−i∈Ω−i

O(〈oi ,o−i〉|a, s′)bti (s′)

bt+1i (s′) =

O(o?i |a, s′)

∑s∈S T (s′|s, a)bt

i (s)∑s,s′∈S O(o?

i |a, s′)T (s′|s, a)bti (s)

(1)

Observation espérée (?)





bt+1i (s′) = max

o−ibt+1

i (s′) (1)


bt+1i (s′) =

∑o−i∈Ω−i

O(o|a, s′)∑

s∈S T (s′|s, a)bti (s)∑

s,s′∈S O(o|a, s′)T (s′|s, a)bti (s)

, o = 〈oi ,o−i〉 (2)





bt+1i (s′) = max

o−ibt+1

i (s′) (1)


bt+1i (s′) = E

o−i

bt+1i (s′) (2)



Résultats expérimentauxProblème du déménageurs

+10 +100 +10



Résultats expérimentauxProblème du déménageurs

-60

-40

-20

0

20

40

60

5 10 15

AA

R

Horizon

MDPMDP*

IMBDPIMBDP*Rollout

Rollout*

(a) Value vs Horizon

1

10

100

1000

10000

100000

5 10 15

Tim

e pe

r st

ep (

ms)

Horizon

MDP*IMBDP*Rollout*

(b) Time (s) vs Horizon


Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles

Plan

4eme partie : Applications des outils développés



Multiagent

Quasi-Déterministe + Bornes PAC

PatrouilleDirigeable



Extensions en coursGroupe de patrouille autonome – J.S. Marier




0.2

1.0

1.5

1.0

0.5




Les agents :

Sont contraints dans leurs actions par un graphe de localisationsà surveiller aussi souvent que possible ;Observent avec certitude leur position et communiquent celle-ciaux autre agents ;Peuvent communiquer leur état local et leur politique locale avecune fréquence suffisamment élevée ;N’ont pas accès à l’information qu’ils surveillent.




(c) Wheel

0

(d) Cloverleaf (e) Cuboctahedron

(f) Map-A (g) Map-BDAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32



0

100

200

300

400

500

600

700

Wheel Clover Cubo Map-A Map-B

C-AEMS

Reactive

(h) AAR

1,00E-05

1,00E-04

1,00E-03

1,00E-02

1,00E-01

1,00E+00

1,00E+01

1,00E+02

Wheel Clover Cubo Map-A Map-B

C-AEMS

Reactive

(i) Time(s)



Extensions en coursApprentissage de POMDPs continus – P. Dallaire

L’agent :

Doit maintenir une hauteur relative de zero ;Observe sa hauteur en continu additionnée d’un bruit Gaussien(en cloche) ;Choisis un action monter/descendre en continu ;Ne connaît pas sa dynamique.



Extensions en coursApprentissage de POMDPs continus – P. Dallaire

10 20 30 40 50 60 70 80 90 100−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

Hau

teur

(m

)

Nombre de pas d’apprentissage



Extensions possibles

Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes

Étude des modèles d’observabilité bijective avec transitionstochastique

et étude de l’équilibre génération / absorption d’entropie

Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance

À quel moment et quoi communiquer ?


Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion

Rappel des Contributions


Légende

Modèle Existant







Légende

Modèle Existant

Modèle Proposé