Thesis : Contraints and Observability In Markov Decision Processes
-
Upload
camille-besse -
Category
Science
-
view
240 -
download
4
Transcript of Thesis : Contraints and Observability In Markov Decision Processes
DAMASwww.damas.ift.ulaval.ca
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
Contraintes et observabilitédans les systèmes de Markov décentralisés
Camille Besse
Département d’Informatique et de Génie Logicielhttp://damas.ift.ulaval.ca
Septembre 2010
DAMASwww.damas.ift.ulaval.ca Camille Besse 1 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes
å Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averti
contient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes
å Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiques
est composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes
å Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemples
se veut compréhensible par tous et touteså Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes
å Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes
å Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Prologue
Cette présentation ...
ne s’adresse pas à un public averticontient seulement 8.5% de formules mathématiquesest composée à 82.4% d’images et exemplesse veut compréhensible par tous et toutes
å Donc si vous avez des questions ...
N’hésitez pas et posez les ! ! !
DAMASwww.damas.ift.ulaval.ca Camille Besse 2 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...devant réaliser plusieurs tâches journalières :
Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...
devant réaliser plusieurs tâches journalières :Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...devant réaliser plusieurs tâches journalières :
Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...devant réaliser plusieurs tâches journalières :
Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...devant réaliser plusieurs tâches journalières :
Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfait
å Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...devant réaliser plusieurs tâches journalières :
Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
Imaginons une ferme automatisée ...
Où travaille un robot ...devant réaliser plusieurs tâches journalières :
Nourrir les poulesTraire les vachesArroser le potager(etc ...)
Ce robot n’est malheureusement pas parfaitå Les tâches qu’il réalise peuvent parfois prendre plus de tempså Il a en plus des chances d’échouer (ou de mal réaliser ces tâches)
Comment modéliser ce problème de planification ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St
0
0
0
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
At
apoules
avaches
apotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
r t
rpoules
rvaches
rpotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St
0
0
0
apotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St+1
0
0
1
apotager
rpotager
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St+1
0
0
1
avaches
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductif
St+2
0
0
1
avaches
0
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductifReprésentation graphique d’un Processus décisionnel de Markov
r t−1 r t r t+1 rT
St−2 St−1 St St+1 ST
At−1 At At+1 AT
T T T T
O O O O
R R R R
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductifEt en partiellement observable ?
St
0
?
?
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductifEt en partiellement observable ?
St+1
?
?
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductifReprésentation graphique en partiellement observable
r1 r2 r3 rT
S0 S1 S2 S3 ST
O0 O1 O2 O3
A1 A2 A3 AT
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductifEt en multiagent ?
St
?
?
?
At1
At2
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Exemple introductifReprésentation graphique en multiagent
S0 S1 S2 S3 ST
O01
O02
O11
O12
O21
O22
O31
O32
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 3 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Légende
Modèle Existant
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Légende
Modèle Existant
Modèle Proposé
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes MarkoviensNEREUS
Légende
Modèle Existant
Modèle Proposé
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
Déménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? IA et Planification Plan
Contributions et plan de la présentation
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
PatrouilleDéménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 4 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Plan
1ere Partie : Contraintes et Modèles de Markov
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
+ Bornes
NEREUS
DAMASwww.damas.ift.ulaval.ca Camille Besse 5 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 6 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de satisfaction de contraintes dynamiques
2
4
53
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 7 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Problèmes de Markov avec satisfaction de contraintes
Solutions
st+1 st+1 st+1
CSPt+1 CSPt+1 CSPt+1
st CSPt
a0 ... ai ... aσ
DAMASwww.damas.ift.ulaval.ca Camille Besse 8 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MDP classique
〈Pou , V, Pot 〉
〈0, 0, 0〉
〈Pou , Pou〉
〈1, 0, 0〉〈0, 0, 0〉
〈Pou , V〉
〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉
〈Pou , Pot 〉
〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉
〈V, V〉
〈0, 1, 0〉〈0, 0, 0〉
〈V, Pou〉
〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉
〈V, Pot 〉
〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉〈Pot , Pot 〉
〈0, 0, 1〉〈0, 0, 0〉
〈Pot , V〉
〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉
〈Pot , Pou〉
〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉
7 états possibles selon les probabilitéspour 9 actions jointes
7 états possibles selon les probabilitéspour seulement 6 actions jointes
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MDP classique
〈Pou , V, Pot 〉
〈0, 0, 0〉
〈Pou , Pou〉
〈1, 0, 0〉〈0, 0, 0〉
〈Pou , V〉
〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉
〈Pou , Pot 〉
〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉
〈V, V〉
〈0, 1, 0〉〈0, 0, 0〉
〈V, Pou〉
〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉
〈V, Pot 〉
〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉〈Pot , Pot 〉
〈0, 0, 1〉〈0, 0, 0〉
〈Pot , V〉
〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉
〈Pot , Pou〉
〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉
7 états possibles selon les probabilitéspour 9 actions jointes
7 états possibles selon les probabilitéspour seulement 6 actions jointes
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MaCSP avec allDiff〈Pou , V, Pot 〉
〈0, 0, 0〉
〈Pou , V〉
〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉
〈Pou , Pot 〉
〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉
〈V, Pou〉
〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉
〈V, Pot 〉
〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉
〈Pot , V〉
〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉
〈Pot , Pou〉
〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉
7 états possibles selon les probabilitéspour 9 actions jointes
7 états possibles selon les probabilitéspour seulement 6 actions jointes
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Exemple illustratif à la ferme
Arbre de résolution d’un MaCSP avec allDiff〈Pou , V, Pot 〉
〈0, 0, 0〉
〈Pou , V〉
〈1, 1, 0〉〈1, 0, 0〉〈0, 1, 0〉〈0, 0, 0〉
〈Pou , Pot 〉
〈1, 0, 1〉〈1, 0, 0〉〈0, 0, 1〉〈0, 0, 0〉
〈V, Pou〉
〈1, 1, 0〉〈0, 1, 0〉〈1, 0, 0〉〈0, 0, 0〉
〈V, Pot 〉
〈0, 1, 1〉〈0, 1, 0〉〈0, 0, 1〉〈0, 0, 0〉
〈Pot , V〉
〈0, 1, 1〉〈0, 0, 1〉〈0, 1, 0〉〈0, 0, 0〉
〈Pot , Pou〉
〈1, 0, 1〉〈0, 0, 1〉〈1, 0, 0〉〈0, 0, 0〉
7 états possibles selon les probabilitéspour 9 actions jointes
7 états possibles selon les probabilitéspour seulement 6 actions jointes
DAMASwww.damas.ift.ulaval.ca Camille Besse 9 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats théoriques
Gain dans un problème d’allocation séquentiel
Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :
Gain =|T ||X |
C|X ||T |
Complexité du modèle en pire cas
Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.
Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.
DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats théoriques
Gain dans un problème d’allocation séquentiel
Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :
Gain =|T ||X |
C|X ||T |
Complexité du modèle en pire cas
Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.
Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.
DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats théoriques
Gain dans un problème d’allocation séquentiel
Dans un problème d’allocation de ressources à des tâches, le gain enfacteur de branchement de l’utilisation de la contrainte allDiff quiimposent que toutes les ressources soient appliquées à des tâchesdifférentes est égal à :
Gain =|T ||X |
C|X ||T |
Complexité du modèle en pire cas
Trouver une politique pour un MaCSP, qui obtiendrait une récompenseespérée d’au moins C, est #P.
Mais cela fonctionne très bien en pratique puisque le nombre devariables est très inférieur au nombre d’états.
DAMASwww.damas.ift.ulaval.ca Camille Besse 10 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? CSPs DCSPs MaCSPs Exemple Résultats
Résultats empiriques
10
100
1000
10000
100000
1e+006
1 2 3 4 5 6 7 8
Tim
e (m
s)
Number of Tasks
MaCSPMDP
DAMASwww.damas.ift.ulaval.ca Camille Besse 11 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Plan
2eme Partie : Contraintes et Observabilité dansles Modèles de Markov
Processus Décisionnel de Markov
Partiellement Observable
Multiagent
Décentralisé
Quasi-Déterministe + Bornes PAC
Incendie
DAMASwww.damas.ift.ulaval.ca Camille Besse 12 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance
r1 r2 r3 rT
S0 S1 S2 S3 ST
O0 O1 O2 O3
b0 b1 b2 b3
A11 A2
1 A31 AT
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance
r1 r2 r3 rT
S0 S1 S2 S3 ST
O0 O1 O2 O3
b0 b1 b2 b3
A11 A2
1 A31 AT
1
DAMASwww.damas.ift.ulaval.ca Camille Besse 13 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
L’état de croyance : un exemple
b(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 14 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selonl’observabilité
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
PObservability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selonl’observabilité
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
P(M)MDP∞
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selonl’observabilité
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
P(M)MDP∞
(M)POMDP
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selonl’observabilité
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
P(M)MDP∞
DEC-POMDP
(M)POMDP
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selonl’observabilité
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
P(M)MDP∞
DEC-POMDP
(M)POMDP
UMDP
UMDP∞
DEC-MDP
Free Com.DEC-MDP-COM
Free Com.DEC-POMDP-COM
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Complexité des modèles de Markov selonl’observabilité
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
P
Gap
(M)MDP∞
DEC-POMDP
(M)POMDP
UMDP
UMDP∞
DEC-MDP
Free Com.DEC-MDP-COM
Free Com.DEC-POMDP-COM
? ? ?
Observability
Complexity
DAMASwww.damas.ift.ulaval.ca Camille Besse 15 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
∃o1 ∈ Ω, ∀a ∈ A, ∀s ∈ So1 ,
with So1 = s ∈ S|∃o1 ∈ Ω,P(o1|s,a) > P(o|s,a),∀o 6= o1,then |Ω| = |S| and |So1 | = 1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o1|s1) = 0.8
P(o2|s1) = 0.1
P(o3|s1) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o1|s2) = 0.1
P(o2|s2) = 0.8
P(o3|s2) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o2|s3) = 0.1
P(o3|s3) = 0.8
P(o4|s3) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o3|s4) = 0.1
P(o4|s4) = 0.8
P(o5|s4) = 0.1
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Modèle avec observation bijective
Observabilité bijective
ν = 3, θ = 0.8États Observations
s1
s2
s3
s4
s5
o1
o2
o3
o4
o5
P(o3|s5) = 0.1
P(o4|s5) = 0.1
P(o5|s5) = 0.8
DAMASwww.damas.ift.ulaval.ca Camille Besse 16 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
Sous l’hypothèse d’observation bijective, l’état de croyance bk est telque bk (s) > 1− ε ssi
n >1
2 ln νθ(1−θ)
ln[
1− εε
(1 + ν1− k
2
)]+
k2
(1)
Réduction de la complexité en pire cas pour les
Étant donné un à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est .
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
0 10 20 30 40 500
0.2
0.4
0.6
0.8
1
K
P (
bK >
1−ε
)
θ = 0.9θ = 0.8θ = 0.7θ = 0.6
Réduction de la complexité en pire cas pour les
Étant donné un à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est .
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
0 10 20 30 40 500
0.2
0.4
0.6
0.8
1
K
P (
bK >
1−ε
)
θ = 0.9θ = 0.8θ = 0.7θ = 0.6
Réduction de la complexité en pire cas pour les POMDPs
Étant donné un POMDP à horizon infini avec actions déterministes etrespectant l’hypothèse d’observabilité bijective, trouver une politiquequi permette d’obtenir une récompense escomptée espérée donnéeavec une forte probabilité est ΣP2k−1.
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
Convergence de l’état de croyance en probabilité
0 10 20 30 40 500
0.2
0.4
0.6
0.8
1
K
P (
bK >
1−ε
)
θ = 0.9θ = 0.8θ = 0.7θ = 0.6
Réduction de la complexité en pire cas pour les DEC-POMDPs
Étant donné un DEC-POMDP à horizon infini avec actionsdéterministes et respectant l’hypothèse d’observabilité bijective,trouver une politique qui permette d’obtenir une récompenseescomptée espérée donnée avec une forte probabilité est PSPACE.
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
Résultats théoriques obtenus
NonePartial& Noisy
Joint& Perfect
Complete& Noisy
Complete& Perfect
NEXP
EXPΣP
poly ⊆ PSPACE
ΣPk
ΣP1 = NP
P
Gap
Observability
Complexity
(M)MDP∞
(M)POMDP
DEC-POMDP
QDET-POMDP
QDET-DEC-POMDP
DAMASwww.damas.ift.ulaval.ca Camille Besse 17 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Bases Problème Bijection Théorie Pratique
avec actions stochastiques
0 10 20 30 40 500
0.5
1
1.5
2
2.5
3
3.5
σa2= .05 σ
o2= 0.12892 θ = 0.92214
K
P (
bK >
1−ε
)
±2σ2
±σ2
Mean
DAMASwww.damas.ift.ulaval.ca Camille Besse 18 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Plan
3eme Partie : Observabilité dans les modèles deMarkov décentralisés
Processus Décisionnel de Markov
Partiellement Observable
Multiagent
DécentralisédRollout
Patrouille Déménageurs
DAMASwww.damas.ift.ulaval.ca Camille Besse 19 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O01
O02
O11
O12
O21
O22
O31
O32
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O11
O12
O21
O22
O31
O32
b01
b02
b11
b12
b21
b22
b31
b32
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O11
O12
O21
O22
O31
O32
b01
b02
b11
b12
b21
b22
b31
b32
b01
b02
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O11
O12
O21
O22
O31
O32
b01
b02
b11
b12
b21
b22
b31
b32
b01
b02
b11
b12
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O11
O12
O21
O22
O31
O32
b01
b02
b11
b12
b21
b22
b31
b32
b01
b02
b11
b12
b21
b22
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O11
O12
O21
O22
O31
O32
b01
b02
b11
b12
b21
b22
b31
b32
b01
b02
b11
b12
b21
b22
b31
b32
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Bases sur les POMDPs décentralisés
S0 S1 S2 S3 ST
O11
O12
O21
O22
O31
O32
b01
b02
b11
b12
b21
b22
b31
b32
A11
A12
A21
A22
A31
A32
AT1
AT2
Agent 1
Agent 2
DAMASwww.damas.ift.ulaval.ca Camille Besse 20 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
aa
oaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
aa
oaob
aboaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
aa
oaob
aboaob
ac oaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
aa
oaob
aboaob
ac oaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
V (bTba1 )
V (bTbb1 )
aa
oaob
aboaob
aboaob
ac oaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
H(b1ba1 )
H(b1bb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Algorithme de Rollout décentralisé
b01
b1aa1
b1ab1
b1ba1
b1bb1
b1ba1
b1bb1
b1ca1
b1cb1
V (bTaa1 )
V (bTab1 )
V (bTba1 )
V (bTbb1 )
V (bTca1 )
V (bTcb1 )
V (bTba1 )
V (bTbb1 )
aa
oaob
aboaob
aboaob
acoaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
H(b1ba1 )
H(b1bb1 )
b02
b1aa2
b1ab2
b1ba2
b1bb2
b1ca2
b1cb2
V (bTaa2 )
V (bTab2 )
V (bTba2 )
V (bTbb2 )
V (bTca2 )
V (bTcb2 )
aa
oaob
aboaob
acoaob
H(b1aa1 )
H(b1ab1 )
H(b1ba1 )
H(b1bb1 )
H(b1ca1 )
H(b1cb1 )
DAMASwww.damas.ift.ulaval.ca Camille Besse 21 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentraliséeet sans communication
Observation la plus probable
o?i ← 〈oi ,o?
−i〉où o?
−i = arg maxo−i∈Ω−i
O(〈oi ,o−i〉|a, s′)bti (s′)
bt+1i (s′) =
O(o?i |a, s′)
∑s∈S T (s′|s, a)bt
i (s)∑s,s′∈S O(o?
i |a, s′)T (s′|s, a)bti (s)
(1)
Observation espérée (?)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentraliséeet sans communication
Observation la plus probable
o?i ← 〈oi ,o?
−i〉où o?
−i = arg maxo−i∈Ω−i
O(〈oi ,o−i〉|a, s′)bti (s′)
bt+1i (s′) =
O(o?i |a, s′)
∑s∈S T (s′|s, a)bt
i (s)∑s,s′∈S O(o?
i |a, s′)T (s′|s, a)bti (s)
(1)
Observation espérée (?)
bt+1i (s′) =
∑o−i∈Ω−i
O(o|a, s′)∑
s∈S T (s′|s, a)bti (s)∑
s,s′∈S O(o|a, s′)T (s′|s, a)bti (s)
, o = 〈oi ,o−i〉 (2)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentraliséeet sans communication
Observation la plus probable
bt+1i (s′) = max
o−ibt+1
i (s′) (1)
Observation espérée (?)
bt+1i (s′) =
∑o−i∈Ω−i
O(o|a, s′)∑
s∈S T (s′|s, a)bti (s)∑
s,s′∈S O(o|a, s′)T (s′|s, a)bti (s)
, o = 〈oi ,o−i〉 (2)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Planification en ligne avec observabilité décentraliséeet sans communication
Observation la plus probable
bt+1i (s′) = max
o−ibt+1
i (s′) (1)
Observation espérée (?)
bt+1i (s′) = E
o−i
bt+1i (s′) (2)
DAMASwww.damas.ift.ulaval.ca Camille Besse 22 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Résultats expérimentauxProblème du déménageurs
+10 +100 +10
DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? DecPOMDPs Rollout No Comm Résultats
Résultats expérimentauxProblème du déménageurs
-60
-40
-20
0
20
40
60
5 10 15
AA
R
Horizon
MDPMDP*
IMBDPIMBDP*Rollout
Rollout*
(a) Value vs Horizon
1
10
100
1000
10000
100000
5 10 15
Tim
e pe
r st
ep (
ms)
Horizon
MDP*IMBDP*Rollout*
(b) Time (s) vs Horizon
DAMASwww.damas.ift.ulaval.ca Camille Besse 23 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Plan
4eme partie : Applications des outils développés
Processus Décisionnel de Markov
Partiellement Observable
Multiagent
Quasi-Déterministe + Bornes PAC
PatrouilleDirigeable
DAMASwww.damas.ift.ulaval.ca Camille Besse 24 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursGroupe de patrouille autonome – J.S. Marier
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursGroupe de patrouille autonome – J.S. Marier
0.2
1.0
1.5
1.0
0.5
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursGroupe de patrouille autonome – J.S. Marier
Les agents :
Sont contraints dans leurs actions par un graphe de localisationsà surveiller aussi souvent que possible ;Observent avec certitude leur position et communiquent celle-ciaux autre agents ;Peuvent communiquer leur état local et leur politique locale avecune fréquence suffisamment élevée ;N’ont pas accès à l’information qu’ils surveillent.
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursGroupe de patrouille autonome – J.S. Marier
(c) Wheel
0
(d) Cloverleaf (e) Cuboctahedron
(f) Map-A (g) Map-BDAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursGroupe de patrouille autonome – J.S. Marier
0
100
200
300
400
500
600
700
Wheel Clover Cubo Map-A Map-B
C-AEMS
Reactive
(h) AAR
1,00E-05
1,00E-04
1,00E-03
1,00E-02
1,00E-01
1,00E+00
1,00E+01
1,00E+02
Wheel Clover Cubo Map-A Map-B
C-AEMS
Reactive
(i) Time(s)
DAMASwww.damas.ift.ulaval.ca Camille Besse 25 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursApprentissage de POMDPs continus – P. Dallaire
L’agent :
Doit maintenir une hauteur relative de zero ;Observe sa hauteur en continu additionnée d’un bruit Gaussien(en cloche) ;Choisis un action monter/descendre en continu ;Ne connaît pas sa dynamique.
DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions en coursApprentissage de POMDPs continus – P. Dallaire
10 20 30 40 50 60 70 80 90 100−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Hau
teur
(m
)
Nombre de pas d’apprentissage
DAMASwww.damas.ift.ulaval.ca Camille Besse 26 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transitionstochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transitionstochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transitionstochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? En cours Possibles
Extensions possibles
Extension du modèle MaCSP au multiagentReprésentations des interactions agents par contraintes
Étude des modèles d’observabilité bijective avec transitionstochastique
et étude de l’équilibre génération / absorption d’entropie
Extension des modèles d’observabilité bijective aux POMDPscontinusÉtude de la communication pour la synchronisation en ligne desétats de croyance
À quel moment et quoi communiquer ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 27 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Légende
Modèle Existant
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Légende
Modèle Existant
Modèle Proposé
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes MarkoviensNEREUS
Légende
Modèle Existant
Modèle Proposé
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
R-FRTDP
+ Bornes
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
+ Bornes
+ Bornes PAC
NEREUS
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
Déménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Rappel des Contributions
Processus Décisionnel de Markov
Problèmes de Satisfaction
de Contraintes Markoviens
Partiellement Observable
Quasi-Déterministe
Multiagent
Décentralisé
R-FRTDP
dRollout
+ Bornes
+ Bornes PAC
NEREUS
PatrouilleDéménageurs
Légende
Modèle Existant
Modèle Proposé
Algorithme
Problème
DAMASwww.damas.ift.ulaval.ca Camille Besse 28 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ? Contributions Conclusion
Conclusion
3 Abandon des concepts d’intentions, engagements. On neraisonne que sur la valeur.
3 Meilleur précision sur l’optimalité de la planification3 Pouvoir de modélisation très large7 Extrêmement sensible au modèle utilisé7 Extrêmement sensible à la définition de la fonction de
récompense7 Problèmes très difficile à résoudre sans approximations7 Multiplication de modèles spécifiques plus faciles à résoudre
å Prendre en compte la spécificité du problème dans lamodélisation est indispensable
DAMASwww.damas.ift.ulaval.ca Camille Besse 29 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
Questions
Merci de votre attention
? ? ?
DAMASwww.damas.ift.ulaval.ca Camille Besse 30 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
BibliographyArticles comme premier auteur
Camille Besse and Brahim Chaib-draa.
An Efficient Model for Dynamic and Constrained Resource Allocation Problems.In Proc. of the 2nd Inter. Workshop on Constraint Satisfaction Techniques for Planning and Scheduling Problems, September 2007.
Camille Besse and Brahim Chaib-draa.
Parallel Rollout for Online Solution of Dec-POMDP.In Proc. of 21st Inter. FLAIRS Conf., May 2008.
Camille Besse and Brahim Chaib-draa.
Quasi-Deterministic Partially Observable Markov Decision Processes.In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 237–246, December 2009.
Camille Besse and Brahim Chaib-draa.
Quasi-Deterministic POMDPs and Dec-POMDPs.In Proc. of 9th Inter. Conf. On Autonomous Agents and MultiAgent Systems (Extended Abstract), May 2010.
Camille Besse and Brahim Chaib-draa.
Quasi-Deterministic POMDPs and Dec-POMDPs.In Proc. of 5th Inter. Workshop On Multiagent Sequential Decision Making in Uncertain Domains, May 2010.
Camille Besse, Pierrick Plamondon, and Brahim Chaib-draa.
R-FRTDP. A Real-Time DP Algorithm with Tight Bounds for a Stochastic Resource Allocation Problem.In Proc. of the 20th Canadian Conf. on Artificial Intelligence, May 2007.
DAMASwww.damas.ift.ulaval.ca Camille Besse 31 / 32
Intro Contraintes Observabilité Décentralisé Futur Conc ? ? ?
BibliographyArticles comme second auteur
Patrick Dallaire, Camille Besse, and Brahim Chaib-draa.
Learning Gaussian Process Models from Uncertain Data.In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 433–440, December 2009.
Patrick Dallaire, Camille Besse, and Brahim Chaib-draa.
Approximate Inference of Latent Functions from Uncertain Data with Gaussian Processes.Neurocomputing, page To appear, 201X.
Patrick Dallaire, Camille Besse, Stéphane Ross, and Brahim Chaib-draa.
Bayesian Reinforcement Learning in POMDPs with Gaussian Processes.In Proc. of the Inter. Conf. on Intelligent Robots and Systems, 2009.
Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa.
A Markov Model for Multiagent Patrolling in Continuous Time.In Proc. of 16th Inter. Conf. On Neural Information Processing, pages 648–656, December 2009.
Jean-Samuel Marier, Camille Besse, and Brahim Chaib-draa.
Solving the Continuous Time Multiagent Patrol Problem.In Proc. of 2010 IEEE Inter. Conf. on Robotics and Automation, 2010.
DAMASwww.damas.ift.ulaval.ca Camille Besse 32 / 32