Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization...

Trustregionpolicyoptimization(TRPO)

ValueIteration

• ThisiswhatwesimilartowhatQ-Learningdoes,themaindifferencebeingthatwewemightnotknowtheactualexpectedrewardandinsteadexploretheworldandusediscountedrewardstomodelourvaluefunction.

ValueIteration

Model-based

Model-free

ValueIteration

• OncewehaveQ(s,a),wecanfindoptimalpolicyπ*using:

PolicyIteration• Wecandirectlyoptimizeinthepolicyspace.

Smaller thanQ-functionspace

PreliminariesFollowingidentityexpressestheexpectedreturnofanotherpolicy intermsoftheadvantageoverπ,accumulatedovertimesteps:

WhereAπ istheadvantagefunction:

Andisthevisitation frequencyofstatesinpolicy

PreliminariesToremovethecomplexity dueto,following localapproximation isintroduced:

Ifwehaveaparameterized policy ,where isadifferentiable functionoftheparametervector ,then matchestofirstorder. i.e.,

Thisimplies thatasufficiently small stepthatimproves willalsoimprove ,butdoesnotgiveusanyguidance onhowbigofasteptotake.

• Toaddressthisissue,Kakade &Langford(2002)proposedconservativepolicyiteration:

where,

• Theyderivedthefollowinglowerbound:

Preliminaries

• Computationally,thisα-couplingmeansthatifwerandomlychooseaseedforourrandomnumbergenerator,andthenwesamplefromeachofπ andπnew aftersettingthatseed,theresultswillagreeforatleastfraction1-α ofseeds.• Thusα canbeconsideredasameasureofdisagreementbetweenπandπnew

Theorem1• Previousresultwasapplicabletomixturepoliciesonly.Schulmanshowedthatitcanbeextended togeneralstochasticpoliciesbyusingadistancemeasurecalled“TotalVariation”divergencebetweenπandas:

• Let

• Theyprovedthatfor ,followingresultholds:

fordiscreteprobability distributionsp;q

• NotethefollowingrelationbetweenTotalVariation&Kullback–Leibler:

• Thusboundingconditionbecomes:

Theorem1

Algorithm1

TrustRegionPolicyOptimization

• Forparameterizedpolicieswithparametervector,weareguaranteedtoimprovethetrueobjectivebyperformingfollowingmaximization:

• However,usingthepenaltycoefficientlikeaboveresultsinverysmallstepsizes.OnewaytotakelargerstepsinarobustwayistouseaconstraintontheKLdivergencebetweenthenewpolicyandtheoldpolicy,i.e.,atrustregionconstraint:

• Theconstraintisboundedateverypointinstatespace,whichisnotpractical.Wecanusethefollowingheuristicapproximation:

• Thus,theoptimizationproblembecomes:

• Intermsofexpectation,previousequationcanbewrittenas:

where,qdenotesthesamplingdistribution• Thissamplingdistributioncanbecalculatedintwoways:

Ø a)SinglePathMethodØ b)VineMethod

FinalAlgorithm

• Step1: Usethesinglepathorvineprocedurestocollectasetofstate-actionpairsalongwithMonteCarloestimatesoftheirQ-values• Step2:Byaveragingoversamples,constructtheestimatedobjectiveandconstraintinEquation(14)• Step3: Approximatelysolvethisconstrainedoptimizationproblemtoupdatethepolicy’sparametervector

Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization...

Documents

Transcript of Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization...

ADVANCED POLICY SEARCH METHODSdprecup/courses/RL/policysearch.pdf · TRUST REGION POLICY OPTIMISATION Trust region: region where approximation is valid Optimization step shouldn’t

Trust Region Policy Optimization - arXiv · parameterizations (Wampler & Popovi´c, 2009). The in-ability of ADP and gradient-based methods to consistently ... Trust Region Policy

Technical data sheet: ATA, Self-drilling screw, with two wings ...TECHNICAL DATA SHEET WOOD SCREWS Denomination: Wood screws Codes: TPPOB, TPPOZ, TPTO, TPA2, TPBR, TRPO, ABA, ATA,

An Improved Trust Depending Cluster …An Improved Trust Depending Cluster Communication Using Multi Point Access Optimization Algorithm in MANET 1D. Sampath Kumar and 2S. Veni 1,2

Deep RL in continuous action spaces - ETH Z...Trust Region Policy Optimization, Schulman et al. 2015 Proximal Policy Optimization Algorithms, Schulman et al. 2017 Surrogate Loss How

UT Austin Villa: High Dimensional Parameter Optimization for …AustinVilla/sim/3dsimulation/... · 2017-08-10 · Trainneural network usingTrust Region Policy Optimization (TRPO)

Optimization Algorithms on Riemannian Manifolds with ...gallivan/talks/WHuang_Defense_Slides.pdf · Introduction Line Search Optimization Methods Trust Region Optimization Methods

A progressive barrier derivative-free trust-region algorithm for constrained optimization · 2016-06-28 · A progressive barrier derivative-free trust-region algorithm for constrained

Recursive trust-region methods for multilevel nonlinear ... · Numerical experience Ongoing work Recursive trust-region methods for multilevel nonlinear optimization Philippe Toint1

Trust Region Policy Optimizationjoschu.net/docs/2016-NIPS-Tutorial.pdfJ. Schulman, S. Levine, P. Moritz, et al.\Trust Region Policy Optimization".In: ICML. 2015 \Proximal" Policy Optimization

A Nonlinear Trust Region Framework for PDE-Constrained ...math.lbl.gov/~mjzahr/content/slides/zahr2015siamcse.pdf · PDE-Constrained Optimization ROM-Constrained Optimization Numerical

Trust-based Multi-Objective Optimization for Node-to-Task Assignment in Coalition Networks

A Trust Funnel Algorithm for Nonconvex Equality ... · A Trust Funnel Algorithm for Nonconvex Equality Constrained Optimization with O( 3=2) Complexity Mohammadreza Samadi, Lehigh

A D.C. OPTIMIZATION ALGORITHM FOR SOLVINGcseweb.ucsd.edu/~datorres/docs/tao-an--dcoptimization.pdf · A D.C. OPTIMIZATION ALGORITHM FOR SOLVING THE TRUST-REGION SUBPROBLEM PHAM DINH

Search Engine Optimization using WordPress - Presented by Trust P Nhokovedzo.

Numerical Optimization - Lecture Notes #8 — Trust-Region ...

L101: Optimization fundamentals · Gradients too expensive/complicated to calculate, e.g.: hyperparameter optimization Two large families: Model-based (similar to trust region but

Trust Region Policy Optimization (TRPO) - arXiv · Trust Region Policy Optimization 3Monotonic Improvement Guarantee for General Stochastic Policies Equation (6), which applies to

Automated Deep Reinforcement Learning Environment for ... · Trust Region Policy Optimization (TRPO) [9] and Deep Deterministic Policy Gradient (DDPG) [10] directly on the. hardware

Chapter 11 Nonlinear Optimization Examples · 300 Chapter 11. Nonlinear Optimization Examples Trust Region Optimization Without Parameter Scaling CRP Jacobian Computed by Finite Differences