trust region policy optimization (trpo) - sjsu · 2018-04-17 · trust region policy optimization...

Trust region policy optimization (TRPO)

Upload: others

Post on 21-Jul-2020

5 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Trustregionpolicyoptimization(TRPO)

ValueIteration

Page 3: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

ValueIteration

• ThisiswhatwesimilartowhatQ-Learningdoes,themaindifferencebeingthatwewemightnotknowtheactualexpectedrewardandinsteadexploretheworldandusediscountedrewardstomodelourvaluefunction.

Page 4: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

ValueIteration

• ThisiswhatwesimilartowhatQ-Learningdoes,themaindifferencebeingthatwewemightnotknowtheactualexpectedrewardandinsteadexploretheworldandusediscountedrewardstomodelourvaluefunction.

Model-based

Model-free

Page 5: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

ValueIteration

• ThisiswhatwesimilartowhatQ-Learningdoes,themaindifferencebeingthatwewemightnotknowtheactualexpectedrewardandinsteadexploretheworldandusediscountedrewardstomodelourvaluefunction.

• OncewehaveQ(s,a),wecanfindoptimalpolicyπ*using:

Page 6: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

PolicyIteration• Wecandirectlyoptimizeinthepolicyspace.

Page 7: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

PolicyIteration• Wecandirectlyoptimizeinthepolicyspace.

Smaller thanQ-functionspace

Page 8: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

PreliminariesFollowingidentityexpressestheexpectedreturnofanotherpolicy intermsoftheadvantageoverπ,accumulatedovertimesteps:

WhereAπ istheadvantagefunction:

Andisthevisitation frequencyofstatesinpolicy

Page 9: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

PreliminariesToremovethecomplexity dueto,following localapproximation isintroduced:

Ifwehaveaparameterized policy ,where isadifferentiable functionoftheparametervector ,then matchestofirstorder. i.e.,

Thisimplies thatasufficiently small stepthatimproves willalsoimprove ,butdoesnotgiveusanyguidance onhowbigofasteptotake.

Page 10: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

• Toaddressthisissue,Kakade &Langford(2002)proposedconservativepolicyiteration:

where,

• Theyderivedthefollowinglowerbound:

Preliminaries

Page 11: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

Preliminaries

• Computationally,thisα-couplingmeansthatifwerandomlychooseaseedforourrandomnumbergenerator,andthenwesamplefromeachofπ andπnew aftersettingthatseed,theresultswillagreeforatleastfraction1-α ofseeds.• Thusα canbeconsideredasameasureofdisagreementbetweenπandπnew

Page 12: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

Theorem1• Previousresultwasapplicabletomixturepoliciesonly.Schulmanshowedthatitcanbeextended togeneralstochasticpoliciesbyusingadistancemeasurecalled“TotalVariation”divergencebetweenπandas:

• Let

• Theyprovedthatfor ,followingresultholds:

fordiscreteprobability distributionsp;q

Page 13: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

• NotethefollowingrelationbetweenTotalVariation&Kullback–Leibler:

• Thusboundingconditionbecomes:

Theorem1

Page 14: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

Algorithm1

TrustRegionPolicyOptimization

• Forparameterizedpolicieswithparametervector,weareguaranteedtoimprovethetrueobjectivebyperformingfollowingmaximization:

• However,usingthepenaltycoefficientlikeaboveresultsinverysmallstepsizes.OnewaytotakelargerstepsinarobustwayistouseaconstraintontheKLdivergencebetweenthenewpolicyandtheoldpolicy,i.e.,atrustregionconstraint:

TrustRegionPolicyOptimization

• Theconstraintisboundedateverypointinstatespace,whichisnotpractical.Wecanusethefollowingheuristicapproximation:

• Thus,theoptimizationproblembecomes:

TrustRegionPolicyOptimization

• Intermsofexpectation,previousequationcanbewrittenas:

where,qdenotesthesamplingdistribution• Thissamplingdistributioncanbecalculatedintwoways:

Ø a)SinglePathMethodØ b)VineMethod

Page 18: Trust region policy optimization (TRPO) - SJSU · 2018-04-17 · Trust Region Policy Optimization • For parameterized policies with parameter vector, we are guaranteed to improve

FinalAlgorithm

• Step1: Usethesinglepathorvineprocedurestocollectasetofstate-actionpairsalongwithMonteCarloestimatesoftheirQ-values• Step2:Byaveragingoversamples,constructtheestimatedobjectiveandconstraintinEquation(14)• Step3: Approximatelysolvethisconstrainedoptimizationproblemtoupdatethepolicy’sparametervector

Search Engine Optimization using WordPress - Presented by Trust P Nhokovedzo

Some recent developments in nonlinear optimization algorithms · 1. Globalization techniques in unconstrained optimization In order to introduce the line-search and trust-region techniques,

A Nonlinear Trust Region Framework for PDE-Constrained ...math.lbl.gov/~mjzahr/content/slides/zahr2015siamcse.pdf · PDE-Constrained Optimization ROM-Constrained Optimization Numerical

Information Meeting on Financial Results for 1HFY2004 · Sumitomo Trust & Banking Co., Ltd. Sumitomo Trust & Banking ... Review business model through optimization of capital allocation

Introduction to Optimization: Benchmarkingresearchers.lille.inria.fr/.../optimizationSaclay/... · Pattern search [Hooke and Jeeves 1961] Trust-region methods (NEWUOA, BOBYQA) [Powell

A Trust Funnel Algorithm for Nonconvex Equality ... · A Trust Funnel Algorithm for Nonconvex Equality Constrained Optimization with O( 3=2) Complexity Mohammadreza Samadi, Lehigh

Stochastic Optimization Using a Trust-Region Method and

January 26, 2005Sally J. F. Baron, Ph.D1 TRUST, RISK & AEROSPACE SOFTWARE: BALANCE AND OPTIMIZATION

Trust Region Policy Optimization - University of Torontotingwuwang/trpo.pdf · 2017-06-02 · Trust Region Policy Optimization TINGWU WANG MACHINE LEARNING GROUP, UNIVERSITY OF TORONTO

Trust Pictoguard with Your Online Business’s Design and Optimization

Deep RL in continuous action spaces - ETH Z...Trust Region Policy Optimization, Schulman et al. 2015 Proximal Policy Optimization Algorithms, Schulman et al. 2017 Surrogate Loss How

Avoiding Packet Dropping Misbehavior in VANET using Trust Based Ant Colony Optimization