advanced policy gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfclass notes 1....

Advanced Policy Gradients CS 285: Deep Reinforcement Learning, Decision Making, and Control Sergey Levine

Upload: others

Post on 06-Mar-2020

0 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Advanced Policy Gradients

CS 285: Deep Reinforcement Learning, Decision Making, and Control

Sergey Levine

Class Notes

1. Homework 2 due today (11:59 pm)!• Don’t be late!

2. Homework 3 comes out this week• Start early! Q-learning takes a while to run

Page 3: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Today’s Lecture

1. Why does policy gradient work?

2. Policy gradient is a type of policy iteration

3. Policy gradient as a constrained optimization

4. From constrained optimization to natural gradient

5. Natural gradients and trust regions

• Goals:• Understand the policy iteration view of policy gradient

• Understand how to analyze policy gradient improvement

• Understand what natural gradient does and how to use it

Page 4: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Recap: policy gradients

generate samples (i.e.

run the policy)

fit a model to estimate return

improve the policy

“reward to go”

can also use function approximation here

Page 5: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Why does policy gradient work?

generate samples (i.e.

run the policy)

fit a model to estimate return

improve the policy

look familiar?

Page 6: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Policy gradient as policy iteration

Page 7: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Policy gradient as policy iterationimportance sampling

Page 8: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Ignoring distribution mismatch??

why do we want this to be true?

is it true? and when?

Page 9: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Bounding the distribution change

seem familiar?

not a great bound, but a bound!

Page 10: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Bounding the distribution change

Proof based on: Schulman, Levine, Moritz, Jordan, Abbeel. “Trust Region Policy Optimization.”

Page 11: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Bounding the objective value

Page 12: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Where are we at so far?

Page 13: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Break

Page 14: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

A more convenient bound

KL divergence has some very convenient properties that make it much easier to approximate!

Page 15: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

How do we optimize the objective?

Page 16: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

How do we enforce the constraint?

can do this incompletely (for a few grad steps)

Page 17: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

How (else) do we optimize the objective?

Use first order Taylor approximation for objective (a.k.a., linearization)

Page 18: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

How do we optimize the objective?

(see policy gradient lecture for derivation)

exactly the normal policy gradient!

Page 19: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Can we just use the gradient then?

Page 20: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Can we just use the gradient then?

not the same!

second order Taylor expansion

Page 21: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Can we just use the gradient then?

natural gradient

Page 22: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Is this even a problem in practice?

(image from Peters & Schaal 2008)

Essentially the same problem as this:

(figure from Peters & Schaal 2008)

Page 23: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

Practical methods and notes

• Natural policy gradient• Generally a good choice to stabilize policy gradient training

• See this paper for details:• Peters, Schaal. Reinforcement learning of motor skills with policy gradients.

• Practical implementation: requires efficient Fisher-vector products, a bit non-trivial to do without computing the full matrix• See: Schulman et al. Trust region policy optimization

• Trust region policy optimization

• Just use the IS objective directly• Use regularization to stay close to old policy

• See: Proximal policy optimization

Page 24: Advanced Policy Gradientsrail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-9.pdfClass Notes 1. Homework 2 due today (11:59 pm)! •Don’t be late! 2. Homework 3 comes out this

generate samples (i.e.

run the policy)

fit a model to estimate return

improve the policy

Review

• Policy gradient = policy iteration

• Optimize advantage under new policy state distribution

• Using old policy state distribution optimizes a bound, if the policies are close enough

• Results in constrained optimization problem

• First order approximation to objective = gradient ascent

• Regular gradient ascent has the wrong constraint, use natural gradient

• Practical algorithms

• Natural policy gradient

• Trust region policy optimization

Contents...INTRODUCTION TO PROOFS: HOMEWORK SOLUTIONS STEVEN HEILMAN Contents 1. Homework 1 1 2. Homework 2 6 3. Homework 3 10 4. Homework 4 16 5. Homework 5 19 6. Homework 6 21 7

Policy Gradients - BAIRrail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/lecture... · 2018-05-24 · Policy gradients suggested readings •Classic papers •Williams (1992). Simple

Model-Based Reinforcement Learningrail.eecs.berkeley.edu › deeprlcourse-fa17 › f17docs › lecture_9_model_based_rl.pdfLearning CS 294-112: Deep Reinforcement Learning Sergey Levine

Homework 5 solutions Homework 6 solutions Homework 10

Connections Between Inference and Controlrll.berkeley.edu/deeprlcourse/f17docs/lecture_11_control... · 2017. 10. 4. · Linearly solvable Markov decision problems: one framework

Homework Homework What research says about the value of homework

Introduction to Reinforcement Learningrail.eecs.berkeley.edu/deeprlcourse-fa18/static/slides/lec-4.pdfIntroduction to Reinforcement Learning CS 294-112: Deep Reinforcement Learning

Optimal Control, Trajectory Optimization, and Planningrll.berkeley.edu/deeprlcourse/docs/week_2_lecture... · 4. Nonlinear dynamics: differential dynamic programming (DDP) & iterative

DeepReinforcementLearningrll.berkeley.edu/deeprlcourse/docs/2015.08.26.Lecture01Intro.pdf · Deep!RL!Frontier 23 [KSH2012]!Krizhevsky,!Sutskever,!&!Hinton.,!ImageNetClassification"with"Deep"Convolutional"Neural"Networks,2012

Tensor ow Review Session - University of California, Berkeleyrll.berkeley.edu/deeprlcourse/f17docs/tf_review_session.pdf · Tensor ow Review Session Joshua Achiam UC Berkeley September

Deep Reinforcement Learning CS 294 - 112rll.berkeley.edu/deeprlcourse/docs/week_1_lecture_1_introduction.pdf · 1. Homework 1: Imitation learning (control via supervised learning)

Student Homework Planner | Homework Suite

Distributed RL - BAIRrail.eecs.berkeley.edu/deeprlcourse-fa18/static/slides/lec-21.pdf · – Distributed Prioritized Experience Replay (Ape-X) – Importance Weighted Actor-Learner

History of Homework No Homework Movement

Offline Homework - Marshall Cavendish · • Create new homework — 4 – 6 • Create New Homework from Personal Resources — 7– 11 Assign Homework • Assign Homework — 12-15

Supervised Learning of Behaviors - University of …rll.berkeley.edu/deeprlcourse/f17docs/lecture_2_behavior...Supervised Learning of Behaviors CS 294-112: Deep Reinforcement Learning

Homework Homework Homework Mandarin - Ying Li PE - ADRIAN

Class - XII Holiday Homework 2017bhatnagarinternationalschoolpv.in/.../2017/05/Class_12_hhw_2017.pdfClass - XII Holiday Homework 2017 ... Get the printout of the Investigatory project

emis.maths.adelaide.edu.auemis.maths.adelaide.edu.au/journals/EJC/Volume_11/PDF/v11i1r24.pdfClass-Uniformly Resolvable Group Divisible Structures II: Frames. Peter Danziger∗ Department

Deep Reinforcement Learning CS 294 - rail.eecs.berkeley.edurail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf · Prerequisites & Enrollment •All enrolled students must

Computational Photography - B3 Aggregationweb.media.mit.edu/~raskar/photo/2008/2008_B3TumblinAggregation06.pdfClass: Computational Photography, Advanced Topics Debevec, Raskar and

CLASS301 - Clover Sitesstorage.cloversites.com/.../documents/Class_301_student2.pdfCLASS!1014401! ! 2! Thebackbone!ofCLASS301is!basedonthefollowing!truth: !! Your!ministrywill!be!determinedbyyour!

Math homework help, chemistry homework help, statistics homework hep, physics homework help by onlinetutorsite

Exploration - Robot Learningrll.berkeley.edu/deeprlcourse/f17docs/lecture_13_exploration.pdfExploration and exploitation examples •Restaurant selection •Exploitation: go to your

Transfer and Multi-Task Learningrll.berkeley.edu/deeprlcourse/f17docs/lecture_15_multi_task_learning… · Transfer and Multi-Task Learning CS 294-112: Deep Reinforcement Learning

Warm-up Get out homework. Agenda Review Homework Continue Chapter 11 Homework

ONLINETUTORSITE.COM- Statistics Homework help,Chemistry Homework help,Math Homework help

Model-Based Reinforcement Learningrail.eecs.berkeley.edu/deeprlcourse-fa19/static/slides/...Class Notes 1. Homework 3 is out! Due next week •Start early, this one will take a bit

Markov Decision Processes and Solving Finite Problemsrll.berkeley.edu/deeprlcourse/docs/lec1.pdfMarkov decision processes: discrete stochastic dynamic programming.John Wiley & Sons,

HOPS Interventions - scred.k12.mn.us · homework assignment. The . Homework . Completion . ... Homework Management . ... Homework, Organization, and Planning Skills (HOPS) Interventions:

Economics Homework help, Finance Homework help

DCP 1172, Homework 2 1 Homework 4 for DCP-1172 (2005.01.11) This time, we have 3 different homework assignments. Homework assignment 4-1 (30%.) Homework

Class Composition: Socioeconomic Characteristics of ...liberalarts.utexas.edu/_files/kraley/ChoiRaleyMullerCRC08.pdfClass Composition: Socioeconomic Characteristics of Coursemates

HOMEWORK INTERVENTIONS 1 - University of Utahed-psych.utah.edu/.../homework-interventions.pdf · · 2015-02-09HOMEWORK INTERVENTIONS 1 Running Head: HOMEWORK INTERVENTIONS Homework

Supervised Learning of Behaviorsrail.eecs.berkeley.edu/deeprlcourse-fa18/static/slides/lec-2.pdfOther topics in imitation learning •Structured prediction •Inverse reinforcement