augmented random search - cse.buffalo.eduavereshc/rl_spring20/...augmented random search presenters:...

Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning – CSE 510

Upload: others

Post on 23-Jul-2020

1 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Augmented Random Search

Presenters:

1. Gautam Suryawanshi

2. Prajit Krisshna Kumar

Reinforcement Learning – CSE 510

Page 2: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Model free RL algorithms

• Gives solutions for controlling dynamical systems without need of actual physical models

• This systems successfully learn to play video games or games like GO and chess

• Not deployed in real world physical systems

Page 3: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Problems

• We need to find a best method

• Studies indicated that several RL methods are not robust to changes in parameters.

• Small change affects them a lot

• Is not trustable to deploy in real world that needs to control 100s of motors

Page 4: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

New directions

• Evolution Strategies – derivative free optimization method, parallelized training

• Natural policy gradients for training linear policies

• ARS is combination of both

Page 5: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

History

• Published in March, 2018 by a team from University at California, Berkeley

• ARS is enhanced version of Basic random search

BRS:

• Policy = π𝜃

• We add +𝛎𝜹 and -𝛎𝜹 to existing policy(v<1 and it is noise) 𝜹 is random number from normal distribution

• Apply the actions and get the rewards

• Update the policy using 𝜃ʲ⁺¹ = 𝜃ʲ + 𝝰.Δ

• Where Δ = 1/N * Σ[r(𝜃+𝛎𝜹) - r(𝜃-𝛎𝜹)]𝜹

Page 6: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Page 7: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Motivation

One of the most mind-blowing algorithms in reinforcement learning,

Up to 15 TIMES FASTER than other algorithms with higher rewards in specific applications.

Does not require Deep Learning.

Page 8: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Algorithm

Page 9: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Simplified Explanation

• Add Random Noise(𝛿) to the weights ϴ.

• Run a test.

• If reward improves keep the weights.

• Otherwise discard.

Page 10: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Method of Finite Differences

• Generate a random noise(𝛿) of the same shape of the weights (ϴ)

• Clone two versions of our weights.

• Add the noise to ϴ[+], subtract from ϴ[-]

• Test both versions for one episode each, collect r[+] , r[-]

• Update the weights ϴ += α(r[+] – r[-]). 𝛿

• Test and repeat for maximum performance.

Page 11: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

• Generate num_deltas deltas and evaluate positive and negative.

• Run num_deltas episodes with positive and negative variations.

• Collect rollouts as (r[+],r[-],delta) tuples.

• Calculate the standard deviation of all rewards.

• Sort the rollouts by maximum reward and select the best num_best_deltas rollouts.

• Step = sum((r[+] – r[-])*delta ), for each best rollout.

• Theta += learning_Rate/(num_best_deltas*sigma_rewards)*step

• Evaluate: play an episode with the new weights to measure improvement.

Training Loop

Page 12: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Results

• Episode 1

Page 13: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Results

• Episode 1000

Page 14: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Comparison with DDPG

• At 1000 episode

Page 15: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Comparison with PPO

• At 1000 episode

Page 16: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Page 17: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Comparing rewards

ARS DDPG PPO

Page 18: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

• Time for ARS to run : 5630 seconds

• Time for PPO to run : 2142 seconds

• Time for DDPG to run : 9270 seconds

Page 19: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Humanoid

Page 20: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Bipedal Walker

Page 21: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

Results of Swimmer

Page 22: Augmented Random Search - cse.buffalo.eduavereshc/rl_spring20/...Augmented Random Search Presenters: 1. Gautam Suryawanshi 2. Prajit Krisshna Kumar Reinforcement Learning –CSE 510

References1. https://towardsdatascience.com/introduction-to-augmented-random-

search-d8d7b55309bd

2. https://arxiv.org/pdf/1803.07055.pdf)

3. Codes for DDPG and PPO from https://github.com/Anjum48/rl-examples/

https://towardsdatascience.com/introduction-to-augmented-random-search-d8d7b55309bd

https://arxiv.org/pdf/1803.07055.pdf

Augmented Reality in Education at Augmented Reality Planet November 2014

AUGMENTED REALITY Case Study AUGMENTED REALITY

The Emergence of Augmented Reality in Orthopaedic Surgery ... · PDF fileThe Emergence of Augmented Reality in Orthopaedic ... Augmented Reality in Orthopaedic Surgery ... augmented

AWS DeepRacer - cse.buffalo.eduavereshc/rl_spring20/Raunaq_Jain_Bipul_Kumar_Joseph_Naro.pdfIntroduction AWS DeepRacer is a platform to teach reinforcement learning. To start with,

AUGMENTED AND VISUAL REALITY. WHAT IS AUGMENTED AND VISUAL REALITY?

Augmented experience: Augmented Reality

Augmented and Virtual Reality - Massachusetts Institute of ...groups.csail.mit.edu/.../2017-fall/5-augmented-reality.pdf · Augmented Reality (AR) mixed reality real environment augmented

Augmented Realitycourses.ischool.berkeley.edu/.../system/files/Augmented+Reality.pdf · Difference [nguyen, today, tuiClass] Both Tangible User Interface (TUI) and Augmented Reality

Augmented Construction - Projektakademien · Augmented Construction Developing a framework for implementing Building Information Modeling through Augmented Reality at construction

iBetelgeuse: an Augmented Reality Browser for iPhone · 1.1 Augmented reality In augmented reality, the real world is augmented with artiﬁcial data by means of an augmented reality

Augmented Reality and Marketing - NVISION · 5 | Augmented Reality and Marketing 3 ESSENTIAL PARTS TO AN AUGMENTED REALITY EXPERIENCE The 3 Essential Parts to an Augmented Reality

Augmented Scale Patterns #1 (Bass Clef)...Augmented Scale Patterns #1 For Bass Clef Instruments F,' A, C# Augmented Scale E, G#, C Augmented Scale Eb, B Augmented Scale D, F#, Bb Augmented

Augmented Reality or Augmented Space?

Augmented and Mixed Reality - oamk.fi · Project “AR4BC” Augmented Reality for Building and Construction ... Augmented Reality + Augmented Virtuality ... CATIA -> STEP -> Reduced

Towards Pervasive Augmented RealityTowards Pervasive Augmented Reality ... c

Hand Orientation Regression using Random Forest for … · 2020-05-09 · Hand Orientation Regression using Random Forest for Augmented Reality Muhammad Asad and Greg Slabaugh City

Random I Random II Random III Random IV Random V

Augmented twitter - open, mobile social augmented reality via ARwave

Augmented Reality for Smartphones - 123seminarsonly.com · Augmented Reality for Smartphones TechWatch Report Introduction to Augmented Reality in Smartphones Page 2 Augmented Reality

Towards Augmented Fabrication: Combining Fabricated and ...fetlab.rit.edu/publications/2016-Towards Augmented Fabrication.pdf · Towards Augmented Fabrication: Combining Fabricated

Strategic Customer Innovation Augmented Reality …...Strategic Customer Innovation Augmented Reality Soccer Featured Technologies ConversationalAI Augmented Reality Instant Messaging

Enrich life with Augmented Reality UI of the Future What is Augmented Reality? z Reality Virtual Reality Augmented Reality • By definition, Augmented Reality means augmenting the

Augmented Reality And Augmented Reality Applications

Portable Projection-Based Augmented Realitystanford.edu/class/ee367/Winter2016/Padmanaban_Report.pdfPortable Projection-Based Augmented Reality ... creating augmented reality systems

Augmented Reality and Augmented Telepresence Visualization ... · Augmented Reality and Augmented Telepresence Visualization for Industrial Automation Tyson Stolarski ... Abstract

Mixed Augmented Reality Functions Extension in X3D Augmented Reality (MAR... · Mixed Augmented Reality Functions Extension in X3D 12 Jan. 2016 MAR WG, Web3D Consortium. ... Augmented

NBN Ready Augmented Reality Using Augmented Reality in vocational training

Emerging Uses for Augmented Reality › ... › 04 › Emerging-Uses-of-AR_VR-HN… · Emerging Uses for Augmented Reality. 1. Augmented Reality. 2. ALTERNATIVE REALITIES. Augmented

Augmented packaging for improved medicine complianceshura.shu.ac.uk/12626/1/D4H_Yoxall_et_al.pdf · Augmented packaging for improved medicine compliance ... Augmented Packaging for

Augmented Reality - Theorem Solutions Solutions... · Theorem’s Visualization Experience for Augmented Reality runs on Microsoft’s ... • Marketing Digital Realities: Augmented

Collaborative Augmented Reality - Maynooth Universityeprints.maynoothuniversity.ie/5344/1/Mimaroglu Onur.pdf · developers of collaborative augmented reality applications. 1.1. Augmented

UB PowerPoint Presentation - University at Buffaloavereshc/rl_spring20/Srisai_Karthik... · Motivation • Autonomous agents can be of great help to humans in a variety of hazardous

An Investigation of Using Random Dot Patterns to Achieve X ... · Augmented Reality Displays . Sanaz Ghasemi Doctor of Philosophy Department of Mechanical and Industrial Engineering

AR - TLC Augmented Reality big2 · Augmented Reality CREATIVE TECHNOLOGY . Augmented Reality Augmented reality allows attendees to view hidden computer-generated content via a marker

Augmented Reality SDKs And Augmented Commerce