confidence based autonomy: policy learning by demonstration manuela m. veloso thanks to sonia...

Confidence Based Autonomy:Policy Learning by

Demonstration

Manuela M. Veloso

Thanks to Sonia Chernova

Computer Science DepartmentCarnegie Mellon University

Grad AI – Spring 2013

Task Representation

• Robot state

• Robot actions

• Training dataset:

• Policy as classifier(e.g., Gaussian Mixture Model, Support Vector Machine)– policy action– decision boundary with greatest confidence for the query– classification confidence w.r.t. decision boundary

sensor data

),,(: dbp cdbasC

} ,...,1,:),{( niAaasD ii

},...,{: 1 kaaA

s ...1

Confidence-Based Autonomy Assumptions

• Teacher understands and can demonstrate the task

• High-level task learning– Discrete actions– Non-negligible action duration

• State space contains all information necessary to learn the task policy

• Robot is able to stop to request demonstration– … however, the environment may continue to change

Policy

No Yes

Confident Execution

s2 st…si…s4s3s1

Current State

RequestDemonstration

ExecuteAction

Relearn Classifier

ExecuteAction ad

),,( dbp cdba

Add Training Point (si, ad)

Demonstration Selection

• When should the robot request a demonstration? – To obtain useful training data– To restrict autonomy in areas of uncertainty

Fixed Confidence Threshold

• Why not apply a fixed classification confidence threshold?

– Example: conf = 0.5

– Simple– How to select good threshold value?

Confident Execution Demonstration Selection

• Distance parameter dist – Used to identify outliers and unexplored regions of state space

• Set of confidence parameters conf – Used to identify ambiguous state regions in which more than one

action is applicable

),( DsNND

Confident Execution Distance Parameter

• Distance parameter dist

))ˆ,ˆ((),(1

spdistMinDpNND

} ,...,1 ,:),{( niAaasD ii

Given state query , request demonstration ifs distDsNND ),(

Confident Execution Confidence Parameters

• Set of confidence

parameters conf – One for each decision

boundary

iconf M

} ,...,1 ,:),{( niAaasD ii

),,(: dbp cdbasC and classifier

}:))(,,,{( ipipiidb aasconfaasM db

Given state query , request demonstration ifsdbconfdb sconf )(

Policy

No Yes

Confident Executionsi

ExecuteAction

Relearn Classifier

ExecuteAction ad

),,( dbp cdba

)(dbdb confisconf

disti DsNND ),(or

CorrectiveDemonstration

Confidence-Based Autonomy

ConfidentExecution

Policy

No Yes

ExecuteAction

Relearn Classifier

ExecuteAction ad

),,( dbp cdba

Teacher

Relearn Classifier

Add Training Point (si, ac)

Evaluation in Driving Domain

Introduced byAbbeel and Ng, 2004

Task: Teach the agent to drive on the highway– Fixed driving speed– Pass slower cars and avoid collisions

current lanenearest car lane 1nearest car lane 2nearest car lane 3

merge left merge right stay in lane

actions

Evaluation in Driving Domain

Demonstration Selection Method

# Demonstrations Collision Timesteps

“Teacher knows best” 1300 2.7%

Confident Execution

fixed conf 1016 3.8%

Confident Execution

dist & mult.conf 504 1.9%

CBA 703 0%

CBA Final Policy

Demonstrations Over Time

Total DemonstrationsConfident ExecutionCorrective Demonstration

Summary

Confidence-Based Autonomy algorithm– Confident Execution demonstration selection – Corrective Demonstration

What did we do today?

• (PO)MDPs: need to generate a good policy– Assumes the agent has some method for estimating its state (given

current belief state and action, observation, where do I think I am now?)– How do we estimate this?

• Discrete latent states HMMs (simplest DBNs)• Continuous latent states, observed states drawn from Gaussian,

linear dynamical system Kalman filters– (Assumptions relaxed by Extended Kalman Filter, etc)

• Not analytic particle filters– Take weighted samples (“particles”) of an underlying distribution

• We’ve mainly looked at policies for discrete state spaces• For continuous state spaces, can use LfD:

– ML gives us a good-guess action based on past actions– If we’re not confident enough, ask for help!

confidence based autonomy: policy learning by demonstration manuela m. veloso thanks to sonia...

s s slide

d slide

demonstration manuela

d request demonstration

c slide

applicable slide

confident execution

cba final policy slide

Documents

learning equivalent action choices from demonstration (s. ...

faculty: manuela veloso, anthony stentz, alex rudnicky brett...

uav and service robot coordination for indoor object ... ·...

segway cmbalance robot soccer player - robotics...

;r a leÀo veloso - marxists internet archiver a leÀo...

turning segways into soccer...

multiagent learning using a variable learning ratemultiagent...

cs 378: autonomous intelligent...

aaai14 technical conference schedule monday, july 28 6:00...

letter of application - chernova natalya, msu

bote v veloso

cameo: meeting understanding prof. manuela m. veloso, prof....

mike manuela veloso phillips - cs.cmu.edu mellon university...

presidential-panelerichorvitz.com/aaai_asilomar_study.pdf ·...

robot-assisted machine shop safety aaron fineman prof sonia...

И.С. Чернова (Козлова) i.s. chernova...

dynamic user task scheduling for mobile robots brian coltin,...

visual sonar: obstacle detection for the aibo paul e. rybski...

anabel veloso flamenco company

manaloto v veloso iii