arXiv在2021年9月26日上传的论文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者来自新加坡NTU(南洋理工)。
强化学习(RL)需要定义和计算来解决优化和控制问题,这可能会损害其发展前景。将人的指导引入强化学习是提高学习性能的一种很有前途的方法,本文建立了一个基于人指导的强化学习框架。
所提出的是一种在强化学习过程中适应人指导的 优先经验重放(prioritized experience replay,PER) 机制,提高RL算法的效率和性能。为减轻人的繁重工作量,基于增量在线学习(incremental online learning)方法建立一个行为模型来模仿人。
作者设计了两个具有挑战性的自动驾驶任务来评估所提出的算法:一个是T-路口无保护左转,另一个是高速堵车。
最近强化学习引入深度神经网络提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能够处理高维环境表征和泛化等。
不过问题是环境和智体的交互比较低效率。为此引入人的指导,有3个途径:1)人的专家反馈,给行为打分(behavior score);2)人的干预,一般是reward shaping方法;3)人的演示,上下文中监督学习。
如图是本文方法的RL算法框架:
提出的基于人指导优先经验回放(PER)机制中,TDQA表示提出的优先计算方案,即Time Difference Q-advantage,数字1-4表示数据的流向顺序,动作信号的虚线表示该框架允许间歇性的人在环(human-in-the-loop )的指导。
强化学习基于离散MDP来定义交互过程,这里采用不带策略的AC(actor- critic)架构。策略函数(即 actor )最大化价值函数Q,Q来自累计的未来reward,基于一个Bellman价值函数(即 critic )。
这个Bellman 价值函数只对最优策略进行评估,而不管执行交互的策略。 因此,RL 将策略评估过程和策略行为解耦,这使智体以一种不带策略的方式更新状态。
作者用神经网络作为函数逼近来制定actor和 critic,然后可以通过损失函数实现目标。
传统上,缓冲区存储的经验服从均匀分布,用均匀随机抽样从缓冲区获取批量经验,用于 RL 训练。在有限经验重放机制中,经验受制于非均匀分布,实际优先级取决于TD误差(temporal difference error)。
较大的 TD误差表明,经验值得在更高程度上学习。 因此,基于 TD误差的优先经验回放(PER)机制可以提高 RL 的训练效率。
在强化学习的训练中,采用了两种人指导的行为方式:干预和演示。
干预 :人的参与者识别 RL 交互场景,并根据先验知识和推理能力确定是否应该进行指导。 如果人参与者决定进行干预,可以操纵设备从 RL 智体(部分或全部)获得控制权。 干预通常发生在 RL 智体做灾难性操作或陷入局部最优陷阱。 因此,RL 可以学会避免干预出现的不利情况。
演示 :当干预事件发生时,人的参与者会执行行动,产生相应的奖励信号和下一步状态。 生成的转换组(transition tuple)可以看作是一段演示数据,因为是由人策略而不是 RL 行为策略造成的。 RL 算法可以从演示中学习人的专家行为。
在 RL 智体与环境的标准交互中,RL 的行为策略会输出探索环境的动作。一旦动作被发送到环境,交互的转换组将被记录并存储到经验重放缓存(buffer)。 特别注意的是,来自人的策略和 RL 策略的操作存储在同一个缓冲区中。
由于先验知识和推理能力,人的演示通常比 RL 行为策略的大多数探索更重要。 因此,需要一种更有效的方法来加权缓存的专家演示。 文中采用一种 基于优点的度量( advantage-based measure ) ,而不是传统的优先经验重放(PER) TD 误差,以建立优先专家演示重放机制。
除了TD 误差度量外,该优点度量(因为基于Q计算,故称为 QA ,即 Q-advantage )也评估应该在多大程度去检索特定的专家演示转换组。通过 RL 训练过程,RL 智体的能力发生变化,一个专家演示转换组的优先级也随之变化,这就产生了动态优先机制。整个机制称为 TDQA ,把两个度量组合成一个对人的指导测度。
优先机制引入了对价值函数期望估计的偏差,因为它改变了缓存中的经验分布。 有偏的价值网络对强化学习渐近性影响不大,但在某些情况下可能会影响成熟策略的稳定性和鲁棒性。 作为可选操作,可以通过引入重要性采样(importance-sampling )权重到价值网络的损失函数,来退火偏差。
下面讨论人的参与者在 RL 训练环的行为:人的参与者可以干预该过程获得控制权,并用专家行动替代 RL 智体行动;由于持续重复训练情节和未成熟的 RL 策略,人的参与者在训练过程中不断进行演示显得很乏味,因此间歇性干预(intermittent intervention)成为更可行的解决方案。 这种情况下,人参与者只会干预那些关键场景(灾难行为或陷入局部最优)拯救 RL 智体并延长训练时间。
这里采用reward shaping方法,可防止 RL 陷入那些人为干预的状态。 然而,它仅在一个人为干预事件的第一时间触发惩罚。 这背后的原理是,一旦人的参与者获得控制权,其专家演示会惯性地持续一段时间,这里只有最初的场景被确认为关键场景。
下面把上述组件集成在一起,即优先人在环( Prioritized Human-In-the-Loop,即PHIL ) RL。具体来说,通过基于人指导的actor- critic框架,配备优先专家演示重放和基于干预的reward shaping 机制来获得整体的人在环 (human-in-the-loop)RL 配置。 基于不带策略 RL 算法,即双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),来实例化这个 PHIL 算法。 上述组件适用于各种 不带策略的 actor-critic RL 算法。
最后,整个PHIL-TD3算法总结如下所示:
结合前面的PHIL-RL,需要一个人的策略模型。该模型通过模仿实际人参与者的行为策略,来减轻人在环 RL 过程的工作量。
虽然人参与者进行 PHIL-RL 对提高性能最有帮助,但过度参与会使人疲劳。 作者训练了一个回归模型,与 RL 运行同时模仿人类策略,这个策略模型在必要时可以替代人。
分析一下RL 训练过程的人行为:人类干预间歇性地施加到环中,人演示逐渐补充到训练集(缓存)中;考虑到这一点,利用在线-和基于增量-的模仿学习算法(即Data Aggregation,DAgger)训练人策略模型,该算法不受离线大规模演示数据的收集影响。
注意:如果使用这个人策略模型与 PHIL 合作,模型的激活条件将根据特定环境手动定义。
下面讨论如何应用在自动驾驶场景:选择端到端问题的两个应用,即T-路口无保护左转和高速堵车。
如图是自动驾驶任务的环境配置: a 在 CARLA 建立的 T -路口设计的无保护左转场景; b 左转场景鸟瞰图,红色虚线表示左转轨迹; c 设计的在 CARLA 建立的高速公路拥堵场景; d 拥堵场景的鸟瞰图,其中红色虚线表示跟车轨迹。
T-路口无保护左转 :小路的自车试图左转并汇入主干道,路口没有交通信号引导车辆;假设自车的横向路径由其他技术规划,而纵向控制分配给 RL 智体;周围车辆以 [4, 6] m/s 范围随机的不同速度进行初始化,并由intelligent driver model (IDM) 控制执行车道保持行为;所有周围的驾驶员都具有侵略性,这意味着他们不会让路给自车;所有车辆的控制间隔设为 0.1 秒。
高速拥堵 :自车陷入严重拥堵并被其他车辆紧紧包围; 因此它试图缩小与领先车的差距,并以目标速度进行跟车;假设纵向控制由 IDM 完成,目标速度为 6m/s,而横向控制分配给 RL 智体;周围车辆初始化速度范围为 [4, 6] m/s,并由 IDM 控制以执行跟车行为;所有车辆的控制间隔设置为 0.1 秒;拥挤的周围车辆覆盖了车道标记,而自车道没有特定的前车,在这种情况下可能导致传统的横向规划方法无效。
下面定义RL的状态
RL的动作对两个场景是不同的:
T-路口左转
高速拥堵
奖励(reward)对两个场景也是不同的:
T-路口左转
高速
价值和策略函数的近似采用Deep CNN,如图所示:a)策略函数;b)价值函数
辅助函数:主要做车辆控制;当RL操纵方向盘时,纵向控制由IDM实现;当 RL 操纵踏板缝隙时,横向运动目标是通过比例积分 (PI) 控制器跟踪规划的航路点。
实验比较的基准算法是:
- IA-TD3:Intervention Aided Reinforcement Learning (IARL)
- HI-TD3:Human Intervention Reinforcement Learning (HIRL)
- RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
- PER-TD3:vanilla Prioritized experience replay (PER)
RL训练和推理的实验工作流如图(a-b)所示:
训练 硬件包括驾驶模拟器和高性能工作站。驾驶模拟器用于收集人驾驶数据以训练人的策略模型,工作站专门处理 RL 训练。 采用高保真自动驾驶仿真平台 CARLA来实现驾驶场景并生成RL-环境交互信息。
测试 硬件是机器人车辆。训练后的RL策略在车辆的计算平台上实现,通过无线网络与CARLA服务器进行通信。车载 RL 策略从 CARLA 接收状态信息并将其控制命令发回,远程操作完成自动驾驶任务。机器人车辆旨在测试 RL 策略在当前车载计算和通信情况下是否有效。
部分实验结果比较如下:
作者提出了一种算法 PHIL-TD3,旨在提高人在环 (human-in-the-loop )RL 的算法能力。 另外,引入了人的行为建模机制来减轻人参与者的工作量。 PHIL-TD3 解决两个具有挑战性的自动驾驶任务,即无保护T-路口左转和高速拥堵。