自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

释放双眼,带上耳机,听听看~!
了解自动驾驶汽车面临的核心挑战和多代理训练方法HR-PPO的效果,以及与人类相似性的改进,探讨在交通场景中的应用和优势。

AICMTY.com

自动驾驶汽车面临的一个核心挑战是如何与人类合作。因此,在模拟环境中,将现实中的人类代理纳入到自主驾驶系统的可扩展训练和评估中至关重要。模拟代理通常是通过模仿大规模、高质量的人类驾驶数据集来开发的。然而,纯粹的模仿学习代理在多代理闭环环境中执行时经验上具有较高的碰撞率。为了构建在闭环设置中既逼真又有效的代理,研究人员提出了一种名为
Human-Regularized PPO(HR-PPO)

的多代理方法,其中代理通过与一个人类参考策略做自我对弈训练,并对偏离人类参考策略的行为施加了小的惩罚。与以往的方法相比,该方法以强化学习为主,仅利用了30分钟的不完美人类示范数据。在大量的多代理交通场景的评估中,HR-PPO
代理在实现目标方面非常有效,成功率达到 93%,越出道路的比率为 3.5%,碰撞率为 3%。与此同时,HR-PPO
代理以类似人类驾驶的方式行驶,在与人类驾驶协调的代理指标上表现出相当大的改进,特别是在高度互动的情景中。

当前的驾驶模拟器提供了基本的交互代理 – 简单的车辆跟随模型、基于规则的代理、记录的人类驾驶日志或模仿学习代理。这些模型无法创建具有挑战性的协调场景,或者在闭环中具有高碰撞率。

自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

为了构建在闭环设置中既逼真又有效的代理,研究人员提出了Human-Regularized PPO (HR-PPO),一种多代理方法,通过自我对弈训练,并对偏离人类参考策略的行为施加了小的惩罚。

自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

方法

  • 步骤1:模仿学习

通过对人类驾驶示范进行模仿学习,获取人类参考策略。

  • 步骤2:引导自我对弈

自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

代理在多代理设置中进行训练,每个场景最多可容纳50个代理。目标函数如下:

自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

实验结果

在大量的多代理交通场景中,研究人员发现可以同时实现效果和逼真度。HR-PPO 代理在四种不同逼真度指标上实现了显著的人类相似性改进,同时达到了与 PPO 相似的性能水平。

自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

HR-PPO 代理在衡量与人类驾驶协调的代理指标上显示出相当大的改进,特别是在需要代理之间协调的高度互动场景中。在互动场景中,HR-PPO 在 PPO 的基础上提升了 20-40%。

自动驾驶汽车面临的核心挑战:多代理训练方法HR-PPO的效果与人类相似性改进

有趣的是,它们甚至表现出比直接在代理的测试分布上训练的代理更好的性能。这表明,多代理训练可能比单一代理训练提供了额外的好处。

为什么 HR-PPO 代理与人类驾驶日志更兼容呢?

  • HR-PPO 代理的驾驶风格类似于人类驾驶员,这使得它更容易适应人类驾驶日志的行为;
  • HR-PPO 代理与其他车辆保持更多距离,从而降低了碰撞的风险。

译自(有删改):https://sites.google.com/view/driving-partners

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

谷歌Cloud Next2024大会发布Gemini1.5Pro和Axion,AI超算平台升级,开启多模态文件分析新时代

2024-4-10 15:38:22

AI资讯

Google Vids:AI视频工具助力轻松创作个性化宣讲视频

2024-4-10 16:24:16

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索