Recoleta Item Note

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

本文提出一种面向自动驾驶的运动学感知潜在世界模型,在Dreamer/RSSM式世界模型中显式注入车辆物理状态与几何监督,以提高数据效率和长时想象质量。核心思想是让潜在状态不仅重建像素,还要编码对驾驶决策关键的车道与邻车结构。

autonomous-drivingworld-modelrssmmodel-based-rlkinematics-aware

本文提出一种面向自动驾驶的运动学感知潜在世界模型,在Dreamer/RSSM式世界模型中显式注入车辆物理状态与几何监督,以提高数据效率和长时想象质量。核心思想是让潜在状态不仅重建像素,还要编码对驾驶决策关键的车道与邻车结构。

  • 自动驾驶中的强化学习数据成本高、真实交互有安全风险,而纯模型自由方法通常需要大量环境步数才能收敛。
  • 现有像素驱动世界模型虽然能做潜在空间想象,但常缺少对空间几何和车辆运动学的显式约束,导致长时预测不稳定、物理一致性不足。
  • 这很重要,因为闭环驾驶决策依赖对车道边界、相对朝向、邻车位置与速度的准确表征,而这些关键信息在图像中只占很小部分。
  • 基于RSSM/DreamerV3构建世界模型:输入前视相机图像和5维车辆物理量(速度、转角、历史动作、横摆率),分别经CNN和MLP编码后拼接成观测嵌入。
  • 用RSSM学习潜在动力学,在潜在空间中同时预测重建、奖励和继续信号,并通过想象轨迹训练actor-critic策略,无需每步都与真实环境交互。
  • 加入车道监督头,预测左右车道边界距离和相对车道航向角;加入邻车监督头,预测最多3辆周围车辆的相对位置与相对速度。
  • 这些辅助头只在训练时使用,其梯度反向约束潜在状态,使潜在表示更符合几何结构和交互语义,而不是只优化像素重建。
  • 在MetaDrive仿真中,作者方法在80,000真实交互步内达到接近200 return的稳定高回报;对比PPO需要300,000步,且收敛水平仍低于150
  • 消融中,ImgOnly的平均回报/成功率为176.5 / 0.17;加入车道和邻车监督后(Img+Head)提升到193.6 / 0.33,即平均回报约提升9.7%、成功率提升16个百分点
  • 完整模型Img+Head+Phys达到217.2 / 0.49;相对Img+Head平均回报再提升约12.2%,相对ImgOnly总提升约23.1%
  • 去掉奖励/继续头但保留物理输入和几何头时,性能降到172.6 / 0.18,说明奖励与终止建模对策略学习也很关键。
  • 定性结果显示,ImgOnly会产生模糊邻车位置和错误车道线类型;完整模型可生成更稳定、物理合理的想象轨迹,并更好保留邻车与车道语义。
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.