Recoleta Item Note

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

ShareVerse提出一种面向多智能体共享世界建模的视频生成框架，让多个独立体从各自视角生成彼此一致的同一世界。它结合CARLA构建的新数据集、四视角拼接和跨智能体注意力，在视频层面实现多视角几何一致与跨智能体世界一致。

world-modelmulti-agent-video-generationshared-world-modelingvideo-diffusioncarla-simulation

Summary

基于CARLA构建大规模双智能体同步数据集：每个智能体有前/后/左/右四个相机，覆盖多场景、多天气、六类交互轨迹，最终得到55,000对视频，并把长视频切成49帧训练片段。
把每个智能体的四路视频做空间拼接，相当于让模型一次看到该智能体的360°环境，从而更容易保持该智能体内部的多视角几何一致性。
将相机内参与位姿转成raymap嵌入，作为相机轨迹条件输入视频扩散模型，使生成受控于相机运动而不是只依赖首帧。
在预训练CogVideoX中加入cross-agent attention：把两个智能体的视频特征拼接后做注意力交互，让它们交换时空与位置信息，从而在重叠区域保持一致，并在非重叠区域根据历史信息合理生成。
整体模型支持49帧、480×720的视频生成，训练于CogVideoX-5B-I2V基础上。

在作者构建的未见场景验证集上，方法达到：PSNR 20.76、SSIM 0.6656、LPIPS 0.2791，用于评估与真值配对帧的一致性与重建质量。
在VBench上报告的生成质量指标为：Aesthetic 0.4480、Imaging 0.6468、Temporal Flickering 0.9490、Motion Smoothness 0.9745、Subject Consistency 0.8913、Background Consistency 0.9312。
论文没有提供与现有公开基线方法的直接数值对比表；更强的具体主张是：其方法能在双智能体共享世界中同时保持单体四视角内部一致和跨智能体场景一致。
定性结果声称模型能准确感知其他智能体的动态位置；当改变另一智能体轨迹或修改地图建筑时，生成结果会随之同步变化，表明存在跨智能体信息共享。
消融实验的结论是：四视角训练优于单视角、raymap优于直接使用原始相机参数、cross-agent attention对交互生成至关重要，但摘要摘录中未给出对应消融数值。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.