Recoleta Item Note

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

O3N提出了首个纯视觉、端到端的全景开放词汇3D占据预测框架，目标是在单张360°图像下同时重建几何与可扩展语义。它重点解决全景畸变、长程上下文建模和未见类别语义对齐问题，并在QuadOcc与Human360Occ上达到SOTA。

open-vocabulary-occupancyomnidirectional-perception3d-scene-understandingmambaembodied-perception

Summary

O3N提出了首个纯视觉、端到端的全景开放词汇3D占据预测框架，目标是在单张360°图像下同时重建几何与可扩展语义。它重点解决全景畸变、长程上下文建模和未见类别语义对齐问题，并在QuadOcc与Human360Occ上达到SOTA。

提出O3N：输入单张全景RGB图像和类别文本，直接预测开放词汇3D occupancy，是论文声称的首个该任务的纯视觉端到端框架。
用**Polar-spiral Mamba (PsM)**在极坐标/柱坐标体素上做螺旋扫描与双分支建模，简单说就是按更符合360°几何的顺序聚合近到远的信息，并与笛卡尔体素融合，提升长程上下文和空间连续性建模。
用**Occupancy Cost Aggregation (OCA)**先计算“体素特征和文本特征有多匹配”的代价体，再做空间聚合和类别聚合，而不是直接硬对齐离散特征，以减轻开放词汇过拟合。
用**Natural Modality Alignment (NMA)**做无梯度文本-原型对齐：把文本嵌入和由像素特征得到的语义原型反复融合，得到更一致的共享语义空间，缓解pixel/voxel/text模态鸿沟。
框架可建立在MonoScene、SGN等占据网络上训练，损失由语义占据监督、voxel-pixel对齐和OCA损失组成。

在QuadOcc上，论文称相对baseline带来 +2.21 mIoU 和 +3.01 Novel mIoU 提升。
在Human360Occ上，论文称相对baseline带来 +0.86 mIoU 和 +1.54 Novel mIoU 提升。
图1给出的QuadOcc结果显示，O3N达到 16.54 mIoU、21.16 Novel mIoU，并宣称为该基准上的SOTA。
论文声称在QuadOcc和Human360Occ两个全景占据基准上均优于现有开放词汇占据方法，并且超过部分全监督方法。
数据设置上，QuadOcc把 vehicle/road/building 设为novel classes，占总体体素约 68%；Human360Occ把7个类设为novel，占约 75%，说明评测具有较强开放词汇难度。
摘要还声称具备显著的跨场景泛化与语义可扩展性，但在给定摘录中未提供更细的分数据集/分模型完整表格数值。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.