Recoleta Item Note

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

DeepEarth提出了一个自监督多模态世界模型,并引入Earth4D这一行星尺度的4D时空位置编码器,用统一表示学习地球观测数据。其核心主张是:仅靠时空坐标与少量元数据,就能在生态预测任务上超过使用更多模态和更大预训练数据的基线模型。

world-modelself-supervised-learningmultimodal-learningspatiotemporal-encodingearth-observation

DeepEarth提出了一个自监督多模态世界模型,并引入Earth4D这一行星尺度的4D时空位置编码器,用统一表示学习地球观测数据。其核心主张是:仅靠时空坐标与少量元数据,就能在生态预测任务上超过使用更多模态和更大预训练数据的基线模型。

  • 现有地球观测/世界模型很难同时在全球范围、长时间跨度、高空间时间精度下表示连续的4D时空信息。
  • 多模态地球数据(图像、文本、传感器、遥感)分布复杂,若缺少强时空归纳偏置,统一建模与预测会受限。
  • 这很重要,因为生态预测与灾害风险评估(如野火相关的植被含水量)依赖对“哪里、什么时候会发生什么”的准确建模。
  • 提出Earth4D:把传统3D多分辨率哈希编码扩展到4D,通过4个可并行的3D网格(xyz, xyt, yzt, xzt)来近似建模(latitude, longitude, elevation, time)的联合时空结构。
  • 每个网格使用多分辨率哈希表,从而在固定内存预算下覆盖行星尺度、跨世纪的空间与时间,并声称可达到亚米级、亚秒级精度。
  • DeepEarth将Earth4D时空嵌入与模态编码器(如视觉/语言编码器)的输出融合成token,在自编码器上下文窗口中进行masked reconstruction式自监督训练,学习联合分布并支持生成式重建/模拟。
  • 为缓解哈希冲突,作者加入learned hash probing,让模型从候选索引中学习更优的哈希分配,提升表示效率与下游性能。
  • Globe-LFMC 2.0生态预测基准上,Earth4D用于Live Fuel Moisture Content预测达到MAE 11.7pp、RMSE 18.7pp、R² 0.783
  • 对比基线Galileo (pre-trained):其输入包含遥感影像+天气+地形+(x,y,z,t)+species type,结果为MAE 12.6pp、RMSE 18.9pp、R² 0.72;Earth4D仅用**(x,y,z,t)+species name**仍然更好。
  • 测试集规模为13,297个样本;图中报告绝对误差中位数 7.1pp,并展示了2017–2023时间段内对季节变化的良好跟踪。
  • 消融显示:不使用learned probing的标准哈希编码为RMSE 26.0pp、MAE 16.6pp、R² 0.58;加入learned probing后提升到RMSE 18.7pp、MAE 11.7pp、R² 0.783,即MAE降低29.5%R²提升35.0%
  • 极限压缩版从800M参数降到5M参数99.3%减少,哈希容量2^14),仍达到MAE 15.0pp / R² 0.668,相对800M无探测基线R²高14.7%,并带来4×训练提速93%内存降低
  • 附录还声称,在RGB重建任务上,learned probing使验证损失再降18%;并将性能增益归因于1M点模拟下哈希冲突降低33%
Built with Recoleta

Run your own research radar

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.