Recoleta Item Note

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

DeepEarth提出了一个自监督多模态世界模型，并引入Earth4D这一行星尺度的4D时空位置编码器，用统一表示学习地球观测数据。其核心主张是：仅靠时空坐标与少量元数据，就能在生态预测任务上超过使用更多模态和更大预训练数据的基线模型。

world-modelself-supervised-learningmultimodal-learningspatiotemporal-encodingearth-observation

Summary

提出Earth4D：把传统3D多分辨率哈希编码扩展到4D，通过4个可并行的3D网格（xyz, xyt, yzt, xzt）来近似建模(latitude, longitude, elevation, time)的联合时空结构。
每个网格使用多分辨率哈希表，从而在固定内存预算下覆盖行星尺度、跨世纪的空间与时间，并声称可达到亚米级、亚秒级精度。
DeepEarth将Earth4D时空嵌入与模态编码器（如视觉/语言编码器）的输出融合成token，在自编码器上下文窗口中进行masked reconstruction式自监督训练，学习联合分布并支持生成式重建/模拟。
为缓解哈希冲突，作者加入learned hash probing，让模型从候选索引中学习更优的哈希分配，提升表示效率与下游性能。

在Globe-LFMC 2.0生态预测基准上，Earth4D用于Live Fuel Moisture Content预测达到MAE 11.7pp、RMSE 18.7pp、R² 0.783。
对比基线Galileo (pre-trained)：其输入包含遥感影像+天气+地形+(x,y,z,t)+species type，结果为MAE 12.6pp、RMSE 18.9pp、R² 0.72；Earth4D仅用**(x,y,z,t)+species name**仍然更好。
测试集规模为13,297个样本；图中报告绝对误差中位数 7.1pp，并展示了2017–2023时间段内对季节变化的良好跟踪。
消融显示：不使用learned probing的标准哈希编码为RMSE 26.0pp、MAE 16.6pp、R² 0.58；加入learned probing后提升到RMSE 18.7pp、MAE 11.7pp、R² 0.783，即MAE降低29.5%、R²提升35.0%。
极限压缩版从800M参数降到5M参数（99.3%减少，哈希容量2^14），仍达到MAE 15.0pp / R² 0.668，相对800M无探测基线R²高14.7%，并带来4×训练提速与93%内存降低。
附录还声称，在RGB重建任务上，learned probing使验证损失再降18%；并将性能增益归因于1M点模拟下哈希冲突降低33%。

Built with Recoleta

Turn arXiv, Hacker News, OpenReview, Hugging Face Daily Papers, and RSS into local Markdown, Obsidian notes, Telegram digests, and a public site.