HyperAI超神经
10 days ago

LangScene-X:利用TriMap视频扩散重建可泛化的3D语言嵌入场景

Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
LangScene-X:利用TriMap视频扩散重建可泛化的3D语言嵌入场景
摘要

从2D图像中恢复具有开放词汇场景理解的3D结构是一项基础但极具挑战性的任务。近期的研究通过在每个场景中嵌入语言信息进行优化,已经取得了这一目标的进展。然而,这些方法严重依赖于校准的密集视角重建范式,因此在视角有限的情况下,会遭受严重的渲染伪影和不合理的语义合成问题。本文中,我们介绍了一种新颖的生成框架——LangScene-X,用于统一并生成3D一致的多模态信息以实现重建和理解。借助生成能力创建更加一致的新观察结果,我们可以仅从稀疏视角构建可泛化的3D语言嵌入场景。具体而言,我们首先训练了一个TriMap视频扩散模型,该模型可以通过逐步知识整合从稀疏输入生成外观(RGB)、几何(法线)和语义(分割图)。此外,我们提出了一种语言量化压缩器(Language Quantized Compressor, LQC),该压缩器在大规模图像数据集上训练,能够高效地编码语言嵌入,从而无需对每个场景重新训练即可实现跨场景泛化。最后,我们通过将语言信息对齐到3D场景的表面来重建语言表面场,从而支持开放式的语言查询。大量实验证明,在真实世界数据上,我们的LangScene-X在质量和泛化能力方面优于现有最先进方法。项目页面:https://liuff19.github.io/LangScene-X。