8 天前

SceneSplat:基于视觉-语言预训练的高斯点云场景理解

Yue Li, Qi Ma, Runyi Yang, Huapeng Li, Mengjiao Ma, et al
SceneSplat:基于视觉-语言预训练的高斯点云场景理解
摘要

识别任意或此前未见过的类别对于实现全面的现实世界三维场景理解至关重要。目前,所有现有方法在训练阶段或推理阶段均依赖于二维图像或文本模态,甚至二者结合使用。这凸显出当前尚缺乏一种能够仅通过三维数据实现语义端到端学习的模型,同时也缺乏训练此类模型所需的必要数据。与此同时,三维高斯点阵(3D Gaussian Splatting, 3DGS)已逐渐成为各类视觉任务中三维场景表示的行业标准。然而,如何以一种通用且有效的方式将语义推理融入3DGS,仍是尚未解决的开放性挑战。为应对上述局限,我们提出SceneSplat,据我们所知,这是首个原生基于3DGS的大规模室内场景理解方法。此外,我们设计了一种自监督学习框架,能够从未标注的场景中挖掘丰富的三维特征表示。为支持上述方法的实现,我们构建了SceneSplat-7K——首个面向室内场景的大规模3DGS数据集,包含来自七个主流数据集(如ScanNet和Matterport3D)的7916个场景。生成SceneSplat-7K所消耗的计算资源相当于在L4 GPU上运行150个GPU天,从而为基于3DGS的室内场景推理提供了标准化的基准测试平台。我们在SceneSplat-7K上开展的全面实验表明,所提出的方法在性能上显著优于现有基准方法。