通过跨模态注意力机制实现对齐的新视角图像和几何合成
Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
发布日期: 6/16/2025

摘要
我们介绍了一种基于扩散的框架,该框架通过一种变形与修复(warping-and-inpainting)的方法实现对齐的新视角图像和几何生成。与以往需要密集姿态图像或仅限于域内视角的姿态嵌入生成模型不同,我们的方法利用现成的几何预测器从参考图像中预测部分几何结构,并将新视角合成问题表述为图像和几何的修复任务。为了确保生成的图像与几何之间的准确对齐,我们提出了跨模态注意力蒸馏技术,即在训练和推理过程中,将图像扩散分支中的注意力图注入到并行的几何扩散分支中。这种多任务方法实现了协同效应,有助于实现几何鲁棒的图像合成以及明确的几何预测。我们进一步引入了基于邻近性的网格条件技术,以整合深度和法线线索,在点云之间进行插值,并过滤掉错误预测的几何结构对生成过程的影响。实验证明,我们的方法在多种未见过的场景中实现了高保真的外推视角合成,无论是图像还是几何;在插值设置下也具有竞争力的重建质量,并能生成几何对齐的彩色点云,用于全面的3D补全。项目页面可访问 https://cvlab-kaist.github.io/MoAI。