HyperAI超神经

SphereDiff:通过球形潜在表示无调优生成全向全景图像和视频

Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo
发布日期: 4/23/2025
SphereDiff:通过球形潜在表示无调优生成全向全景图像和视频
摘要

随着AR/VR应用需求的不断增加,高质量360度全景内容的生成变得尤为重要。然而,由于等距柱状投影(equirectangular projection, ERP)引入的严重失真,生成高质量的360度全景图像和视频仍是一项具有挑战性的任务。现有的方法要么在有限的ERP数据集上微调预训练的扩散模型,要么尝试无需微调的方法,但这些方法仍然依赖于ERP潜在表示,导致在极点附近出现不连续现象。本文中,我们介绍了一种名为SphereDiff的新方法,该方法利用最先进的扩散模型无缝生成360度全景图像和视频,无需额外调整。我们定义了一种球形潜在表示,确保所有视角上的分布均匀性,从而减轻ERP固有的失真问题。我们将MultiDiffusion扩展到球形潜在空间,并提出了一种球形潜在采样方法,以实现预训练扩散模型的直接应用。此外,我们引入了失真感知加权平均法,在投影过程中进一步提升生成质量。我们的方法在生成360度全景内容时不仅优于现有方法,并且保持了高保真度,使其成为沉浸式AR/VR应用的一个稳健解决方案。代码可在以下链接获取:https://github.com/pmh9960/SphereDiff