基于 1.3 万个视频片段，北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan，兼顾零样本视频编辑

7 个月前

全景视频是虚拟现实（VR）的重要内容形态之一，其以真实世界为基础，通过 360° 沉浸视角增强用户的代入感和互动体验，在内容生产、产业落地和用户普及等多个方面，为 VR 的发展提供了关键支撑。尽管如此，当前的全景视频制作通常需要依赖专业设备，这在很大程度上限制了内容创作的广泛性。

近年来，随着生成式视频模型的快速发展，研究人员也开始尝试将其应用于全景视频领域，从而降低全景内容创作的门槛，推动 VR 内容的大规模扩展，甚至助力构建高度沉浸的交互式虚拟世界。

然而，将传统的视频生成模型高效迁移到全景领域并非易事，其中的主要挑战是全景视频与普通视频在空间特征表征上存在根本性差异，例如等距矩形投影所带来的纬度方向上的画面变形，以及经度方向边界拼接造成的视觉与语义不连续性。因此，即使当前的文本到视频生成技术已经实现了出色的效果，也难以确保全景视频生成过程中场景内元素空间布局的一致性与连贯性。

针对这一关键挑战，北京大学相机智能实验室（施柏鑫团队）联合 OpenBayes 贝式计算，共同推出了基于文本引导的全景视频生成框架 PanoWan 。该方法以极简高效的模块架构，将预训练文本到视频模型的生成先验顺畅迁移至全景领域。为此，该方法设计了纬度感知采样技术，有效降低等距矩形投影引起的画面畸变；同时，通过旋转语义去噪与边界填充逐像素解码策略，解决了经度边界处视觉语义不连贯的问题。

此外，为了有效训练该模型，研究团队特别构建了一个高质量、大规模的全景视频数据集 PanoVid 。该数据集共收录超过 1.3 万个带有文字描述的视频片段，累计近千小时，涵盖自然风景、城市街景和人物活动等多样化场景。

实验结果充分表明，PanoWan 不仅在文本生成全景视频任务上取得了当前的最佳性能，还表现出强大的零样本视频编辑能力，无需额外训练即可胜任全景视频超分辨率增强、语义编辑以及视频内容外延等多个实用场景。

相关研究论文「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」现已发布于 arXiv 。

更多示例展示可访问项目主页：
https://panowan.variantconst.com/

大规模全景视频数据集 PanoVid

缺乏配对数据集一直是全景视频生成模型性能提升的主要阻碍之一。为解决数据稀缺的问题，研究团队构建了一个语义均衡、场景多样且高质量的大规模全景视频数据集 PanoVid 。该数据集汇聚了现有的多个全景视频资源，包括 360-1M 、 360+x 、 Imagine360 、 WEB360 、 Panonut360 、 Miraikan 360-degree Video Dataset，以及公开的沉浸式 VR 视频数据集等。

在初步采集后，研究团队利用 Qwen-2.5-VL 模型为视频自动生成高质量的文本描述，并为视频打上分类标签，且只保留等距投影（ERP）格式的视频。随后，为避免内容重复，团队采用基于描述相似度的去重策略，并进一步通过光流平滑度及美学评分对视频进行严格筛选，仅保留每个类别中的优质片段。

经过这一系列严格处理流程，PanoVid 数据集最终包含超过 1.3 万个视频片段，总时长约 944 小时，覆盖风景、街景、人物等丰富多样的场景。

PanoWan 技术要点：聚焦维度与经度层面

PanoWan 沿用了 Wan 2.1 模型的文生视频训练框架，旨在通过最小化的改动，将视频生成模型迁移到全景领域，同时最大程度保留原有模型的生成先验。为解决 ERP 格式带来的全景视频畸变问题，研究团队主要从纬度和经度两个层面着手。

其中，纬度方向，PanoWan 采用纬度感知采样（Latitude-aware Sampling, LAS）来缓解极地区域的纬度失真问题。这种方法通过重新映射噪声的分布，使其与球面实际的频率特性更加匹配，从而有效减少画面在纬度方向上的拉伸和扭曲。

经度方向，为解决生成结果中左右边界处的视觉与语义不连续问题，PanoWan 提出了旋转语义去噪（Rotated Semantic Denoising, RSD）与边界填充逐像素解码（Padded Pixel-wise Decoding, PPD）。前者通过潜空间内的旋转操作，将接缝误差均匀分布到不同经度，显著降低了语义过渡不一致的现象；后者通过扩展接缝区域的上下文，使解码器能够在解码过程中考虑到更多边界外的信息，有效地避免了像素级的边界割裂问题。

下图通过消融实验，直观展示了该工作所提出的纬度、经度机制的有效性。图像左上角展示了使用纬度感知采样方法后，原本容易发生明显畸变的天花板和灯带线条在透视视图下变得平直自然；而右下角的完整方法，结合了旋转语义去噪和边界填充逐像素解码，成功消除了图像边界区域的不连续性，过渡流畅自然。

PanoWan 效果展示

首先是最基础的文生全景视频，话不多说看效果。

Prompt: Panoramic shot of an active volcano spewing smoky plumes against a fiery sunset sky, majestic mountains shrouded in misty clouds in the foreground, creating a breathtaking contrast. Camera pans slowly, capturing the vastness and awe-inspiring beauty of nature.

Prompt: Panorami view of a shot of a neon-drenched cyberpunk metropolis, high-octane chase unfolds on a multi-tiered highway. Sleek, matte black hypercar rockets through the urban jungle, skimming past colossal skyscrapers. Glowing screens illuminate the scene with pulsating neon advertisements. Camera captures the action from a dramatic low angle, tracking the car’s breakneck speed.

Prompt: Inside a bustling Starbucks, a young woman sits by the window, sipping a grande latte, engrossed in a thick novel. Sunlight filters through, casting warm glows on her focused face. Surrounding her are chic wooden interiors, the aroma of freshly brewed coffee, and the chatter of patrons. Medium shot, capturing the vibrant cafe ambiance.

PanoWan 还能在不经过重新训练的情况下，零样本应用于全景视频的长视频生成、超分辨率、语义编辑和视频外扩任务。

长视频生成 Prompt: Sunset at a beach.

视频超分辨率 Prompt: 360-degree panoramic interior view inside a charming artisan bakery bustling with activity, bakers carefully preparing handcrafted breads, pastries, and desserts. Shelves stocked with warm baked goods, aromatic scents filling the air, creating feelings of warmth, comfort, and culinary delight.

语义编辑 Prompt: Change the color of the train to red.

视频外扩 Prompt: Panoramic shot of colorful hot air balloons gracefully ascend, floating over lush green fields, their vibrant hues contrasting against a vast, cloud-dappled blue sky. Gentle breezes propel them in a serene dance, casting dynamic shadows on the verdant landscape below. Wide shot from ground level, capturing the expansive scene.

定量和定性评估

研究团队将 PanoWan 与同样适用于文生全景视频的方法 360DVD（CVPR’24）和 DynamicScaler（CVPR’25）进行了定量和定性的对比。

为了科学地评估生成的视觉质量与全景视频特性，团队采用了兼顾通用视频评估指标与全景特定指标的评测体系。其中，通用指标包含整体视频质量（FVD）、文本视频匹配度（VideoCLIP-XL）和图像质量等；全景特定指标则使用了衡量经度边界连续性、运动模式准确性和场景丰富程度的评测标准。从定量实验结果来看，PanoWan 在所有关键指标上均实现了最佳表现。

以下则展示了 PanoWan 与现有方法在视觉效果上的对比：

关于研究团队

北京大学相机智能实验室（http://camera.pku.edu.cn）的负责人施柏鑫是北京大学计算机学院视频与视觉技术研究所副所长，长聘副教授（研究员）、博士生导师；北京智源学者；北大 – 智平方具身智能联合实验室主任。日本东京大学博士，麻省理工学院媒体实验室博士后。

其研究方向为计算摄像学与计算机视觉，发表论文 200 余篇（包括 TPAMI 论文 30 篇，计算机视觉三大顶级会议论文 100 余篇）。论文获评 IEEE/CVF 计算机视觉与模式识别会议（CVPR）2024 最佳论文亚军（Best Paper, Runners-Up）、国际计算摄像会议（ICCP）2015 最佳论文亚军、国际计算机视觉会议（ICCV）2015 最佳论文候选，获得日本大川研究助成奖（2021）、中国电子学会青年科学家奖（2024）。科技部人工智能重大专项首席科学家，国家自然科学基金重点项目负责人，国家级青年人才计划入选者。担任国际顶级期刊 TPAMI 、 IJCV 编委，顶级会议 CVPR 、 ICCV 、 ECCV 领域主席。 APSIPA 杰出讲者、 CCF 杰出会员、 IEEE/CSIG 高级会员。

主要合作者 OpenBayes 贝式计算作为国内领先的人工智能服务商，深耕工业研究与科研支持领域，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，进而为工业企业及高校科研机构等提供更加快速、易用的数据科学计算产品，其产品已被数十家大型工业场景或头部科研院所采用。

访问官网：https://openbayes.com/

基于 1.3 万个视频片段，北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan，兼顾零样本视频编辑

7 个月前

相关研究论文「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」现已发布于 arXiv 。

更多示例展示可访问项目主页：
https://panowan.variantconst.com/

大规模全景视频数据集 PanoVid

经过这一系列严格处理流程，PanoVid 数据集最终包含超过 1.3 万个视频片段，总时长约 944 小时，覆盖风景、街景、人物等丰富多样的场景。

PanoWan 技术要点：聚焦维度与经度层面

PanoWan 效果展示

首先是最基础的文生全景视频，话不多说看效果。

PanoWan 还能在不经过重新训练的情况下，零样本应用于全景视频的长视频生成、超分辨率、语义编辑和视频外扩任务。

长视频生成 Prompt: Sunset at a beach.

语义编辑 Prompt: Change the color of the train to red.

定量和定性评估

研究团队将 PanoWan 与同样适用于文生全景视频的方法 360DVD（CVPR’24）和 DynamicScaler（CVPR’25）进行了定量和定性的对比。

以下则展示了 PanoWan 与现有方法在视觉效果上的对比：

关于研究团队

访问官网：https://openbayes.com/

Command Palette

基于 1.3 万个视频片段，北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan，兼顾零样本视频编辑

大规模全景视频数据集 PanoVid

PanoWan 技术要点：聚焦维度与经度层面

PanoWan 效果展示

定量和定性评估

关于研究团队

Command Palette

基于 1.3 万个视频片段，北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan，兼顾零样本视频编辑

大规模全景视频数据集 PanoVid

PanoWan 技术要点：聚焦维度与经度层面

PanoWan 效果展示

定量和定性评估

关于研究团队

相关报道

美团开源视频生成模型 LongCat-Video，兼具文生视频/图生视频/视频续写三大能力，媲美开闭源顶尖模型

活动回顾丨 北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

在线教程丨 30 毫秒处理 100 个检测对象，SAM 3 实现可提示概念分割，性能提升 2 倍

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

入选 NeurIPS 2025，智源/北京大学/北京邮电大学提出多流控制视频生成框架，基于音频解混实现精确音画同步

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

剑桥大学研发血液细胞图像分类器，扩散模型助力白血病发现，能力超越临床专家

Command Palette

基于 1.3 万个视频片段，北京大学施柏鑫团队联合贝式计算提出全景视频生成框架 PanoWan，兼顾零样本视频编辑

大规模全景视频数据集 PanoVid

PanoWan 技术要点：聚焦维度与经度层面

PanoWan 效果展示

定量和定性评估

关于研究团队

相关报道

美团开源视频生成模型 LongCat-Video，兼具文生视频/图生视频/视频续写三大能力，媲美开闭源顶尖模型

活动回顾丨 北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

在线教程丨 30 毫秒处理 100 个检测对象，SAM 3 实现可提示概念分割，性能提升 2 倍

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

入选 NeurIPS 2025，智源/北京大学/北京邮电大学提出多流控制视频生成框架，基于音频解混实现精确音画同步

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

剑桥大学研发血液细胞图像分类器，扩散模型助力白血病发现，能力超越临床专家

相关报道

美团开源视频生成模型 LongCat-Video，兼具文生视频/图生视频/视频续写三大能力，媲美开闭源顶尖模型

活动回顾丨 北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

在线教程丨 30 毫秒处理 100 个检测对象，SAM 3 实现可提示概念分割，性能提升 2 倍

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

入选 NeurIPS 2025，智源/北京大学/北京邮电大学提出多流控制视频生成框架，基于音频解混实现精确音画同步

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

剑桥大学研发血液细胞图像分类器，扩散模型助力白血病发现，能力超越临床专家

相关报道

美团开源视频生成模型 LongCat-Video，兼具文生视频/图生视频/视频续写三大能力，媲美开闭源顶尖模型

活动回顾丨 北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA； 解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

在线教程丨 30 毫秒处理 100 个检测对象，SAM 3 实现可提示概念分割，性能提升 2 倍

百度出招！OCR 模型 PaddleOCR-VL 打破管道与端到端方法局限；面部情感识别数据集 Facial Emotion Recognition，赋能 AI 读懂表情

完整回放｜上海创智/TileAI/华为/先进编译实验室/AI9Stars 深度拆解 AI 编译器技术实践

入选 NeurIPS 2025，智源/北京大学/北京邮电大学提出多流控制视频生成框架，基于音频解混实现精确音画同步

FLUX.2‑klein‑4B：步数蒸馏实现 4 步亚秒级图像生成，在消费级 GPU 上体验实时交互；Vehicles OpenImages 数据集：专注车辆检测与定位

剑桥大学研发血液细胞图像分类器，扩散模型助力白血病发现，能力超越临床专家

活动回顾丨北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

活动回顾丨北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

活动回顾丨北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势

活动回顾丨北京大学/清华大学/Zilliz/MoonBit 共话开源，覆盖视频生成/视觉理解/向量数据库/AI 原生编程语言

输入输出双侧革新！腾讯混元推出 HunyuanWorld-Mirror 刷新 3D 重建 SOTA；解码 Netflix 内容全貌！Netflix 电影电视目录数据集助力洞察娱乐趋势