Sekai 世界视频数据集
Sekai 是由上海人工智能实验室联合上海创智学院,于 2025 年发布的一个高质量第一人称视角全球视频数据集,相关论文成果为:「Sekai: A Video Dataset towards World Exploration」,旨在为视频生成和世界探索领域激发有价值的应用。
该数据集专注于以自我为中心的世界探索,由 Sekai-Real 和 Sekai-Game 两部分组成,包含来自 100 多个国家和地区、 750 个城市的超过 5000 小时的步行或无人机视角(FPV 和 UVA)视频,视频时长较长(1 至 39 分钟,平均为 2 分钟),并包含丰富的探索性注释和世界注释,每个视频标注了多样化的标签,包括字幕、位置、场景、天气、人群密度、时间以及相机轨迹。

数据集概览