five

Sekai

收藏
arXiv2025-06-20 更新2025-06-22 收录
下载链接:
https://lixsp11.github.io/sekai-project/
下载链接
链接失效反馈
官方服务:
资源简介:
Sekai数据集是一个高质量的全球第一人称视角视频数据集,包含超过5000小时的视频,来自100多个国家和地区的750个城市。该数据集旨在为世界探索提供丰富的注释,包括位置、场景、天气、人群密度、字幕和相机轨迹。数据集由YouTube上的视频和游戏Lushfoil Photography Sim中的视频组成,经过高效的数据收集、预处理和注释过程,为视频生成和世界探索领域提供了宝贵的资源。

The Sekai Dataset is a high-quality global first-person view video dataset containing over 5,000 hours of footage sourced from 750 cities across more than 100 countries and regions. This dataset aims to provide rich annotations for world exploration, including location, scene, weather, crowd density, subtitles, and camera trajectories. Composed of videos from YouTube and the video game *Lushfoil Photography Sim*, the dataset has undergone efficient data collection, preprocessing and annotation processes, serving as a valuable resource for the fields of video generation and world exploration.
提供机构:
上海人工智能实验室, 北京理工大学, 上海创新研究所, 深圳北理工-莫斯科大学, 东京大学
创建时间:
2025-06-19
原始信息汇总

Sekai: A Video Dataset towards World Exploration

基本信息

  • 数据集名称: Sekai (意为"世界")
  • 类型: 第一人称视角全球视频数据集
  • 用途: 世界探索训练、视频生成、视频理解、导航、视频-音频协同生成
  • 对应作者:
    • wuyuwei@bit.edu.cn
    • lichuanhao@pjlab.org.cn
    • zhangkaipeng@pjlab.org.cn

数据集特点

  1. 高质量多样化视频: 720p分辨率,包含多样天气、时间和动态场景
  2. 全球范围覆盖: 涵盖100+国家和地区,750+城市
  3. 多样化视角: 包含步行视角和无人机视角(FPV和UAV)
  4. 长持续时间: 步行视频至少60秒
  5. 丰富标注: 包含位置、场景、天气、人群密度、字幕和相机轨迹

数据集构成

  • Sekai-Real: 5000+小时YouTube视频(8600+小时原始素材)
  • Sekai-Game: 40小时照片级游戏视频
  • 总剪辑数: 400,000+
  • 标注内容:
    • 位置信息
    • 场景类别
    • 详细字幕
    • 相机轨迹

数据处理流程

  1. 视频收集: 从YouTube和游戏获取原始素材
  2. 预处理:
    • 视频分割
    • 亮度/质量过滤
    • 字幕/轨迹过滤
  3. 标注:
    • 使用LLMs(Qwen2.5-VL-72B, GPT-4o)
    • 使用结构运动模型(MegaSaM)
  4. 采样: 基于质量评分和多样性策略创建高质量子集(Sekai-Real-HQ)

衍生模型

  • YUME模型: 基于Sekai-Real-HQ子集训练的交互式世界探索模型
  • 功能: 接收图像并允许用户通过键盘鼠标进行无限制探索

引用信息

bibtex @article{li2025sekai, title={Sekai: A Video Dataset towards World Exploration}, author={Zhen Li and Chuanhao Li and Xiaofeng Mao and Shaoheng Lin and Ming Li and Shitian Zhao and Zhaopan Xu and Xinyue Li and Yukang Feng and Jianwen Sun and Zizhen Li and Fanrui Zhang and Jiaxin Ai and Zhixiang Wang and Yuwei Wu and Tong He and Jiangmiao Pang and Yu Qiao and Yunde Jia and Kaipeng Zhang}, journal={arXiv preprint arXiv:2506.15675}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
SEKAI数据集构建采用了多源数据融合与精细标注的流程。针对现实世界视频(Sekai-Real),研究团队从YouTube平台手工筛选并下载了8623小时的高质量步行和无人机视角视频,通过镜头边界检测、视频转码和质量评估等预处理步骤,最终获得6620小时的标准化视频片段。对于游戏数据(Sekai-Game),则通过Unreal Engine 5开发的Lushfoil Photography Sim游戏录制40小时素材,并利用RE-UE4SS工具链获取精确的元数据。所有视频均经过亮度过滤、质量评估等多重筛选,确保数据质量。
特点
SEKAI数据集具有五大显著特征:视频质量方面,所有素材均以720p@30fps标准编码,平均PSNR值超过35;地理覆盖上,收录了来自101个国家和750个城市的景观,呈现多元文化特征;视角多样性方面,同时包含步行视角和无人机(FPV/UAV)拍摄内容;时长优势显著,单个视频片段平均时长达2分钟;标注体系完善,每个视频均包含位置、场景类型、天气、人群密度、详细描述文本和相机轨迹六类标注,其中游戏数据的标注被视为基准真值。
使用方法
该数据集特别适用于视频生成和世界探索模型的训练。研究人员开发了分层采样策略:首先基于美学质量和语义完整性进行质量筛选,保留70%的高分样本;随后通过内容聚类、地理位置均衡、语义类别反概率加权和相机轨迹分箱等方法,确保数据分布的多样性和平衡性。实际应用中,可使用InternVideo2提取视频特征嵌入,配合Mini Batch K-Means进行内容聚类分析。对于相机轨迹研究,数据集提供的MegaSaM标注框架支持多GPU并行计算,显著提升处理效率。
背景与挑战
背景概述
SEKAI数据集由上海人工智能实验室等机构于2025年推出,旨在解决视频生成领域在构建交互式世界探索模型时所面临的数据瓶颈问题。该数据集包含来自101个国家和地区的5000小时第一人称视角视频,涵盖步行与无人机拍摄两种模式,并配备了位置、场景、天气、人群密度等精细标注。作为目前规模最大、标注最丰富的世界探索视频数据集,SEKAI通过融合真实世界视频与游戏引擎合成数据,为视频生成模型的时空连续性学习提供了重要基础,推动了交互式虚拟世界构建技术的发展。
当前挑战
SEKAI数据集主要面临三方面挑战:在领域问题层面,长时序视频生成中如何保持场景动态一致性与相机轨迹可控性仍是核心难题;在构建过程中,海量视频数据的跨地域采集面临版权与隐私合规风险,而游戏数据的物理真实性不足可能引入域偏移问题;在标注环节,相机轨迹的精确重建需要平衡计算效率与SLAM算法精度,多模态标注的语义一致性保障也考验大模型的推理能力。此外,数据分布的全球均衡性维护与极端场景样本的稀缺性,均为模型泛化能力带来挑战。
常用场景
经典使用场景
在计算机视觉与视频生成领域,SEKAI数据集以其全球覆盖的5000小时第一人称视角视频资源,成为构建动态世界探索模型的基石。其经典应用场景体现在训练交互式视频生成系统,如论文中提及的YUME模型,通过键盘鼠标输入实时控制虚拟摄像机轨迹,模拟人类在多样化地理环境(如瑞士格林德瓦的晨雾村庄或东京繁华街道)中的自由探索行为。数据集独特的行走与无人机视角视频,配合精确标注的天气、人群密度等环境参数,为算法提供了理解真实世界动态性与复杂性的高质量样本。
实际应用
超越学术研究,SEKAI在虚拟旅游、自动驾驶仿真等工业场景展现巨大潜力。基于其无人机视角视频训练的模型可生成高保真城市空中漫游体验,助力文旅产业数字化;标注的复杂天气条件下行人运动模式,为自动驾驶系统提供罕见场景的测试数据。游戏产业则利用其从《Lushfoil Photography Sim》提取的带真实物理参数视频,加速开放世界游戏的场景生成管线开发。这些应用均受益于数据集特有的地理多样性、精确轨迹控制与多模态标注特性。
衍生相关工作
SEKAI的发布催生了系列前沿研究,如上海AI实验室基于其子集开发的YUME交互探索系统,首次实现用户指令驱动的动态世界渲染。该数据集还启发了MIT团队在CVPR 2025提出的《WonderJourney》算法,通过融合SEKAI的轨迹标注与神经辐射场技术,实现单图像到3D探索场景的端到端生成。其标注框架更被OpenAI等机构借鉴,用于改进Sora模型的地理一致性控制模块,体现了数据集对行业技术路线的深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作