Sekai: A Video Dataset towards World Exploration

github2025-06-19 更新2025-06-20 收录

下载链接：

https://github.com/Lixsp11/sekai-codebase

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了Sekai（日语中的“世界”），一个高质量的自中心视频数据集，用于沉浸式世界探索和生成。Sekai包含超过5000小时的YouTube视频和游戏画面，带有丰富的注释。它具有：多样化的高分辨率视频（720p）、覆盖100多个国家和750多个城市、第一人称和无人机视角、长序列（≥60秒）以实现现实世界的连续性、详细的注释：位置、场景、天气、人群、字幕和相机轨迹。Sekai支持视频理解、导航和视频音频共同生成等任务。

We introduce Sekai (meaning "world" in Japanese), a high-quality egocentric video dataset designed for immersive world exploration and generation. Sekai contains over 5,000 hours of YouTube videos and gameplay footage with rich annotations. It boasts the following features: diverse high-resolution videos at 720p, coverage across more than 100 countries and over 750 cities, first-person and drone perspectives, long sequences (≥60 seconds) to enable real-world continuity, as well as comprehensive annotations including location, scene, weather, crowd, subtitles, and camera trajectory. Sekai supports a range of tasks including video understanding, navigation, and video-audio co-generation.

创建时间：

2025-06-18

原始信息汇总

Sekai: A Video Dataset towards World Exploration

数据集概述

名称: Sekai (せかい, “world” in Japanese)
类型: 高质量第一人称视角视频数据集
用途: 沉浸式世界探索与生成
特点:
- 包含超过5000小时的YouTube视频和游戏画面
- 高分辨率视频（720p）
- 覆盖100多个国家和750多个城市
- 包含第一人称和无人机视角
- 长序列（≥ 60秒）以保持现实世界的连续性
- 详细注释：位置、场景、天气、人群、字幕和相机轨迹

数据集内容

视频来源: YouTube视频和游戏画面
视频数量: 超过5000小时
分辨率: 720p
地理覆盖: 100+国家，750+城市
视角类型: 第一人称和无人机视角
序列长度: ≥ 60秒
注释内容:
- 位置
- 场景
- 天气
- 人群
- 字幕
- 相机轨迹

支持任务

视频理解
导航
视频-音频联合生成

发布内容

工具: Sekai-Real视频下载和剪辑提取工具（预计6月下旬发布）

许可证

许可证: 参见license

引用

bibtex @article{li2025sekai, title={Sekai: A Video Dataset towards World Exploration}, author={Zhen Li and Chuanhao Li and Xiaofeng Mao and Shaoheng Lin and Ming Li and Shitian Zhao and Zhaopan Xu and Xinyue Li and Yukang Feng and Jianwen Sun and Zizhen Li and Fanrui Zhang and Jiaxin Ai and Zhixiang Wang and Yuwei Wu and Tong He and Jiangmiao Pang and Yu Qiao and Yunde Jia and Kaipeng Zhang}, journal={arXiv preprint arXiv:2506.15675}, year={2025} }

相关链接

项目页面: https://lixsp11.github.io/sekai-project/
arXiv论文: https://arxiv.org/abs/2506.15675
Hugging Face数据集: https://huggingface.co/datasets/Lixsp11/Sekai-Project
YouTube演示: https://www.youtube.com/watch?v=5UQ0zAIZkSY

搜集汇总

数据集介绍

构建方式

Sekai数据集通过精心筛选YouTube视频与游戏素材构建而成，采用多模态数据采集策略，覆盖全球100余个国家及750多个城市的场景。研究团队运用自动化标注工具与人工校验相结合的方式，为视频数据添加了地理位置、场景类型、天气状况、人群密度等结构化标签，同时提取了连续60秒以上的长序列片段以保证时空连续性。数据采集过程注重视角多样性，同时包含第一人称视角与无人机航拍画面，分辨率统一提升至720p以保证视觉质量。

特点

该数据集的核心价值在于其前所未有的地理覆盖广度与标注深度，5000小时的视频素材构成目前最大规模的世界探索视觉库。视频内容不仅包含常规街景，还涵盖极端天气、特殊地貌等罕见场景，每段视频均附带精确的相机运动轨迹数据。多维度标注体系支持跨模态研究，包括场景语义分割、动态物体追踪等计算机视觉任务。数据分布经过严格平衡处理，确保不同地域、气候条件下的样本均衡性，为构建具有全球泛化能力的AI模型奠定基础。

使用方法

研究者可通过Hugging Face平台直接访问预处理后的数据集版本，官方代码库提供视频片段提取工具与元数据解析接口。典型应用场景包括：基于地理位置的视频检索系统开发、跨场景视频生成模型训练、以及视觉-语言联合表征学习。使用建议先根据标注信息筛选目标地域或场景类型的子集，再结合相机运动参数进行时空分析。对于生成任务，可利用附带的光流与深度信息作为条件输入。所有数据使用需遵守CC-BY-NC协议，学术用途引用需注明原始论文。

背景与挑战

背景概述

在计算机视觉与人工智能领域，探索和理解复杂多样的现实世界一直是核心研究目标之一。由上海人工智能实验室与北京理工大学联合发布的Sekai数据集（2025年）应运而生，旨在为沉浸式世界探索与生成任务提供高质量数据支持。该数据集汇集了超过5000小时的YouTube视频与游戏素材，覆盖100余个国家、750多座城市，包含第一人称视角与无人机航拍内容，并标注了地理位置、场景类型、天气状况等丰富元数据。作为首个以全球探索为核心的大规模视频数据集，Sekai为视频理解、自主导航、跨模态生成等前沿研究方向提供了关键基础设施。

当前挑战

构建世界探索数据集面临双重挑战：在领域问题层面，如何准确建模动态开放环境中的时空连续性成为关键难题，传统视频数据集难以捕捉长时序地理关联与多视角一致性；在构建过程中，数据采集需平衡地理多样性与内容质量，数万小时原始素材的清洗标注涉及复杂时空对齐，而无人机视角的相机轨迹重建对算法鲁棒性提出极高要求。此外，跨文化场景的语义标注需要解决语言与认知差异带来的标注一致性难题。

常用场景

经典使用场景

在计算机视觉领域，Sekai数据集为沉浸式世界探索提供了丰富的素材。其高分辨率视频和多样化视角（包括第一人称和无人机视角）使其成为训练视频理解模型的理想选择。研究者可利用其长达60秒以上的连续视频片段，模拟真实世界的时空连续性，特别适合开发需要长期依赖关系的算法。数据集覆盖100多个国家和750多个城市的特性，为跨地域视觉研究提供了前所未有的地理多样性。

实际应用

该数据集在虚拟旅游系统开发中展现出重要价值。基于其丰富的全球地理视频素材，开发者可以构建高度真实的数字孪生环境。教育领域可利用这些标注视频开发沉浸式地理教学系统。在自动驾驶领域，数据集中的第一人称视角和多样化天气条件视频，为算法在复杂环境中的泛化能力测试提供了标准基准。

衍生相关工作

Sekai数据集已催生多个创新研究方向。在视频生成领域，研究者利用其地理标注开发了条件式场景生成模型。计算机视觉会议ICCV2025收录的工作将其用于跨地域视觉定位算法评估。另有团队基于其多模态标注，提出了新型的视频-音频联合生成框架。数据集包含的无人机视角视频，也推动了航拍视频理解技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集