KOKONI-WorldVID-1A

github2025-10-26 更新2025-10-27 收录

下载链接：

https://github.com/tianrun-chen/World-in-Novel-View

下载链接

链接失效反馈

官方服务：

资源简介：

KOKONI-WorldVID-1A是一个大规模视频数据集，专为新颖视图合成研究设计。它包含来自中国领先视频分享平台Bilibili的超过10,000个独特视频，涵盖静态和动态场景，提供真实世界多样化场景的视频数据。

KOKONI-WorldVID-1A is a large-scale video dataset designed specifically for novel view synthesis research. It contains over 10,000 unique videos sourced from Bilibili, China's leading video sharing platform, covering both static and dynamic scenes, and provides video data of diverse real-world scenarios.

创建时间：

2025-10-17

原始信息汇总

KOKONI-WorldVID-1A 数据集概述

数据集基本信息

数据集名称: KOKONI-WorldVID-1A
研究领域: 新视角合成
数据规模: 超过10,000个独特视频
数据来源: Bilibili视频分享平台

数据集特点

数据独特性: 提供与西方主流数据集不同的中国用户生成内容视角
内容多样性: 涵盖静态景观、物体展示、动态人类活动和生活记录等多种场景
场景类型: 包含静态场景和动态场景视频

数据集统计信息

类别	数量	描述
总视频数	10,000	来自Bilibili的独特视频
静态视频	~5,000	包含静态场景和标注片段的视频
动态视频	~5,000	包含动态内容的视频

数据结构

静态场景视频 (static.csv)

数据格式:

序号,URL,视频标题,静态开始时间1,静态结束时间1,静态开始时间2,静态结束时间2

列说明:

序号: 顺序编号
URL: Bilibili视频链接
视频标题: 原始视频标题
静态开始时间1: 第一个静态片段开始时间
静态结束时间1: 第一个静态片段结束时间
静态开始时间2: 第二个静态片段开始时间
静态结束时间2: 第二个静态片段结束时间

动态场景视频 (walk.csv)

数据格式:

序号,URL,视频标题

列说明:

序号: 顺序编号
URL: Bilibili视频链接
视频标题: 原始视频标题

下载与使用

依赖安装: bash pip install you-get pandas

或 bash pip install yt-dlp pandas

下载命令: bash

下载所有静态视频

python download_videos.py --csv static.csv --output_dir ./videos/static

下载所有动态视频

python download_videos.py --csv walk.csv --output_dir ./videos/walk

下载指定范围视频

python download_videos.py --csv static.csv --output_dir ./videos/static --start 0 --end 100

应用场景

3D场景重建
神经辐射场模型训练
3D高斯泼溅
多视角合成
动态场景建模

许可证信息

数据集整体许可: ODC-By v1.0许可证
使用限制: 仅限非商业学术研究用途
版权声明: 所有视频版权归Bilibili原始创作者所有，商业使用需获得原始创作者明确许可

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，新颖视角合成技术对高质量数据集的需求日益增长。KOKONI-WorldVID-1A数据集的构建依托于中国领先的视频分享平台Bilibili，通过系统化采集超过一万个独特视频资源。这些视频涵盖静态场景与动态内容两大类别，其中静态场景视频经过人工筛选并标注特定时间片段，确保场景稳定性符合研究要求。数据集采用结构化元数据管理，通过CSV文件分别记录视频链接、标题及时间戳信息，为后续模型训练提供精准的数据支撑。

特点

该数据集在视角合成研究领域展现出鲜明的独特性。其核心优势在于全部视频内容源自中国用户生成内容，为跨文化场景理解提供了宝贵资源。数据集规模庞大且内容多样，既包含静态景观与物体展示，也涵盖行走、运动等动态场景，有效模拟真实世界复杂性。特别设计的静态片段标注机制支持细粒度模型评估，而动态视频则完整保留自然运动轨迹，共同构成多维度训练环境。这种内容结构与数据来源的独特性，显著提升了模型在现实场景中的泛化能力。

使用方法

为便于研究应用，数据集配套提供了完整的下载与处理流程。用户可通过Python脚本配合you-get或yt-dlp工具实现批量视频下载，支持按静态与动态分类或指定数量范围灵活获取数据。下载后的视频可直接应用于神经辐射场、3D高斯溅射等前沿算法训练，其中静态视频的时间段标注为场景重建提供关键帧指引。研究者可依据CSV元数据快速构建训练流水线，将原始视频转化为适合新颖视角合成任务的标准化输入，加速模型开发与验证进程。

背景与挑战

背景概述

KOKONI-WorldVID-1A数据集于2023年由KOKONI团队构建，聚焦于新颖视角合成领域的突破性研究。该数据集从中国领先的视频分享平台Bilibili采集了超过10,000个独特视频，涵盖静态场景与动态活动内容，为三维场景重建和神经辐射场等前沿技术提供了丰富的真实世界数据基础。其创新性地整合了用户生成内容，显著提升了模型在复杂现实环境中的泛化能力，推动了计算机视觉与图形学交叉领域的实证研究进展。

当前挑战

该数据集致力于解决新颖视角合成中动态场景建模与多视角生成的固有难题，包括如何从单目视频序列中精确恢复三维几何结构，以及处理遮挡和光照变化带来的视觉歧义。在构建过程中，团队面临数据标注的复杂性挑战，需人工筛选静态视频片段并标注时间区间；同时需应对大规模用户生成视频的版权合规性管理，确保学术用途的合法性，这些因素共同构成了数据集开发的核心技术壁垒。

常用场景

经典使用场景

在计算机视觉领域，KOKONI-WorldVID-1A数据集为新颖视角合成研究提供了重要支撑。该数据集通过包含静态场景与动态内容的视频序列，使研究人员能够训练模型从有限视角推断三维空间结构，尤其适用于神经辐射场和三维高斯喷洒等先进方法的验证与优化。其独特的中国用户生成内容来源，为跨文化场景下的模型泛化能力评估创造了条件。

衍生相关工作

基于该数据集衍生的经典研究包括融合地理编码位置注意力的GeoPE架构，其通过分布式训练策略实现了大规模视频数据的高效处理。多项工作在此基础上发展了针对动态场景的神经表征方法，如改进的时空一致性损失函数设计，以及适应混合精度训练的轻量化网络结构，这些成果持续推动着三维重建技术向实用化迈进。

数据集最近研究