VBVR-Dataset

Hugging Face2026-02-27 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/Video-Reason/VBVR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

VBVR-Dataset是一个前所未有的大规模视频推理训练资源，属于Very Big Video Reasoning (VBVR) Suite的一部分。该数据集包含训练集：100个精选的推理任务生成器，共1,000,000个视频片段（每个生成器10,000个样本），每个样本包括一个视频、开始/结束帧、一个文本推理提示和结构化元数据。该数据集旨在支持视频生成模型中推理能力的大规模训练和扩展研究。数据集结构包括可浏览的元数据文件和实际的视频/图像数据，后者存储在100个单独的tar文件中。数据集格式包括MP4视频、PNG图像和JSON元数据，语言为英语，采用Apache 2.0许可证。

创建时间：

2026-02-24

原始信息汇总

VBVR-Dataset 数据集概述

基本信息

数据集名称: VBVR-Dataset: Very Big Video Reasoning Training Data
发布方: Video-Reason
许可协议: Apache 2.0 License
主要用途: 支持视频生成模型的大规模训练和推理能力扩展研究
所属套件: Very Big Video Reasoning (VBVR) Suite
语言: 英语

数据集规模与构成

总样本数: 1,000,000
任务生成器数量: 100个
每个生成器的样本数: 10,000
总文件数: 5,000,000
压缩后总大小: 约370 GB
数据格式:
- 视频: MP4
- 图像: PNG
- 元数据: Parquet, JSON, TXT

任务与内容

任务类别: 视频分类、视觉问答、视频文本到文本
核心内容: 视频推理训练数据
数据标签: 视频推理、视频生成、视觉推理、基准测试、时空
生成器分类:
- 几何与图系列: 63个生成器 (G-series)
- 物体与物理系列: 37个生成器 (O-series)

数据结构

每个样本包含以下文件：

first_frame.png - 视频初始帧
final_frame.png - 视频结束帧
ground_truth.mp4 - 完整视频序列（真实值）
metadata.json - 结构化生成元数据
prompt.txt - 文本推理提示

元数据文件 (data/metadata.parquet) 包含以下字段：

id: 全局唯一样本索引
generator: 生成器名称
task: 生成器内的任务名称
sample_id: 样本标识符
prompt: 文本推理问题或指令
metadata_json: 包含生成参数、种子和任务特定配置的JSON字符串
first_frame_path: tar文件中第一帧PNG的相对路径
final_frame_path: tar文件中最后一帧PNG的相对路径
ground_truth_video_path: tar文件中真实值MP4视频的相对路径
tar_file: 包含此样本的tar文件路径

存储与访问

元数据: 可通过Hugging Face数据集查看器直接浏览，无需下载
媒体文件: 存储在tars/目录下的100个独立tar文件中，每个生成器对应一个tar文件
下载方式: 支持使用datasets库加载元数据，使用huggingface_hub或命令行工具下载特定或全部tar文件

相关资源

官方网站: https://video-reason.com/
论文: A Very Big Video Reasoning Suite (arXiv:2602.20159)
基准数据集: https://huggingface.co/datasets/Video-Reason/VBVR-Bench-Data
代码仓库: https://github.com/VBVR-DataFactory
排行榜: https://huggingface.co/spaces/Video-Reason/VBVR-Bench-Leaderboard
联系邮箱: hokinxqdeng@gmail.com

搜集汇总

数据集介绍

构建方式

在视频推理领域，大规模高质量训练数据的构建是推动模型能力突破的关键。VBVR-Dataset采用系统化的生成器框架，通过100个精心设计的任务生成器，每个生成器专注于特定的时空推理任务，如几何变换或物体物理交互。每个生成器独立产生10,000个样本，最终汇聚成百万规模的视频剪辑集合。每个样本均包含完整的视频序列、起始与结束帧图像、文本推理提示以及结构化的元数据，所有内容均以标准化格式存储于按生成器组织的压缩文件中，确保了数据的一致性与可扩展性。

特点

作为视频推理领域的里程碑式资源，该数据集最显著的特征在于其前所未有的规模与多样性。它囊括了涵盖几何图形与物体物理两大系列的100种推理任务，提供了100万个视频样本，每个样本均配有精确的文本提示和详尽的生成参数元数据。数据集采用高效的分层存储结构，将元数据与多媒体文件分离，既支持快速的元数据浏览与筛选，又允许按需下载特定的任务数据。这种设计不仅极大地降低了初始使用门槛，也为大规模分布式训练与深入的缩放定律研究提供了坚实基础。

使用方法

为充分发挥该数据集的科研价值，研究者可采用灵活的分层访问策略。用户无需下载全部数据，即可通过Hugging Face数据集库直接加载并浏览Parquet格式的元数据，进行任务分析和样本探查。对于具体的视频与图像内容，则可以根据研究需求，选择性地下载单个生成器对应的压缩包，或利用命令行工具批量获取全部文件。这种按需加载的模式，有效平衡了数据访问的便捷性与本地存储的成本，使得研究者能够高效地将其整合到视频生成与推理模型的训练流程中。

背景与挑战

背景概述

在人工智能领域，视频理解与生成技术的演进对模型的时空推理能力提出了更高要求。VBVR-Dataset作为超大规模视频推理训练数据集，由Video-Reason团队于2026年创建，其核心研究问题聚焦于如何通过海量、多样化的视频序列数据，系统性提升模型在几何图形、物体物理等复杂场景下的推理能力。该数据集包含100个精心设计的任务生成器及100万个视频样本，旨在为视频生成模型的规模化训练与能力评估提供关键基础设施，对推动视频推理基准的发展具有深远影响。

当前挑战

视频推理领域长期面临模型难以捕捉动态场景中时空关系与因果逻辑的挑战，VBVR-Dataset致力于解决视频生成任务中复杂推理能力的评估与提升问题。在构建过程中，数据集需克服多模态数据对齐、大规模高质量视频样本的生成与标注，以及多样化推理任务体系的设计等难题，确保数据在规模与质量上的平衡，以支撑模型对抽象概念与物理规律的有效学习。

常用场景

经典使用场景

在视频生成与理解领域，VBVR-Dataset作为大规模视频推理训练资源，其经典使用场景集中于训练和评估视频生成模型的高级推理能力。该数据集通过100个精心设计的任务生成器，提供了涵盖几何、图论、物体与物理等多样化推理任务的百万级视频样本，每个样本均包含视频序列、起始与结束帧、文本提示及结构化元数据。研究人员可利用这些丰富的数据，系统性地探究模型在时空推理、因果推断及多模态对齐等方面的表现，为构建具备深层理解能力的视频智能体奠定坚实基础。

解决学术问题

VBVR-Dataset致力于解决视频人工智能领域长期存在的若干关键学术问题，特别是模型在复杂时空场景中缺乏稳健推理能力的瓶颈。该数据集通过大规模、高多样性的合成视频数据，为研究视频生成模型的缩放规律、跨任务泛化性能以及推理机制的涌现特性提供了实证基础。其意义在于推动了视频推理从狭窄的特定任务向通用能力范式的转变，通过系统化的基准测试，促进了模型在物体交互、物理规律理解及几何变换等核心认知维度上的进步，对多模态人工智能的发展产生了深远影响。

衍生相关工作

围绕VBVR-Dataset，学术界已衍生出一系列重要的相关研究工作。其配套的VBVR-Bench基准测试平台及公开排行榜，已成为评估视频推理模型性能的权威标准，激励了众多团队在此基准上优化模型架构与训练策略。此外，基于该数据集的大规模预训练研究，探索了视频-语言联合表征学习的有效方法。一系列后续工作进一步扩展了数据集的边界，例如针对特定推理子任务（如物体持久性、因果推理）的深入分析，以及将合成数据与真实世界视频数据进行对齐融合的技术探索，共同丰富了视频推理领域的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集