Video-Training

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Huangzx1023/Video-Training

下载链接

链接失效反馈

官方服务：

资源简介：

Video-R1 是一个用于增强多模态大语言模型视频推理能力的数据集，来源于论文《Video-R1: Reinforcing Video Reasoning in MLLMs》。该数据集包含视频和图像两种模态的数据：视频数据来自CLEVRER、LLaVA-Video-178K、NeXT-QA、PerceptionTest和STAR等公开数据集；图像数据涵盖图表、通用、知识、数学、OCR和空间等类别。数据集包含两个主要文件：Video-R1-COT-165k.json用于监督微调的冷启动阶段，包含约16.5万个样本；Video-R1-260k.json用于强化学习训练，包含约26万个样本。每个样本采用结构化JSON格式，包含问题ID、问题描述、数据类型（视频或图像）、问题类型（如多项选择）、选项列表、思维链推理过程、标准答案、文件路径和数据来源等字段。该数据集专门设计用于视频到文本的推理任务，通过提供丰富的多模态问题和详细的推理过程，旨在提升模型对视频内容的理解、分析和推理能力。

创建时间：

2026-05-13

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的总结：

数据集概述

基本信息

数据集名称：Video-Training
许可证：Apache-2.0
任务类别：视频-文本到文本（video-text-to-text）
语言：英语
数据规模：100,000 到 1,000,000 条样本

来源与背景

该数据集源自论文 Video-R1: Reinforcing Video Reasoning in MLLMs（Hugging Face 论文页面），配套代码仓库位于 GitHub。

数据内容

视频数据文件夹

CLEVRER
LLaVA-Video-178K
NeXT-QA
PerceptionTest
STAR

图像数据文件夹

Chart
General
Knowledge
Math
OCR
Spatial

数据文件说明

Video-R1-COT-165k.json：用于监督微调（SFT）的冷启动数据。
Video-R1-260k.json：用于强化学习（RL）训练的数据。

数据格式示例（Video-R1-COT-165k.json）

每条数据包含以下字段：

problem_id：问题唯一标识符（如 2）
problem：问题描述（如“导弹上升过程中屏幕上出现什么俄语内容？”）
data_type：数据类型（如“video”）
problem_type：问题类型（如“multiple choice”）
options：选项列表（如 A、B、C、D）
process：推理过程（以 <think> 标签包裹）
solution：最终答案（以 <answer> 标签包裹）
path：视频文件路径（如 ./LLaVA-Video-178K/.../ytb_7nRmsEw7nsE.mp4）
data_source：数据来源（如 LLaVA-Video-178K/30_60_s_youtube_v0_1）

搜集汇总

数据集介绍

构建方式

Video-Training数据集源自论文Video-R1，旨在增强多模态大语言模型（MLLMs）的视频推理能力。该数据集通过整合多个公开视频与图像数据源构建而成，视频部分涵盖CLEVRER、LLaVA-Video-178K、NeXT-QA、PerceptionTest及STAR等基准数据集，图像部分则包含Chart、General、Knowledge、Math、OCR及Spatial等多类型视觉材料。在构建过程中，数据被组织为两份关键标注文件：Video-R1-COT-165k.json用于监督微调冷启动，Video-R1-260k.json用于强化学习训练。每条数据以JSON格式记录，包含问题标识、问题描述、数据类型（视频或图像）、问题类型（如多项选择）、选项列表、推理过程（process字段）、答案（solution字段）、文件路径及数据来源，从而形成结构化的训练样本。

使用方法

使用Video-Training数据集时，研究者可依据训练目标选择对应标注文件。对于监督微调阶段，应加载Video-R1-COT-165k.json，将每条数据中的'problem'字段作为输入，'solution'字段作为监督标签，同时可利用'process'字段进行思维链式训练，提升模型的推理透明度。对于强化学习阶段，则使用Video-R1-260k.json，结合视频或图像文件路径从本地加载媒体数据，并配合环境与奖励设计进行策略优化。推荐将数据集按8:1:1比例划分训练、验证与测试集，同时确保媒体文件路径正确映射至本地存储。此外，数据以标准JSON格式组织，可使用HuggingFace Datasets库或原生Python工具便捷读取，易于融入现有MLLM训练流程。

背景与挑战

背景概述

Video-Training数据集发布于2025年，由研究者Tuler Feng等人提出，源自论文《Video-R1: Reinforcing Video Reasoning in MLLMs》，旨在推动多模态大语言模型在视频推理任务中的发展。该数据集整合了CLEVRER、LLaVA-Video-178K、NeXT-QA、PerceptionTest、STAR等多个权威视频数据集，以及图表、通用知识、数学、OCR、空间等图像数据集，覆盖了丰富的视觉与语义场景。核心研究问题在于如何通过强化学习与监督微调相结合的方式，提升模型在复杂视频问答中的推理能力，如对动态事件因果关系的理解、时空关系的推理等。该数据集提供了165k条用于冷启动微调的视频推理链数据和260k条用于强化学习的训练样本，填补了视频理解领域高质量推理链数据的空白，对多模态大模型的训练范式产生了重要影响。

当前挑战

Video-Training数据集所解决的核心领域挑战在于视频推理任务中的动态时空理解与复杂因果推断。与静态图像理解不同，视频包含时间维度，要求模型能够捕捉事件演化轨迹、多物体交互及长程依赖关系，例如在CLEVRER中需推理物理运动规律，在NeXT-QA中需预测下一步动作。构建过程中面临的挑战包括：1）多源异构数据的统一格式化与标注对齐，需将来自不同数据集的不同类型问题（如选择题、开放式问答）整合为一致的推理链结构；2）高质量思考链的生成，需确保模型输出的中间推理步骤既符合逻辑又覆盖关键视觉线索，避免噪声或幻觉；3）数据规模与多样性的平衡，需在165k和260k样本容量下覆盖足够多的视频场景与问题类型，防止过拟合或偏见。

常用场景

经典使用场景

Video-Training数据集专为多模态大语言模型（MLLMs）的视频推理能力强化而设计，其经典使用场景在于提供结构化的视频问答数据，涵盖CLEVRER、LLaVA-Video-178K、NeXT-QA、PerceptionTest和STAR等多样化的视频源。该数据集包含两种核心数据形式：Video-R1-COT-165k用于监督微调的冷启动阶段，通过引入思维链（Chain-of-Thought）过程，引导模型逐步分析视频内容并生成合理推理；Video-R1-260k则用于强化学习训练，进一步优化模型的决策与一致性。研究者通常利用这些数据，在视频理解任务中训练模型从视觉线索中提取逻辑答案，尤其适用于需要多步推理的复杂场景，如因果推理、时空关系分析等。

解决学术问题

该数据集聚焦于解决多模态大语言模型在视频推理中面临的若干关键学术问题。传统模型往往难以处理含噪声背景的视频信息，或在长时序动态事件中缺乏连贯的逻辑演绎能力。Video-Training通过引入思维链机制，有效缓解了模型在开放式问答中的弱解释性难题，使其能生成类似人类的内省式推理过程。此外，数据集中涵盖的多样化视频类型（如物理模拟、日常生活、空间感知）帮助模型克服领域迁移的脆弱性，强化了在不同视频认知任务上的泛化能力。其意义在于为评估和改进模型的深度视频理解提供了标准化基准，推动了从简单描述到复杂推理的范式转变，对因果推理、事件预测和时间顺序建模等研究具有显著影响。

实际应用

在实际应用中，Video-Training数据集可赋能多个需要精准视频内容理解的领域。在自动驾驶场景中，利用该数据集训练的模型能更准确地推理道路上车辆和行人的动态意图，例如判断导弹发射视频中出现的俄语通知是否为YouTube订阅提醒，这种细粒度信息抽取能力对安全监控和辅助决策至关重要。在教育领域，基于该数据集的模型可用于自动生成教学视频的逐步解析，帮助学生理解复杂实验或历史事件的因果链条。此外，在内容审核与多模态搜索中，模型能高效识别视频中的特定元素（如文字弹出框）并关联上下文，提升信息检索的智能化水平，同时助力视障辅助技术，将视频内容转换为详尽的语音描述。

数据集最近研究