LongVideo-Reason
收藏arXiv2025-07-11 更新2025-07-12 收录
下载链接:
https://github.com/NVlabs/Long-RL
下载链接
链接失效反馈官方服务:
资源简介:
LongVideo-Reason是一个包含52K长视频问答对的数据集,涵盖了体育、游戏、博客等多个领域。该数据集由NVIDIA等机构创建,旨在支持长视频推理任务,如时间推理、目标与目的推理、空间推理、情节与叙事推理等。数据集的创建过程包括视频剪辑、自动标注和问答生成,并利用了NVILA-8B等模型进行推理。
LongVideo-Reason is a dataset consisting of 52K long video question-answer pairs, covering multiple domains such as sports, gaming, and vlogging. This dataset was developed by institutions including NVIDIA, with the aim of supporting long-form video reasoning tasks including temporal reasoning, goal and intent reasoning, spatial reasoning, plot and narrative reasoning, and more. The dataset construction process includes video clipping, automatic annotation, question-answer generation, and leverages models such as NVILA-8B for reasoning.
提供机构:
NVIDIA, MIT, HKU, UC Berkeley
创建时间:
2025-07-11
原始信息汇总
Long-RL 数据集概述
基本信息
- 项目名称: Long-RL: Scaling RL to Long Sequences
- 论文链接: arXiv Link
- 代码许可: Apache 2.0 License
- 发布日期: 2025年7月10日
数据集亮点
- 长视频RL训练: 支持单节点(8 GPUs)上对小时级别长视频(3,600帧 - 256k tokens)进行RL训练。
- 全模态模型支持: 支持文本、视频和音频输入的全模态模型RL训练。
- 图像/视频生成RL: 支持Stable Diffusion和Wan系列等图像/视频生成模型的RL训练。
支持模型
- VILA系列模型: 支持图像和视频输入,包含序列并行(SP)支持。
- Qwen-VL系列模型: 支持文本、图像、视频和音频输入,包含序列并行(SP)支持。
- 图像和视频扩散模型: 支持Stable Diffusion和Wan系列模型的RL训练。
支持算法
- GRPO: 支持GRPO算法。
- DAPO & Reinforce: 支持DAPO和Reinforce算法,包含序列并行(SP)支持。
数据集详情
- 名称: LongVideo-Reason
- 规模: 52K长视频问答对。
- 标注: 高质量推理标注,涵盖体育、游戏和vlog等多个领域。
训练基础设施
- MR-SP系统: 多模态强化序列并行(Multi-modal Reinforcement Sequence Parallelism),包含序列并行和基于vLLM的引擎。
- 效率提升: 在长视频RL训练中实现最高2.1倍加速。
安装与使用
-
安装命令: bash git clone https://github.com/NVlabs/Long-RL.git cd Long-RL pip install -e .
-
Qwen-Omni模型训练: bash bash vllm_replace.sh
训练示例
-
单节点训练: bash bash examples/new_supports/qwen2_5_vl_3b_video_grpo.sh $VIDEO_PATH
-
多节点训练: bash bash scripts/srun_multi_nodes.sh examples/new_supports/qwen2_5_vl_3b_video_grpo.sh 2
评估
- 评估指令: 位于
eval目录中。
贡献指南
- 步骤: Fork项目、克隆仓库、安装依赖、提交修改、发起Pull Request。
核心贡献者
- Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu等。
引用
bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }
致谢
- EasyR1: 基础代码库。
- verl: RL训练框架。
- vllm: 用于rollout引擎。
- Flow-GRPO: 图像/视频生成RL参考。
搜集汇总
数据集介绍

构建方式
LongVideo-Reason数据集的构建采用了多阶段自动化标注流程,首先将长视频分割为10秒的片段,利用NVILA-8B模型生成描述性字幕。随后基于开源推理大模型,结合四种特定提示模板(时间推理、目标推理、空间推理及叙事推理)生成包含52K高质量问答对的标注数据。通过测试缩放方法对样本进行难度分级,最终形成包含18K监督微调样本和33K强化学习样本的层次化数据集,并额外整合110K开源视频数据以增强模型泛化能力。
使用方法
数据集支持两阶段训练范式:在监督微调阶段,研究者可利用18K带思维链标注的样本初始化模型推理能力;在强化学习阶段,33K中等难度样本配合GRPO算法可优化策略模型。评估时建议采用配套的LongVideo-Reason-eval基准,该基准包含1K人工校验样本,涵盖四大推理维度。对于长视频处理,推荐结合论文提出的MR-SP并行训练系统,通过视频嵌入缓存和序列并行技术实现高达2.1倍的训练加速,支持单节点8GPU处理3600帧的超长视频输入。
背景与挑战
背景概述
LongVideo-Reason数据集由NVIDIA、MIT、HKU和UC Berkeley等机构的研究团队于2025年推出,旨在解决长视频理解中的复杂推理问题。该数据集包含52,000个长视频问答对,涵盖体育、游戏、博客等多个领域,并配备了高质量的推理标注。通过结合监督微调(CoT-SFT)和强化学习(RL)的两阶段训练框架,该数据集显著提升了视觉语言模型(VLMs)在长视频推理任务中的表现,并在VideoMME等基准测试中取得了领先成绩。
当前挑战
LongVideo-Reason数据集面临的挑战主要包括两个方面:一是长视频推理任务本身的高复杂性,如时间动态、空间关系和叙事逻辑的建模;二是数据构建过程中的高成本和高主观性,例如标注长视频中的复杂推理步骤需要大量人力和时间。此外,强化学习在长视频训练中的计算开销和内存需求也是重要挑战,需要通过创新的并行化技术(如MR-SP)来优化。
常用场景
经典使用场景
LongVideo-Reason数据集在视觉语言模型(VLMs)的长视频推理任务中扮演了关键角色。该数据集包含52K个长视频问答对,覆盖体育、游戏和视频博客等多个领域,为模型提供了丰富的推理标注。通过两阶段训练流程(链式思维监督微调和强化学习),数据集支持模型在长视频理解中进行复杂的时空推理、目标推理和情节推理。
解决学术问题
该数据集解决了长视频推理中的核心挑战,包括高质量标注数据的稀缺性和长视频强化学习的高计算成本问题。通过提供大规模标注数据和高效的训练框架Multi-modal Reinforcement Sequence Parallelism(MR-SP),显著提升了模型在长视频任务中的推理能力,并在VideoMME等基准测试中实现了领先性能。
实际应用
LongVideo-Reason的实际应用场景包括体育赛事分析、游戏策略预测和视频内容理解。例如,在足球比赛中,模型可以通过分析球员的情绪状态和战术行为预测点球大战的结果;在电子竞技中,模型能够推断玩家的战略意图和比赛走向。这些应用展示了数据集在复杂场景下的实用价值。
数据集最近研究
最新研究方向
近年来,随着多模态大模型在视频理解领域的快速发展,LongVideo-Reason数据集因其专注于长视频推理任务而备受关注。该数据集包含52K个高质量的长视频问答对,覆盖体育、游戏、博客等多个领域,为视觉语言模型(VLMs)的长视频推理能力提供了重要支持。前沿研究主要集中在以下几个方面:首先,通过强化学习(RL)与思维链监督微调(CoT-SFT)的两阶段训练框架,显著提升了模型在长视频中的时空推理、目标推理和情节推理能力。其次,提出的多模态强化序列并行(MR-SP)技术有效解决了长视频训练中的内存和计算效率问题,实现了高达2.1倍的训练加速。此外,该数据集还推动了长视频理解在机器人、自动驾驶等实际应用中的发展,为多模态推理模型的性能评估提供了新的基准。
相关研究论文
- 1Scaling RL to Long VideosNVIDIA, MIT, HKU, UC Berkeley · 2025年
以上内容由遇见数据集搜集并总结生成



