LongVideo-Reason

Name: LongVideo-Reason
Creator: NVIDIA, MIT, HKU, UC Berkeley
Published: 2025-07-11 01:47:40
License: 暂无描述

arXiv2025-07-11 更新2025-07-12 收录

下载链接：

https://github.com/NVlabs/Long-RL

下载链接

链接失效反馈

官方服务：

资源简介：

LongVideo-Reason是一个包含52K长视频问答对的数据集，涵盖了体育、游戏、博客等多个领域。该数据集由NVIDIA等机构创建，旨在支持长视频推理任务，如时间推理、目标与目的推理、空间推理、情节与叙事推理等。数据集的创建过程包括视频剪辑、自动标注和问答生成，并利用了NVILA-8B等模型进行推理。

LongVideo-Reason is a dataset consisting of 52K long video question-answer pairs, covering multiple domains such as sports, gaming, and vlogging. This dataset was developed by institutions including NVIDIA, with the aim of supporting long-form video reasoning tasks including temporal reasoning, goal and intent reasoning, spatial reasoning, plot and narrative reasoning, and more. The dataset construction process includes video clipping, automatic annotation, question-answer generation, and leverages models such as NVILA-8B for reasoning.

提供机构：

NVIDIA, MIT, HKU, UC Berkeley

创建时间：

2025-07-11

原始信息汇总

Long-RL 数据集概述

基本信息

项目名称: Long-RL: Scaling RL to Long Sequences
论文链接: arXiv Link
代码许可: Apache 2.0 License
发布日期: 2025年7月10日

数据集亮点

长视频RL训练: 支持单节点（8 GPUs）上对小时级别长视频（3,600帧 - 256k tokens）进行RL训练。
全模态模型支持: 支持文本、视频和音频输入的全模态模型RL训练。
图像/视频生成RL: 支持Stable Diffusion和Wan系列等图像/视频生成模型的RL训练。

支持模型

VILA系列模型: 支持图像和视频输入，包含序列并行（SP）支持。
Qwen-VL系列模型: 支持文本、图像、视频和音频输入，包含序列并行（SP）支持。
图像和视频扩散模型: 支持Stable Diffusion和Wan系列模型的RL训练。

支持算法

GRPO: 支持GRPO算法。
DAPO & Reinforce: 支持DAPO和Reinforce算法，包含序列并行（SP）支持。

数据集详情

名称: LongVideo-Reason
规模: 52K长视频问答对。
标注: 高质量推理标注，涵盖体育、游戏和vlog等多个领域。

训练基础设施

MR-SP系统: 多模态强化序列并行（Multi-modal Reinforcement Sequence Parallelism），包含序列并行和基于vLLM的引擎。
效率提升: 在长视频RL训练中实现最高2.1倍加速。

安装与使用

安装命令: bash git clone https://github.com/NVlabs/Long-RL.git cd Long-RL pip install -e .
Qwen-Omni模型训练: bash bash vllm_replace.sh

训练示例

单节点训练: bash bash examples/new_supports/qwen2_5_vl_3b_video_grpo.sh $VIDEO_PATH
多节点训练: bash bash scripts/srun_multi_nodes.sh examples/new_supports/qwen2_5_vl_3b_video_grpo.sh 2

评估

评估指令: 位于eval目录中。

贡献指南

步骤: Fork项目、克隆仓库、安装依赖、提交修改、发起Pull Request。

核心贡献者

Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu等。

引用

bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }

致谢

EasyR1: 基础代码库。
verl: RL训练框架。
vllm: 用于rollout引擎。
Flow-GRPO: 图像/视频生成RL参考。

搜集汇总

数据集介绍

构建方式

LongVideo-Reason数据集的构建采用了多阶段自动化标注流程，首先将长视频分割为10秒的片段，利用NVILA-8B模型生成描述性字幕。随后基于开源推理大模型，结合四种特定提示模板（时间推理、目标推理、空间推理及叙事推理）生成包含52K高质量问答对的标注数据。通过测试缩放方法对样本进行难度分级，最终形成包含18K监督微调样本和33K强化学习样本的层次化数据集，并额外整合110K开源视频数据以增强模型泛化能力。

使用方法

数据集支持两阶段训练范式：在监督微调阶段，研究者可利用18K带思维链标注的样本初始化模型推理能力；在强化学习阶段，33K中等难度样本配合GRPO算法可优化策略模型。评估时建议采用配套的LongVideo-Reason-eval基准，该基准包含1K人工校验样本，涵盖四大推理维度。对于长视频处理，推荐结合论文提出的MR-SP并行训练系统，通过视频嵌入缓存和序列并行技术实现高达2.1倍的训练加速，支持单节点8GPU处理3600帧的超长视频输入。

背景与挑战

背景概述

LongVideo-Reason数据集由NVIDIA、MIT、HKU和UC Berkeley等机构的研究团队于2025年推出，旨在解决长视频理解中的复杂推理问题。该数据集包含52,000个长视频问答对，涵盖体育、游戏、博客等多个领域，并配备了高质量的推理标注。通过结合监督微调（CoT-SFT）和强化学习（RL）的两阶段训练框架，该数据集显著提升了视觉语言模型（VLMs）在长视频推理任务中的表现，并在VideoMME等基准测试中取得了领先成绩。

当前挑战

LongVideo-Reason数据集面临的挑战主要包括两个方面：一是长视频推理任务本身的高复杂性，如时间动态、空间关系和叙事逻辑的建模；二是数据构建过程中的高成本和高主观性，例如标注长视频中的复杂推理步骤需要大量人力和时间。此外，强化学习在长视频训练中的计算开销和内存需求也是重要挑战，需要通过创新的并行化技术（如MR-SP）来优化。

常用场景

经典使用场景

LongVideo-Reason数据集在视觉语言模型（VLMs）的长视频推理任务中扮演了关键角色。该数据集包含52K个长视频问答对，覆盖体育、游戏和视频博客等多个领域，为模型提供了丰富的推理标注。通过两阶段训练流程（链式思维监督微调和强化学习），数据集支持模型在长视频理解中进行复杂的时空推理、目标推理和情节推理。

解决学术问题

该数据集解决了长视频推理中的核心挑战，包括高质量标注数据的稀缺性和长视频强化学习的高计算成本问题。通过提供大规模标注数据和高效的训练框架Multi-modal Reinforcement Sequence Parallelism（MR-SP），显著提升了模型在长视频任务中的推理能力，并在VideoMME等基准测试中实现了领先性能。

实际应用

LongVideo-Reason的实际应用场景包括体育赛事分析、游戏策略预测和视频内容理解。例如，在足球比赛中，模型可以通过分析球员的情绪状态和战术行为预测点球大战的结果；在电子竞技中，模型能够推断玩家的战略意图和比赛走向。这些应用展示了数据集在复杂场景下的实用价值。

数据集最近研究