LongVideo-Reason

github2025-07-20 更新2025-07-21 收录

下载链接：

https://github.com/NVlabs/Long-RL

下载链接

链接失效反馈

官方服务：

资源简介：

LongVideo-Reason是一个包含52K长视频QA对的大规模数据集，涵盖了体育、游戏和视频博客等多样领域，并标注了高质量推理注释。

LongVideo-Reason is a large-scale dataset consisting of 52K long-form video QA pairs, covering diverse domains including sports, gaming, and video blogs, and annotated with high-quality reasoning annotations.

创建时间：

2025-07-08

原始信息汇总

Long-RL 数据集概述

数据集基本信息

名称: LongVideo-Reason
规模: 52K长视频问答对
领域: 体育、游戏、vlog等多样化领域
标注: 高质量推理标注

数据集特点

长视频处理:
- 支持小时级别长视频（3,600帧 - 256k tokens）
- 专为长视频推理设计
多模态支持:
- 支持文本、视频、音频输入
- 支持图像/视频生成模型

技术框架

训练方法:
- 两阶段训练流程（CoT-SFT和RL）
- 支持GRPO、DAPO & Reinforce算法
基础设施:
- 多模态强化学习序列并行（MR-SP）
- 缓存视频嵌入技术
- 分块聚集技术

支持模型

VILA系列模型
Qwen-VL系列模型
图像和视频扩散模型（如Stable Diffusion、Wan系列）

数据生成与评估

提供详细的数据生成过程说明
包含评估基准

示例视频

足球视频
德州扑克视频
星际争霸II视频
移动杯子视频

引用信息

bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }

核心贡献者

Yukang Chen
Wei Huang
Shuai Yang
Qinghao Hu
Baifeng Shi
Hanrong Ye
Ligeng Zhu

搜集汇总

数据集介绍

构建方式

LongVideo-Reason数据集通过精心设计的流程构建，涵盖了52,000个长视频问答对，覆盖体育、游戏和视频博客等多个领域。数据生成过程结合了高质量的推理标注，确保每个视频片段与相应的问题和答案紧密关联。构建过程中采用了多模态数据处理技术，整合了视频、文本和音频信息，以支持复杂的推理任务。数据集的标注工作由专业团队完成，确保了标注的准确性和一致性。

特点

LongVideo-Reason数据集以其大规模和多样性著称，涵盖了小时级别的长视频内容，支持多模态输入（文本、视频、音频）。数据集特别注重推理标注的质量，每个问答对均经过严格验证。此外，数据集还支持开放式问答任务，增强了其在复杂推理场景下的适用性。数据的高质量和广泛覆盖的领域使其成为长视频推理研究的理想选择。

使用方法

使用LongVideo-Reason数据集时，用户需首先克隆项目仓库并完成环境配置。数据集支持多种训练模式，包括单节点和多节点训练，用户可根据需求选择相应的脚本。数据集还提供了缓存视频嵌入和分块处理功能，以优化训练效率。用户可通过详细的示例脚本快速上手，并在不同领域的长视频推理任务中验证模型性能。

背景与挑战

背景概述

LongVideo-Reason数据集由NVIDIA实验室联合多所顶尖研究机构于2025年推出，旨在解决长视频多模态推理这一前沿课题。作为视觉语言模型（VLMs）领域的重要基准，该数据集包含52,000条涵盖体育、游戏、博客等多样化场景的长视频问答对，并配有精细标注的推理链条。研究团队创新性地提出多模态强化序列并行（MR-SP）训练框架，通过视频嵌入缓存和序列并行技术，实现了小时级长视频的高效处理，为突破传统视频理解模型的序列长度限制提供了关键基础设施。该数据集的发布显著推动了视频时序推理、跨模态对齐等核心研究方向的发展。

当前挑战

长视频推理面临三大核心挑战：时序建模方面，小时级视频包含数十万量级的视觉token，传统注意力机制存在二次方复杂度瓶颈；多模态对齐方面，视频、音频、文本模态的细粒度关联需要解决跨模态语义鸿沟问题；训练效率方面，长序列导致的显存爆炸和计算冗余严重制约模型可扩展性。数据构建过程中，研究团队需克服标注一致性难题——不同场景的视频需要设计领域特定的推理链标注规范，同时确保数万条样本的标注质量。此外，处理原始视频的帧采样策略、计算资源消耗优化等工程挑战也直接影响数据集的可用性。

常用场景

经典使用场景

在视觉语言模型（VLMs）的研究中，LongVideo-Reason数据集为长视频推理任务提供了丰富的资源。该数据集包含52K个长视频问答对，覆盖体育、游戏和视频博客等多个领域，为研究者提供了多样化的实验场景。通过结合链式思维监督微调（CoT-SFT）和强化学习（RL），该数据集能够有效支持模型在长视频序列中的推理能力提升。

实际应用

在实际应用中，LongVideo-Reason数据集被广泛用于智能视频分析、自动化问答系统以及多模态内容生成等领域。例如，在体育视频分析中，模型可以利用该数据集进行动作识别和事件推理；在游戏视频中，模型能够分析玩家策略并生成实时反馈。这些应用展示了数据集在现实场景中的强大潜力。

衍生相关工作

围绕LongVideo-Reason数据集，研究者们开发了一系列经典工作，如LongVILA和Qwen-VL系列模型。这些工作进一步扩展了数据集的应用范围，包括图像和视频生成模型的强化学习训练。此外，基于该数据集的MR-SP技术也为其他长序列任务提供了可借鉴的优化方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集