longvideo-reason

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/LongVideo-Reason/longvideo-reason

下载链接

链接失效反馈

官方服务：

资源简介：

LongVideo-Reason是一个包含52K个针对长视频推理的问题-推理-答案对的高质量数据集，旨在通过结合高质量的推理注释和强化学习来提高视频推理能力。同时，还提供了一个包含1K个长视频样本的基准LongVideo-Reason-eval，用于从时间、目标与目的、空间和情节与叙事四个角度全面评估模型性能。

创建时间：

2025-07-09

原始信息汇总

LongVideo-Reason 数据集概述

数据集基本信息

名称: LongVideo-Reason
类型: 长视频推理数据集
用途: 研究用途（仅限）
相关论文: Scaling RL to Long Sequences

数据集构成

训练集 (LongVideo-Reason): 52K 高质量问答推理对
测试集 (LongVideo-Reason-eval): 1K 手动筛选的长视频样本
数据来源: 18K 长视频（来自 Shot2Story）

数据特点

标注类型: CoT (Chain-of-Thought) 标注
构建工具: NVILA-8B VLM 和开源推理 LLM
评估维度: 时间、目标与目的、空间、情节与叙事

训练阶段

第一阶段 (Long-CoT-SFT): 18K 高质量样本用于初始化模型推理能力
第二阶段 (RL): 33K 样本 + 110K 视频数据用于强化学习

引用信息

bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }

bibtex @article{chen2025longvila-r1, title={Scaling RL to Long Videos}, author={Yukang Chen and Wei Huang and Baifeng Shi and Qinghao Hu and Hanrong Ye and Ligeng Zhu and Zhijian Liu and Pavlo Molchanov and Jan Kautz and Xiaojuan Qi and Sifei Liu and Hongxu Yin and Yao Lu and Song Han}, year={2025}, eprint={2507.07966}, archivePrefix={arXiv}, primaryClass={cs.CV} }

bibtex @inproceedings{chen2024longvila, title={LongVILA: Scaling Long-Context Visual Language Models for Long Videos}, author={Yukang Chen and Fuzhao Xue and Dacheng Li and Qinghao Hu and Ligeng Zhu and Xiuyu Li and Yunhao Fang and Haotian Tang and Shang Yang and Zhijian Liu and Ethan He and Hongxu Yin and Pavlo Molchanov and Jan Kautz and Linxi Fan and Yuke Zhu and Yao Lu and Song Han}, booktitle={The International Conference on Learning Representations (ICLR)}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在长序列视频理解领域，LongVideo-Reason数据集通过多阶段协同构建策略实现了高质量标注。研究团队首先利用NVILA-8B视觉语言模型和前沿开源推理大模型，生成52,000组视频问答推理三元组数据。其中18,000组精标样本用于指令微调阶段，33,000组样本配合110,000段视频数据构成强化学习训练集。这种融合高质量因果标注与强化学习的双阶段构建方法，有效提升了模型的长视频推理泛化能力。

特点

该数据集在长视频语义理解维度展现出独特优势。核心数据包含52K训练样本和1K平衡测试集，覆盖时间推理、目标意图识别、空间关系理解和情节叙事分析四大评估维度。测试集LongVideo-Reason-eval经过人工精心校验，构建了包含时间连贯性、空间定位、目的推理和情节发展等复合指标的评估体系，为长视频多模态理解提供了全面可靠的基准平台。

使用方法

使用该数据集需遵循标准化技术流程。通过GitHub仓库提供的安装脚本配置环境后，用户可选择单节点或多节点训练方案，具体执行脚本存放于examples目录。评估阶段需调用eval目录的标准化测试模块，该模块支持对模型在四大认知维度的细粒度性能分析。数据集采用分阶段训练策略，建议先进行指令微调再转入强化学习阶段，最终通过模型合并脚本整合检查点以获得最优推理性能。

背景与挑战

背景概述

LongVideo-Reason数据集由NVlabs团队于2025年构建，旨在推动长视频推理领域的研究。该数据集基于先进的视觉语言模型NVILA-8B和开源推理大语言模型，精心构建了包含52K高质量问题-推理-答案对的长视频样本。研究团队采用两阶段训练策略，将高质量推理标注与强化学习相结合，显著提升了模型在长视频理解任务中的表现。该数据集的创建标志着视频理解研究从短片段分析向长序列推理的重要转变，为视频叙事理解、时空关系推理等核心问题提供了新的研究基准。

当前挑战

长视频推理面临多重挑战：在领域层面，模型需要同时处理时空信息的长期依赖关系，理解复杂的叙事结构和隐含意图，这对传统视频理解方法提出了严峻考验。在数据构建过程中，研究团队需解决高质量标注获取困难的问题，包括长视频语义连贯性保持、多模态对齐精度控制等关键技术难点。此外，评估基准的设计需要平衡时间维度、空间关系、目标意图和情节叙述四个维度的综合考量，这对标注一致性和评估指标设计提出了极高要求。

常用场景

经典使用场景

在长视频理解领域，LongVideo-Reason数据集为研究者提供了一个丰富的资源，用于训练和评估模型在长序列视频中的推理能力。通过52K高质量的问题-推理-答案对，该数据集支持模型在时间、空间、目标和情节等多个维度上进行深度分析，尤其适用于需要复杂推理的长视频场景。

衍生相关工作

基于LongVideo-Reason数据集，研究者已开发出如LongVILA-R1等经典模型，这些工作在长视频推理领域取得了显著成果。相关研究进一步扩展了数据集的应用范围，例如在视频生成、多模态对话系统等方向，衍生出了一系列创新性工作，推动了整个领域的快速发展。

数据集最近研究