five

LongVideo-Reason|长视频分析数据集|自然语言处理数据集

收藏
arXiv2025-07-11 更新2025-07-12 收录
长视频分析
自然语言处理
下载链接:
https://github.com/NVlabs/Long-RL
下载链接
链接失效反馈
资源简介:
LongVideo-Reason是一个包含52K长视频问答对的数据集,涵盖了体育、游戏、博客等多个领域。该数据集由NVIDIA等机构创建,旨在支持长视频推理任务,如时间推理、目标与目的推理、空间推理、情节与叙事推理等。数据集的创建过程包括视频剪辑、自动标注和问答生成,并利用了NVILA-8B等模型进行推理。
提供机构:
NVIDIA, MIT, HKU, UC Berkeley
创建时间:
2025-07-11
原始信息汇总

Long-RL 数据集概述

基本信息

  • 项目名称: Long-RL: Scaling RL to Long Sequences
  • 论文链接: arXiv Link
  • 代码许可: Apache 2.0 License
  • 发布日期: 2025年7月10日

数据集亮点

  1. 长视频RL训练: 支持单节点(8 GPUs)上对小时级别长视频(3,600帧 - 256k tokens)进行RL训练。
  2. 全模态模型支持: 支持文本、视频和音频输入的全模态模型RL训练。
  3. 图像/视频生成RL: 支持Stable Diffusion和Wan系列等图像/视频生成模型的RL训练。

支持模型

  • VILA系列模型: 支持图像和视频输入,包含序列并行(SP)支持。
  • Qwen-VL系列模型: 支持文本、图像、视频和音频输入,包含序列并行(SP)支持。
  • 图像和视频扩散模型: 支持Stable Diffusion和Wan系列模型的RL训练。

支持算法

  • GRPO: 支持GRPO算法。
  • DAPO & Reinforce: 支持DAPO和Reinforce算法,包含序列并行(SP)支持。

数据集详情

  • 名称: LongVideo-Reason
  • 规模: 52K长视频问答对。
  • 标注: 高质量推理标注,涵盖体育、游戏和vlog等多个领域。

训练基础设施

  • MR-SP系统: 多模态强化序列并行(Multi-modal Reinforcement Sequence Parallelism),包含序列并行和基于vLLM的引擎。
  • 效率提升: 在长视频RL训练中实现最高2.1倍加速。

安装与使用

  • 安装命令: bash git clone https://github.com/NVlabs/Long-RL.git cd Long-RL pip install -e .

  • Qwen-Omni模型训练: bash bash vllm_replace.sh

训练示例

  • 单节点训练: bash bash examples/new_supports/qwen2_5_vl_3b_video_grpo.sh $VIDEO_PATH

  • 多节点训练: bash bash scripts/srun_multi_nodes.sh examples/new_supports/qwen2_5_vl_3b_video_grpo.sh 2

评估

  • 评估指令: 位于eval目录中。

贡献指南

  • 步骤: Fork项目、克隆仓库、安装依赖、提交修改、发起Pull Request。

核心贡献者

  • Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu等。

引用

bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }

致谢

  • EasyR1: 基础代码库。
  • verl: RL训练框架。
  • vllm: 用于rollout引擎。
  • Flow-GRPO: 图像/视频生成RL参考。
AI搜集汇总
数据集介绍
main_image_url
构建方式
LongVideo-Reason数据集的构建采用了多阶段自动化标注流程,首先将长视频分割为10秒的片段,利用NVILA-8B模型生成描述性字幕。随后基于开源推理大模型,结合四种特定提示模板(时间推理、目标推理、空间推理及叙事推理)生成包含52K高质量问答对的标注数据。通过测试缩放方法对样本进行难度分级,最终形成包含18K监督微调样本和33K强化学习样本的层次化数据集,并额外整合110K开源视频数据以增强模型泛化能力。
使用方法
数据集支持两阶段训练范式:在监督微调阶段,研究者可利用18K带思维链标注的样本初始化模型推理能力;在强化学习阶段,33K中等难度样本配合GRPO算法可优化策略模型。评估时建议采用配套的LongVideo-Reason-eval基准,该基准包含1K人工校验样本,涵盖四大推理维度。对于长视频处理,推荐结合论文提出的MR-SP并行训练系统,通过视频嵌入缓存和序列并行技术实现高达2.1倍的训练加速,支持单节点8GPU处理3600帧的超长视频输入。
背景与挑战
背景概述
LongVideo-Reason数据集由NVIDIA、MIT、HKU和UC Berkeley等机构的研究团队于2025年推出,旨在解决长视频理解中的复杂推理问题。该数据集包含52,000个长视频问答对,涵盖体育、游戏、博客等多个领域,并配备了高质量的推理标注。通过结合监督微调(CoT-SFT)和强化学习(RL)的两阶段训练框架,该数据集显著提升了视觉语言模型(VLMs)在长视频推理任务中的表现,并在VideoMME等基准测试中取得了领先成绩。
当前挑战
LongVideo-Reason数据集面临的挑战主要包括两个方面:一是长视频推理任务本身的高复杂性,如时间动态、空间关系和叙事逻辑的建模;二是数据构建过程中的高成本和高主观性,例如标注长视频中的复杂推理步骤需要大量人力和时间。此外,强化学习在长视频训练中的计算开销和内存需求也是重要挑战,需要通过创新的并行化技术(如MR-SP)来优化。
常用场景
经典使用场景
LongVideo-Reason数据集在视觉语言模型(VLMs)的长视频推理任务中扮演了关键角色。该数据集包含52K个长视频问答对,覆盖体育、游戏和视频博客等多个领域,为模型提供了丰富的推理标注。通过两阶段训练流程(链式思维监督微调和强化学习),数据集支持模型在长视频理解中进行复杂的时空推理、目标推理和情节推理。
解决学术问题
该数据集解决了长视频推理中的核心挑战,包括高质量标注数据的稀缺性和长视频强化学习的高计算成本问题。通过提供大规模标注数据和高效的训练框架Multi-modal Reinforcement Sequence Parallelism(MR-SP),显著提升了模型在长视频任务中的推理能力,并在VideoMME等基准测试中实现了领先性能。
实际应用
LongVideo-Reason的实际应用场景包括体育赛事分析、游戏策略预测和视频内容理解。例如,在足球比赛中,模型可以通过分析球员的情绪状态和战术行为预测点球大战的结果;在电子竞技中,模型能够推断玩家的战略意图和比赛走向。这些应用展示了数据集在复杂场景下的实用价值。
数据集最近研究
最新研究方向
近年来,随着多模态大模型在视频理解领域的快速发展,LongVideo-Reason数据集因其专注于长视频推理任务而备受关注。该数据集包含52K个高质量的长视频问答对,覆盖体育、游戏、博客等多个领域,为视觉语言模型(VLMs)的长视频推理能力提供了重要支持。前沿研究主要集中在以下几个方面:首先,通过强化学习(RL)与思维链监督微调(CoT-SFT)的两阶段训练框架,显著提升了模型在长视频中的时空推理、目标推理和情节推理能力。其次,提出的多模态强化序列并行(MR-SP)技术有效解决了长视频训练中的内存和计算效率问题,实现了高达2.1倍的训练加速。此外,该数据集还推动了长视频理解在机器人、自动驾驶等实际应用中的发展,为多模态推理模型的性能评估提供了新的基准。
相关研究论文
  • 1
    Scaling RL to Long VideosNVIDIA, MIT, HKU, UC Berkeley · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

图书馆每日人流信息

日期,入馆人数,名称

浙江数据开放 收录

LMHLD (Large-scale Multi-source High-resolution Landslide Dataset)

LMHLD是一个大规模多源高分辨率滑坡数据集,由中国地质大学(武汉)未来技术学院构建。该数据集收集了全球七个研究区域的遥感图像,包括中国汶川、巴西里约热内卢、尼泊尔戈尔卡、中国九寨沟、中国台湾、日本北海道和意大利艾米利亚-罗马涅,涵盖了不同触发条件下的多种类型滑坡。数据集包含25365个不同大小的斑块,以适应不同尺度的滑坡检测需求,为基于深度学习的滑坡检测提供了丰富的训练样本。

arXiv 收录