LongVideo-Reason|长视频分析数据集|自然语言处理数据集
收藏Long-RL 数据集概述
基本信息
- 项目名称: Long-RL: Scaling RL to Long Sequences
- 论文链接: arXiv Link
- 代码许可: Apache 2.0 License
- 发布日期: 2025年7月10日
数据集亮点
- 长视频RL训练: 支持单节点(8 GPUs)上对小时级别长视频(3,600帧 - 256k tokens)进行RL训练。
- 全模态模型支持: 支持文本、视频和音频输入的全模态模型RL训练。
- 图像/视频生成RL: 支持Stable Diffusion和Wan系列等图像/视频生成模型的RL训练。
支持模型
- VILA系列模型: 支持图像和视频输入,包含序列并行(SP)支持。
- Qwen-VL系列模型: 支持文本、图像、视频和音频输入,包含序列并行(SP)支持。
- 图像和视频扩散模型: 支持Stable Diffusion和Wan系列模型的RL训练。
支持算法
- GRPO: 支持GRPO算法。
- DAPO & Reinforce: 支持DAPO和Reinforce算法,包含序列并行(SP)支持。
数据集详情
- 名称: LongVideo-Reason
- 规模: 52K长视频问答对。
- 标注: 高质量推理标注,涵盖体育、游戏和vlog等多个领域。
训练基础设施
- MR-SP系统: 多模态强化序列并行(Multi-modal Reinforcement Sequence Parallelism),包含序列并行和基于vLLM的引擎。
- 效率提升: 在长视频RL训练中实现最高2.1倍加速。
安装与使用
-
安装命令: bash git clone https://github.com/NVlabs/Long-RL.git cd Long-RL pip install -e .
-
Qwen-Omni模型训练: bash bash vllm_replace.sh
训练示例
-
单节点训练: bash bash examples/new_supports/qwen2_5_vl_3b_video_grpo.sh $VIDEO_PATH
-
多节点训练: bash bash scripts/srun_multi_nodes.sh examples/new_supports/qwen2_5_vl_3b_video_grpo.sh 2
评估
- 评估指令: 位于
eval
目录中。
贡献指南
- 步骤: Fork项目、克隆仓库、安装依赖、提交修改、发起Pull Request。
核心贡献者
- Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu等。
引用
bibtex @misc{long-rl, title = {Long-RL: Scaling RL to Long Sequences}, author = {Yukang Chen, Wei Huang, Shuai Yang, Qinghao Hu, Baifeng Shi, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu,Hongxu Yin, Yao Lu, Song Han}, year = {2025}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/NVlabs/Long-RL}}, }
致谢
- EasyR1: 基础代码库。
- verl: RL训练框架。
- vllm: 用于rollout引擎。
- Flow-GRPO: 图像/视频生成RL参考。

- 1Scaling RL to Long VideosNVIDIA, MIT, HKU, UC Berkeley · 2025年
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
波士顿房价数据集
波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。
阿里云天池 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录
图书馆每日人流信息
日期,入馆人数,名称
浙江数据开放 收录
LMHLD (Large-scale Multi-source High-resolution Landslide Dataset)
LMHLD是一个大规模多源高分辨率滑坡数据集,由中国地质大学(武汉)未来技术学院构建。该数据集收集了全球七个研究区域的遥感图像,包括中国汶川、巴西里约热内卢、尼泊尔戈尔卡、中国九寨沟、中国台湾、日本北海道和意大利艾米利亚-罗马涅,涵盖了不同触发条件下的多种类型滑坡。数据集包含25365个不同大小的斑块,以适应不同尺度的滑坡检测需求,为基于深度学习的滑坡检测提供了丰富的训练样本。
arXiv 收录