Video-R1-COT-165k 和 Video-R1-260k
收藏arXiv2025-03-28 更新2025-03-29 收录
下载链接:
https://github.com/tulerfeng/Video-R1
下载链接
链接失效反馈官方服务:
资源简介:
Video-R1-COT-165k和Video-R1-260k是两个专门为强化视频推理能力而构建的数据集,包含图像和视频样本。Video-R1-COT-165k用于Soft Prompt Tuning (SFT)的冷启动,Video-R1-260k用于强化学习训练。这两个数据集旨在通过引入高质量的图像推理数据和视频样本,解决高质量视频推理数据稀缺的问题,从而提高多模态大语言模型在视频推理任务上的性能。
Video-R1-COT-165k and Video-R1-260k are two datasets specifically constructed to enhance video reasoning capabilities, containing both image and video samples. Video-R1-COT-165k is used for the cold start of Soft Prompt Tuning (SFT), while Video-R1-260k is intended for reinforcement learning training. These two datasets aim to address the scarcity of high-quality video reasoning data by incorporating high-quality image reasoning data and video samples, thereby improving the performance of multimodal large language models on video reasoning tasks.
提供机构:
香港中文大学
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
在视频推理领域,高质量数据的匮乏一直是制约多模态大语言模型(MLLMs)性能提升的关键瓶颈。Video-R1系列数据集通过创新性的混合数据策略突破这一限制:Video-R1-COT-165k采用Qwen2.5-VL-72B生成思维链标注,经规则过滤后形成监督微调数据集;Video-R1-260k则整合44%视频数据与56%图像数据,涵盖通用场景、图表解析、OCR文本识别、数学推理等七大类别,通过精确设计的规则奖励机制(包括多项选择匹配、数值精确比对、文本编辑距离等)确保强化学习训练的稳定性。
特点
该数据集最显著的特征体现在时空双模态的协同设计上。视频数据(116k样本)专注培养时序推理能力,要求模型理解帧间动态关系;图像数据(144k样本)则提供跨领域的静态推理训练,覆盖数学推导、空间关系等复杂认知任务。数据集特别引入对比时序奖励机制,通过有序帧与乱序帧的响应差异来量化模型对时序信息的利用率,这种创新设计使模型在VSI-Bench空间推理基准上达到35.8%的准确率,超越商业模型GPT-4o。
使用方法
使用该数据集需遵循两阶段训练范式:首先基于Video-R1-COT-165k进行监督微调,使模型掌握基础推理模式;随后采用T-GRPO算法在Video-R1-260k上开展强化学习,通过时序对比奖励机制优化策略。训练时需注意动态调整响应长度奖励(320-512token区间),并配合16-32帧的多分辨率输入(训练128×28×28,推理256×28×28)。实验表明,仅1k步RL训练即可显著提升模型在VideoMMMU等复杂基准上的表现,证实了该数据集的高效知识迁移能力。
背景与挑战
背景概述
Video-R1-COT-165k 和 Video-R1-260k 是由香港中文大学多媒体实验室(CUHK MMLab)等机构的研究团队于2025年提出的视频推理数据集,旨在通过强化学习范式提升多模态大语言模型(MLLMs)的视频推理能力。该研究受DeepSeek-R1在文本推理领域的成功启发,首次系统探索了基于规则强化学习(RL)的视频时序推理方法。数据集包含16.5万条链式思维(CoT)标注的监督微调数据和26万条强化学习训练数据,融合了图像与视频样本,显著提升了模型在VideoMMMU、VSI-Bench等视频推理基准上的表现,其中Video-R1-7B模型在空间推理基准VSI-Bench上以35.8%准确率超越GPT-4o。
当前挑战
该数据集面临的核心挑战体现在两方面:其一,领域问题层面,视频推理需解决时序建模缺失导致的推理捷径问题——原始GRPO算法缺乏显式时序奖励信号,模型易依赖单帧特征而忽略跨帧时序推理;其二,数据构建层面,高质量视频推理数据稀缺,现有数据集多聚焦简单识别任务,难以支撑复杂长链推理。研究团队通过提出时序对比奖励算法T-GRPO和引入图像推理数据的混合训练策略应对挑战,但动态长度控制、长视频帧处理等难题仍待突破。
常用场景
经典使用场景
Video-R1-COT-165k 和 Video-R1-260k 数据集在视频推理领域具有广泛的应用场景,特别是在多模态大语言模型(MLLMs)的训练中。这些数据集通过结合图像和视频推理数据,为模型提供了丰富的时空推理能力训练素材。经典使用场景包括视频时空推理任务,如视频空间推理(VSI-Bench)、多学科专业视频知识获取(VideoMMMU)以及一般视频理解任务(MVBench)。这些场景要求模型不仅能够理解静态图像内容,还需具备对动态视频序列的时序推理能力。
实际应用
在实际应用中,Video-R1数据集及其衍生的模型能够广泛应用于智能视频分析、自动驾驶、医疗影像诊断等领域。例如,在自动驾驶场景中,模型可通过分析连续视频帧来预测车辆和行人的运动轨迹;在医疗领域,模型能够从动态医学影像中提取关键时序信息,辅助医生进行疾病诊断。这些应用不仅提升了自动化系统的智能化水平,也为多模态人工智能技术的落地提供了有力支持。
衍生相关工作
Video-R1数据集的发布推动了多模态推理领域的多项经典工作。例如,基于T-GRPO算法的研究进一步优化了视频时序建模的效率;同时,该数据集为后续工作如Video-UTR和Kimi k1.5等提供了重要的数据基础。此外,Video-R1的混合数据策略(结合图像与视频数据)也被广泛应用于其他多模态任务,如Open Reasoner Zero和Skywork R1V等项目,显著提升了模型在跨模态推理任务中的泛化能力。
以上内容由遇见数据集搜集并总结生成



