Video-R1-COT-165k 和 Video-R1-260k

Name: Video-R1-COT-165k 和 Video-R1-260k
Creator: 香港中文大学
Published: 2025-03-28 01:59:51
License: 暂无描述

arXiv2025-03-28 更新2025-03-29 收录

下载链接：

https://github.com/tulerfeng/Video-R1

下载链接

链接失效反馈

官方服务：

资源简介：

Video-R1-COT-165k和Video-R1-260k是两个专门为强化视频推理能力而构建的数据集，包含图像和视频样本。Video-R1-COT-165k用于Soft Prompt Tuning (SFT)的冷启动，Video-R1-260k用于强化学习训练。这两个数据集旨在通过引入高质量的图像推理数据和视频样本，解决高质量视频推理数据稀缺的问题，从而提高多模态大语言模型在视频推理任务上的性能。

Video-R1-COT-165k and Video-R1-260k are two datasets specifically constructed to enhance video reasoning capabilities, containing both image and video samples. Video-R1-COT-165k is used for the cold start of Soft Prompt Tuning (SFT), while Video-R1-260k is intended for reinforcement learning training. These two datasets aim to address the scarcity of high-quality video reasoning data by incorporating high-quality image reasoning data and video samples, thereby improving the performance of multimodal large language models on video reasoning tasks.

提供机构：

香港中文大学

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

在视频推理领域，高质量数据的匮乏一直是制约多模态大语言模型（MLLMs）性能提升的关键瓶颈。Video-R1系列数据集通过创新性的混合数据策略突破这一限制：Video-R1-COT-165k采用Qwen2.5-VL-72B生成思维链标注，经规则过滤后形成监督微调数据集；Video-R1-260k则整合44%视频数据与56%图像数据，涵盖通用场景、图表解析、OCR文本识别、数学推理等七大类别，通过精确设计的规则奖励机制（包括多项选择匹配、数值精确比对、文本编辑距离等）确保强化学习训练的稳定性。

特点

该数据集最显著的特征体现在时空双模态的协同设计上。视频数据（116k样本）专注培养时序推理能力，要求模型理解帧间动态关系；图像数据（144k样本）则提供跨领域的静态推理训练，覆盖数学推导、空间关系等复杂认知任务。数据集特别引入对比时序奖励机制，通过有序帧与乱序帧的响应差异来量化模型对时序信息的利用率，这种创新设计使模型在VSI-Bench空间推理基准上达到35.8%的准确率，超越商业模型GPT-4o。

使用方法

使用该数据集需遵循两阶段训练范式：首先基于Video-R1-COT-165k进行监督微调，使模型掌握基础推理模式；随后采用T-GRPO算法在Video-R1-260k上开展强化学习，通过时序对比奖励机制优化策略。训练时需注意动态调整响应长度奖励（320-512token区间），并配合16-32帧的多分辨率输入（训练128×28×28，推理256×28×28）。实验表明，仅1k步RL训练即可显著提升模型在VideoMMMU等复杂基准上的表现，证实了该数据集的高效知识迁移能力。

背景与挑战

背景概述

Video-R1-COT-165k 和 Video-R1-260k 是由香港中文大学多媒体实验室（CUHK MMLab）等机构的研究团队于2025年提出的视频推理数据集，旨在通过强化学习范式提升多模态大语言模型（MLLMs）的视频推理能力。该研究受DeepSeek-R1在文本推理领域的成功启发，首次系统探索了基于规则强化学习（RL）的视频时序推理方法。数据集包含16.5万条链式思维（CoT）标注的监督微调数据和26万条强化学习训练数据，融合了图像与视频样本，显著提升了模型在VideoMMMU、VSI-Bench等视频推理基准上的表现，其中Video-R1-7B模型在空间推理基准VSI-Bench上以35.8%准确率超越GPT-4o。

当前挑战

该数据集面临的核心挑战体现在两方面：其一，领域问题层面，视频推理需解决时序建模缺失导致的推理捷径问题——原始GRPO算法缺乏显式时序奖励信号，模型易依赖单帧特征而忽略跨帧时序推理；其二，数据构建层面，高质量视频推理数据稀缺，现有数据集多聚焦简单识别任务，难以支撑复杂长链推理。研究团队通过提出时序对比奖励算法T-GRPO和引入图像推理数据的混合训练策略应对挑战，但动态长度控制、长视频帧处理等难题仍待突破。

常用场景

经典使用场景

Video-R1-COT-165k 和 Video-R1-260k 数据集在视频推理领域具有广泛的应用场景，特别是在多模态大语言模型（MLLMs）的训练中。这些数据集通过结合图像和视频推理数据，为模型提供了丰富的时空推理能力训练素材。经典使用场景包括视频时空推理任务，如视频空间推理（VSI-Bench）、多学科专业视频知识获取（VideoMMMU）以及一般视频理解任务（MVBench）。这些场景要求模型不仅能够理解静态图像内容，还需具备对动态视频序列的时序推理能力。

实际应用

在实际应用中，Video-R1数据集及其衍生的模型能够广泛应用于智能视频分析、自动驾驶、医疗影像诊断等领域。例如，在自动驾驶场景中，模型可通过分析连续视频帧来预测车辆和行人的运动轨迹；在医疗领域，模型能够从动态医学影像中提取关键时序信息，辅助医生进行疾病诊断。这些应用不仅提升了自动化系统的智能化水平，也为多模态人工智能技术的落地提供了有力支持。

衍生相关工作

Video-R1数据集的发布推动了多模态推理领域的多项经典工作。例如，基于T-GRPO算法的研究进一步优化了视频时序建模的效率；同时，该数据集为后续工作如Video-UTR和Kimi k1.5等提供了重要的数据基础。此外，Video-R1的混合数据策略（结合图像与视频数据）也被广泛应用于其他多模态任务，如Open Reasoner Zero和Skywork R1V等项目，显著提升了模型在跨模态推理任务中的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集