VideoRFT-CoT-102K和VideoRFT-RL-310K

github2025-05-26 更新2025-05-27 收录

下载链接：

https://github.com/QiWang98/VideoRFT

下载链接

链接失效反馈

官方服务：

资源简介：

基于认知启发的提示策略和视觉语言模型修订，构建了两个大规模的视频推理数据集，用于监督微调（SFT）和强化学习（RL）。VideoRFT-CoT-102K用于SFT，VideoRFT-RL-310K用于RL。这些数据集旨在提升多模态大语言模型（MLLMs）的视频推理能力。

Two large-scale video reasoning datasets were constructed based on cognition-inspired prompting strategies and vision-language model revisions, for supervised fine-tuning (SFT) and reinforcement learning (RL) respectively. Specifically, VideoRFT-CoT-102K is designed for SFT, while VideoRFT-RL-310K is tailored for RL. These datasets are developed to enhance the video reasoning capabilities of multimodal large language models (MLLMs).

创建时间：

2025-05-17

原始信息汇总

VideoRFT数据集概述

数据集简介

名称：VideoRFT
目的：通过强化微调（RFT）培养多模态大语言模型（MLLMs）的视频推理能力
核心贡献：
- 提出自动生成视频思维链（CoT）的流程
- 构建两个大规模数据集：VideoRFT-CoT-102K和VideoRFT-RL-310K
- 引入语义一致性奖励机制

数据集详情

VideoRFT-CoT-102K：
- 用途：监督微调（SFT）阶段
- 规模：102K样本
VideoRFT-RL-310K：
- 用途：强化学习（RL）阶段
- 规模：310K样本

数据集构建方法

认知启发提示策略：基于视频内容的结构化表示生成初步CoT
视觉一致性修正：通过视觉语言模型根据实际视频内容修正CoT

技术特点

语义一致性奖励：显式促进文本推理与视觉证据的对齐
处理效率：
- 训练时帧分辨率：128 × 28 × 28
- 最大帧数：16帧/视频
- 推理时提升至256 × 28 × 28分辨率和32帧/视频

评估配置

解码参数：
- top_p = 0.001
- temperature = 0.01
评估流程：
1. 下载预处理评估JSON
2. 组织官方基准视频数据
3. 运行跨基准评估脚本

资源链接

论文：https://arxiv.org/abs/2505.12434
数据集：https://huggingface.co/datasets/QiWang98/VideoRFT-Data
模型：
- SFT模型：https://huggingface.co/QiWang98/VideoRFT-SFT
- 完整模型：https://huggingface.co/QiWang98/VideoRFT

搜集汇总

数据集介绍

构建方式

在视频理解领域，高质量链式思维(CoT)标注数据的稀缺性长期制约着多模态大语言模型的发展。VideoRFT数据集通过创新的两阶段构建流程突破这一瓶颈：首先采用认知启发的提示策略，驱使推理型大语言模型基于视频内容的结构化表征生成初步推理链；继而通过视觉语言模型结合原始视频数据进行双重校验，有效确保思维链条与视觉证据的语义一致性。该流程最终产出包含10.2万条标注的VideoRFT-CoT-102K监督微调数据集，以及31万条样本的VideoRFT-RL-310K强化学习数据集。

特点

作为当前规模最大的视频推理专项数据集，VideoRFT展现出三大核心优势：其认知对齐的标注策略显著提升了模型对视频时序逻辑和因果关系的理解能力；创新的语义一致性奖励机制在强化学习阶段强化了文本推理与视觉线索的关联；覆盖六类基准测试的评估体系验证了数据在复杂场景下的泛化性能。特别值得注意的是，数据集通过帧分辨率动态调整技术（训练时128×28×28，推理时256×28×28），在计算效率与模型性能间实现了精妙平衡。

使用方法

该数据集遵循标准的强化微调范式：研究者可先使用VideoRFT-CoT-102K进行监督微调，通过bash脚本启动单轮训练；继而采用VideoRFT-RL-310K开展强化学习，支持常规PyTorch和vLLM加速两种训练模式。评估阶段建议提升帧分辨率至256×28×28并扩展最大帧数至32，同时配置top_p=0.001和temperature=0.01的解码参数以获得最优性能。数据集已预置评估JSON文件和视频组织结构指引，用户通过统一脚本即可完成六大视频推理基准的自动化测试。

背景与挑战

背景概述

VideoRFT-CoT-102K和VideoRFT-RL-310K数据集由QiWang98团队于2025年提出，旨在解决多模态大语言模型（MLLMs）在视频推理能力方面的不足。视频数据因其复杂的逻辑、时序和因果结构，一直是人工智能领域的研究难点。该团队通过强化微调（RFT）范式，构建了两个大规模数据集，分别用于监督微调（SFT）和强化学习（RL），以提升模型在视频推理任务中的表现。这一工作不仅填补了视频推理数据集的空白，还为相关领域的研究提供了重要资源。

当前挑战

构建VideoRFT数据集面临两大挑战。在领域问题方面，视频推理需要模型理解复杂的时空关系和因果逻辑，这对现有MLLMs提出了极高要求。在构建过程中，高质量视频推理标注的稀缺性成为主要障碍。为此，研究团队设计了一套自动化标注流程，结合认知启发式提示策略和视觉语言模型校验，以确保生成的链式思维（CoT）标注既符合逻辑又与视频内容一致。此外，RL阶段的语义一致性奖励机制设计也需精细调整，以促进文本推理与视觉证据的对齐。

常用场景

经典使用场景

在视频理解与推理领域，VideoRFT-CoT-102K和VideoRFT-RL-310K数据集为多模态大语言模型（MLLMs）的训练提供了丰富的链式思维（CoT）标注数据。这些数据集通过结合视频内容的结构化表示和语言模型的推理能力，显著提升了模型在视频时序逻辑和因果关系分析方面的性能。经典使用场景包括视频问答、事件预测和复杂情境理解，其中模型需要基于视频内容生成连贯且符合视觉证据的推理过程。

解决学术问题

该数据集有效解决了视频推理领域长期存在的数据稀缺问题，尤其是高质量、大规模的视频链式思维标注数据的缺乏。通过自动化的CoT生成流程，数据集不仅减少了人工标注的成本，还显著降低了视觉幻觉现象，提升了模型推理的准确性和一致性。其意义在于为视频推理研究提供了标准化数据基础，推动了多模态模型在复杂视频理解任务中的性能边界。

衍生相关工作

基于VideoRFT数据集，研究者们已开展多项经典工作，包括视频推理模型的强化学习框架优化、多模态对齐方法的改进以及视觉-语言联合表征学习等。这些工作进一步拓展了数据集的应用范围，例如DeepSeek-R1和Open-R1等项目均借鉴了其数据构建方法，推动了视频推理领域的整体进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集