DVD-counting

github2025-02-23 更新2025-02-24 收录

下载链接：

https://github.com/tulerfeng/Video-R1

下载链接

链接失效反馈

官方服务：

资源简介：

从DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue提取的数据集，用于视频基础对话的多步骤推理诊断

本数据集取自名为DVD的诊断型数据集，其全称为《面向视频锚定对话（Video Grounded Dialogue）多步推理的诊断型数据集》，用于开展视频锚定对话场景下的多步推理诊断研究。

创建时间：

2025-02-23

原始信息汇总

Video-R1数据集概述

📌 数据集简介

名称：Video-R1
类型：视频推理训练数据集
目标：系统性探索MLLMs中的视频推理能力
核心贡献：
- 首个系统探索R1范式在视频推理中的应用
- 引入T-GRPO算法（支持时序建模）
- 构建两个训练数据集

📊 数据集构成

Video-R1-COT-165k
- 用途：SFT冷启动
- 特点：包含高质量CoT（Chain-of-Thought）标注
- 生成方式：通过Qwen2.5-VL-72B生成后经规则过滤
Video-R1-260k
- 用途：强化学习训练
- 特点：包含图像和视频数据
- 数据来源：多种公开数据集经采样和平衡

🏷️ 数据特征

支持多模态训练（图像+视频混合）
支持多种答案输出类型：
- 多选题
- 数值型
- OCR
- 自由形式
- 回归分析
训练帧数：最大16帧（可扩展至32/64帧评估）

🚀 性能表现

VSI-Bench：35.8%准确率（超越GPT-4o）
关键优势：
- 仅需7B参数
- 使用32帧输入
- 展现自反思推理能力（"Aha moments"）

⚙️ 技术规格

硬件需求：
- 4×H20（96GB）GPU 或
- 5×A100（80GB）GPU
训练流程：
1. SFT阶段（1个epoch）
2. RL训练（1200步）

📥 获取方式

模型权重：
- HuggingFace
- ModelScope
训练数据：
- HuggingFace
- ModelScope

📜 引用信息

bibtex @article{feng2025video, title={Video-R1: Reinforcing Video Reasoning in MLLMs}, author={Feng, Kaituo and Gong, Kaixiong and Li, Bohao and Guo, Zonghao and Wang, Yibing and Peng, Tianshuo and Wang, Benyou and Yue, Xiangyu}, journal={arXiv preprint arXiv:2503.21776}, year={2025} }

搜集汇总

数据集介绍

构建方式

DVD-counting数据集源自于DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue，旨在为视频理解任务中的深度推理能力提供诊断性数据。该数据集通过提取视频文件并配合jsonl文件中的训练/测试分割，构建了一个适用于视频计数任务的多模态数据集。

使用方法

使用DVD-counting数据集首先需要搭建相应的环境，通过conda创建python环境并执行环境搭建脚本。之后，下载数据集并放置于指定目录下。训练阶段，可使用提供的脚本进行Qwen2-VL-7B-Instruct模型的GRPO训练。评估阶段，则通过执行评估脚本对视频计数任务进行性能评估。

背景与挑战

背景概述

DVD-counting数据集源自于对视频理解任务中深度推理能力的探索，该数据集的创建标志着视频理解领域在模拟人类深度思考方面的一大步。该数据集由Video-R1项目团队于2025年2月23日首次公开，其核心研究问题在于如何在视频理解任务中同时提升模型的准确性和推理长度。该数据集不仅展现了研究团队在视频理解领域的先进技术，也为相关领域的研究提供了重要的数据资源，推动了视频理解技术的发展。

当前挑战

在DVD-counting数据集的研究中，面临的挑战主要涉及两个方面：一是如何通过选择合适的基模型和强大的推理数据集，实现视频任务中准确性和推理长度的共同增长；二是构建过程中，弱基模型和弱推理数据集对于强化深度思考的不利影响。具体而言，该数据集在处理视频计数任务时，模型的推理长度和准确性提升依赖于高质量的训练数据和有效的模型架构设计。

常用场景

经典使用场景

在视频理解领域中，DVD-counting数据集的应用显得尤为重要，其经典使用场景在于通过视频内容进行物体计数任务，进而实现深度推理能力的培养与提升。

解决学术问题

该数据集解决了传统视频理解任务中深度推理能力不足的问题，通过整合深度思考能力，实现了准确度与思考长度的同步增长，为学术研究提供了新的视角和方法。

实际应用

在实际应用中，DVD-counting数据集可用于智能视频监控系统，通过精确计数来辅助安全监控、库存管理等领域，具有显著的现实意义和应用价值。

数据集最近研究