SEED-Bench-R1

github2025-04-01 更新2025-04-02 收录

下载链接：

https://github.com/TencentARC/SEED-Bench-R1

下载链接

链接失效反馈

官方服务：

资源简介：

SEED-Bench-R1是一个用于系统评估多模态大语言模型（MLLMs）在视频理解任务中的后训练方法的基准数据集。它包括复杂的现实世界视频和日常规划任务，以多项选择题的形式呈现，要求模型具备高级的感知和推理能力。数据集通过三个层次的验证集（同分布、跨环境和跨环境任务）来评估模型的泛化能力，并配备了大规模的训练数据集，其中包含易于验证的真实答案。

SEED-Bench-R1 is a benchmark dataset for systematically evaluating post-training methods of multimodal large language models (MLLMs) in video understanding tasks. It includes complex real-world videos and daily planning tasks presented in the form of multiple-choice questions, which require models to possess advanced perceptual and reasoning capabilities. The dataset evaluates the generalization ability of models through three levels of validation sets: in-distribution, cross-environment, and cross-task scenarios. It is also equipped with a large-scale training dataset containing easily verifiable ground-truth answers.

创建时间：

2025-03-31

原始信息汇总

SEED-Bench-R1 数据集概述

简介

SEED-Bench-R1 是一个用于评估多模态大语言模型（MLLMs）在视频理解任务中后训练方法的基准测试。该数据集专注于需要感知和逻辑推理的复杂任务，通过多层次评估框架（包括同分布、跨环境和跨环境-任务场景）来验证模型的泛化能力。

数据集内容

数据来源：基于 EgoPlan-Bench 和 EgoPlan-Bench2 的训练和验证数据。
数据类型：
- 大规模训练集
- 三级验证集：
  - Level-1：同分布评估
  - Level-2：跨环境评估（OOD）
  - Level-3：跨环境-任务评估（OOD）
数据格式：多项选择题形式，包含四个候选答案。
主要指标：准确率（Accuracy）

训练与评估

基础模型：Qwen2-VL-Instruct-7B
训练方法：
- 强化学习（RL）
- 监督微调（SFT）
评估结果：RL 在数据效率和性能上优于 SFT，尤其在视觉感知方面表现突出。

数据获取

下载地址：HuggingFace
视频来源：Epic-Kitchens 和 Ego4D，使用时需遵守相关许可协议。

引用

bibtex @article{chen2025seedbenchr1, title={Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1}, author={Chen, Yi and Ge, Yuying and Wang, Rui and Ge, Yixiao and Qiu, Lu and Shan, Ying and Liu, Xihui}, journal={arXiv preprint arXiv:2503.24376}, year={2025} }

许可证

视频样本版权归 Epic-Kitchens 和 Ego4D 所有，使用时需遵守其许可协议。

搜集汇总

数据集介绍

构建方式

在视频理解领域，SEED-Bench-R1的构建充分借鉴了现有研究成果的精华。该数据集基于EgoPlan-Bench和EgoPlan-Bench2的验证与测试数据，通过精心设计的层次化评估体系构建而成。训练集采用大规模真实场景视频数据，验证集则划分为三个层级：第一层级针对分布内数据评估，第二层级侧重跨环境场景测试，第三层级则挑战跨环境任务的泛化能力。所有问题均采用四选一的多选题形式呈现，并配备人工验证的标准答案，确保评估的严谨性。

特点

SEED-Bench-R1最显著的特点在于其多维度的评估体系设计。数据集不仅包含复杂的现实场景视频，还设计了需要综合感知与逻辑推理的日常规划任务。通过分层验证机制，能够全面评估模型在分布内外场景的表现差异。数据统计显示，该基准覆盖了丰富的场景类型和任务复杂度，其多选题形式配合准确率指标，为模型性能评估提供了标准化框架。特别值得注意的是，数据集特别关注强化学习在视频理解中的效果验证，这为相关研究提供了独特视角。

使用方法

使用SEED-Bench-R1需要遵循系统化的操作流程。研究者首先需配置Python3.10环境并安装指定依赖库，通过HuggingFace获取数据集和Qwen2-VL-7B-Instruct基础模型。训练阶段提供GRPO强化学习和监督微调两种脚本，支持8块A100显卡的并行计算。评估时运行专用推理脚本即可获取模型在三个层级验证集上的表现。需要注意的是，视频样本源自Epic-Kitchens和Ego4D数据集，使用时需遵守对应的许可协议。数据集配套的完整代码库和详细文档大大降低了使用门槛。

背景与挑战

背景概述

SEED-Bench-R1是由腾讯ARC实验室于2025年推出的多模态大语言模型视频理解基准测试集，其核心研究聚焦于强化学习在视频理解任务中的后训练效果评估。该数据集建立在EgoPlan-Bench和EgoPlan-Bench2等前期工作基础上，通过包含真实场景视频和日常规划任务的多选题形式，系统考察模型在感知与逻辑推理方面的综合能力。作为首个采用三级层次化评估框架（域内分布、跨环境、跨环境-任务）的视频理解基准，SEED-Bench-R1为多模态大语言模型的泛化性能研究提供了标准化测试平台，其创新性设计推动了视频语义理解与决策推理的交叉领域发展。

当前挑战

该数据集面临的核心挑战主要体现在两个维度：在领域问题层面，视频理解需要模型同时处理时序视觉特征提取、多模态信息对齐以及复杂情境推理等复合任务，现有方法常出现逻辑链断裂或视觉线索遗漏等问题；在构建过程中，真实场景视频的语义标注需要平衡专业性与普适性，而三级评估体系的设计需确保不同层次间的难度梯度与评估效度。实验表明，强化学习虽能提升视觉感知性能，但在生成连贯推理链方面仍逊于监督微调方法，这揭示了多模态奖励建模与噪声鲁棒性等关键技术瓶颈。

常用场景

经典使用场景

在视频理解领域，SEED-Bench-R1数据集通过其精心设计的多层次评估框架，为研究者提供了一个系统性的工具，用以测试和比较不同后训练方法在复杂视频理解任务中的表现。该数据集包含真实世界视频和日常规划任务，以多选题形式呈现，要求模型具备高级的感知和逻辑推理能力。经典使用场景包括评估强化学习与监督微调在视频理解任务中的效果差异，特别是在分布内和分布外任务上的泛化能力。

解决学术问题

SEED-Bench-R1数据集解决了多模态大语言模型在视频理解任务中感知与推理能力不足的学术难题。通过引入强化学习作为后训练方法，该数据集揭示了强化学习在数据效率和任务泛化方面的优势，同时也暴露了逻辑推理链不一致等局限性。其三级评估体系（分布内、跨环境和跨环境-任务）为研究模型在不同场景下的鲁棒性提供了标准化测试环境，填补了视频理解领域系统性评估工具的空白。

衍生相关工作

SEED-Bench-R1数据集衍生了一系列重要研究工作，包括其基础框架Open-R1-Video、前驱项目EgoPlan和EgoPlan-Bench2等。这些工作共同推动了多模态大语言模型在视频理解领域的发展。DeepSeek、OpenRLHF等项目基于该数据集进行了扩展研究，探索了不同训练策略对模型性能的影响。这些衍生工作形成了完整的视频理解研究生态，为后续研究提供了丰富的技术积累和比较基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集