SEED-Bench-R1

Name: SEED-Bench-R1
Creator: 香港大学, 腾讯PCG ARC Lab
Published: 2025-04-01 01:55:23
License: 暂无描述

arXiv2025-04-01 更新2025-04-03 收录

下载链接：

https://github.com/TencentARC/SEED-Bench-R1

下载链接

链接失效反馈

官方服务：

资源简介：

SEED-Bench-R1是一个针对视频理解设计的多模态大型语言模型（MLLM）的评估基准，由香港大学和腾讯PCG ARC Lab共同创建。该数据集包含大量真实世界的日常活动视频，以及需要逻辑推理的多样化问题。SEED-Bench-R1的验证集分为三个层级，用于评估模型在不同泛化水平下的表现。数据集的问题设计要求模型理解开放式的任务目标，跟踪长期任务进展，感知复杂的实时环境状态，并利用世界知识进行推理以规划下一步行动。

SEED-Bench-R1 is an evaluation benchmark for Multimodal Large Language Models (MLLMs) designed for video understanding, co-created by The University of Hong Kong and Tencent PCG ARC Lab. This dataset includes a vast collection of real-world daily activity videos, alongside diverse questions that require logical reasoning. The validation split of SEED-Bench-R1 is divided into three hierarchical levels, which are used to evaluate model performance at different levels of generalization. The questions in the dataset are designed to require models to comprehend open-ended task objectives, track long-term task progress, perceive complex real-time environmental states, and leverage world knowledge for reasoning to plan subsequent actions.

提供机构：

香港大学, 腾讯PCG ARC Lab

创建时间：

2025-04-01

搜集汇总

数据集介绍

构建方式

SEED-Bench-R1数据集的构建基于现实世界的自我中心视频，这些视频捕捉了日常人类活动。数据集通过自动构建和严格的人工验证相结合的方式，确保数据的多样性和准确性。具体而言，训练数据集利用Epic-Kitchens视频自动构建，而验证数据集则经过严格的人工验证，分为三个层次：同分布评估（L1）、跨环境评估（L2）和跨环境任务评估（L3）。这种层次化的设计旨在全面评估模型在不同场景下的泛化能力。

特点

SEED-Bench-R1数据集的特点在于其复杂多样的视觉输入和问题设计，要求模型具备深度的感知和逻辑推理能力。数据集包含多层次验证集，用于评估模型在同分布和跨分布场景下的表现。此外，数据集提供了大规模的训练问题，这些问题具有易于验证的真实答案，为模型的训练和评估提供了坚实的基础。数据集的任务设计涵盖了日常生活的多个领域，如家务、爱好、娱乐和工作，确保了任务的多样性和实用性。

使用方法

SEED-Bench-R1数据集的使用方法包括模型的训练和评估两个主要环节。在训练阶段，可以利用数据集提供的大规模训练问题对模型进行监督微调（SFT）或强化学习（RL）训练。在评估阶段，通过层次化的验证集对模型在同分布和跨分布场景下的表现进行系统评估。数据集支持多种任务格式，如多选题和开放式问题，适用于不同类型的模型评估。此外，数据集还提供了详细的案例分析和失败案例，帮助研究者深入理解模型的优缺点。

背景与挑战

背景概述

SEED-Bench-R1是由香港大学、腾讯ARC实验室及香港中文大学的研究团队共同开发的多模态大型语言模型（MLLMs）视频理解基准测试工具。该数据集于2025年提出，旨在系统评估强化学习等后训练方法在视频理解任务中的效果。数据集基于真实的第一人称视角视频构建，涵盖日常生活、兴趣爱好、娱乐和工作等多个领域，要求模型具备开放任务目标理解、长时程视觉进度追踪、复杂环境状态感知及基于常识的下一步行动推理能力。其创新性体现在三层评估体系（分布内、跨环境和跨环境-任务场景）和大规模自动构建的训练数据上，为研究社区提供了首个支持视频理解中感知与推理平衡研究的标准化平台。

当前挑战

SEED-Bench-R1面临的核心挑战体现在两个维度：领域问题层面，视频理解需要同时解决时空信息建模、长时依赖捕捉和跨模态对齐等难题，尤其在开放域任务中模型需协调视觉感知与逻辑推理；数据构建层面，真实场景视频的标注需处理动态视觉内容解析、动作顺序依赖建模等问题，而自动构建训练数据时如何保证答案唯一性及验证可行性成为关键瓶颈。具体挑战包括：1) 跨环境泛化时模型对陌生场景的适应能力不足；2) 低帧率采样导致关键视觉线索丢失；3) 基于结果的强化学习可能产生语义不连贯的推理链；4) 过程监督缺失影响决策透明度。

常用场景

经典使用场景

SEED-Bench-R1作为多模态大语言模型（MLLMs）在视频理解领域的系统性评估基准，其经典使用场景聚焦于复杂现实世界视频中的日常任务规划。通过包含厨房操作、兴趣爱好等多环境场景的层级化验证集，该数据集要求模型结合视觉感知与逻辑推理，从候选动作中选择符合任务目标的最优下一步行动。例如在‘将奶油奶酪加入汤中’的任务中，模型需分析视频进度与当前观察图像，推断出‘丢弃空容器’这一符合现实逻辑的动作。

实际应用

在智能家居助手和工业流程指导等实际场景中，SEED-Bench-R1训练的模型展现出显著应用价值。基于第一视角视频的实时环境状态理解能力，可使系统在烹饪指导、设备操作等场景中提供精准的动作建议。例如在未见过的厨房环境中，模型仍能准确判断‘将牛奶倒入面粉碗’的操作顺序，这种强泛化特性使其适用于家庭服务机器人、AR操作指引等需要适应新环境的实际应用。

衍生相关工作

该数据集推动了多项视频理解领域的创新研究，包括腾讯ARC实验室开发的EgoPlan-Bench系列基准，以及基于Qwen2-VL架构的强化学习优化方法。其层级化评估框架被LongVideoBench等通用视频理解基准借鉴，用于测试模型在长视频（8-3600秒）中的表现。相关工作还衍生出对过程监督奖励、视觉-语义对齐等方向的深入探索，如Zhang等人提出的R1-VL模型进一步优化了多模态推理的逐步策略。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集