EOC-Bench

github2025-06-05 更新2025-06-06 收录

下载链接：

https://github.com/alibaba-damo-academy/EOCBench

下载链接

链接失效反馈

官方服务：

资源简介：

EOC-Bench是一个创新的基准数据集，旨在系统地评估动态自我中心场景中的物体中心体现认知。特别地，EOC-Bench包含3,277个精心标注的问答对，分为三个时间类别：过去、现在和未来，涵盖11个细粒度评估维度和3种视觉物体引用类型。为确保全面评估，开发了一个混合格式的人工参与标注框架，包含四种问题类型，并设计了一个新颖的多尺度时间准确性度量标准用于开放式时间评估。

EOC-Bench is an innovative benchmark dataset designed to systematically evaluate object-centric cognition in dynamic egocentric scenarios. Specifically, EOC-Bench contains 3,277 meticulously annotated question-answer pairs, categorized into three temporal classes: past, present, and future. It covers 11 fine-grained evaluation dimensions and three types of visual object reference. To ensure comprehensive assessment, a hybrid human-in-the-loop annotation framework with four question types has been developed, and a novel multi-scale temporal accuracy metric has been designed for open-time evaluation.

创建时间：

2025-06-05

原始信息汇总

EOC-Bench 数据集概述

数据集简介

名称: EOC-Bench
目的: 系统性评估动态自我中心场景中的对象中心化具身认知能力
特点:
- 包含3,277个精细标注的QA对
- 问题分为三个时间类别: Past(过去)、Present(现在)、Future(未来)
- 覆盖11个细粒度评估维度和3种视觉对象引用类型
- 采用混合格式的人机协作标注框架
- 设计了新颖的多尺度时间准确性指标

数据内容

时间分类:
- Past: 回忆性任务
- Present: 即时识别任务
- Future: 预测性任务
评估维度: 11个细粒度类别
对象引用类型: 3种视觉引用方式

获取方式

HuggingFace地址: https://huggingface.co/datasets/CircleRadon/EOC-Bench
项目主页: https://circleradon.github.io/EOCBench/

评估与使用

支持模型:
- 包括gpt-4o、gemini、qwen2.5-vl等15种模型
- 可扩展支持自定义模型
评估方法:
- 提供标准评估脚本
- 支持结果提交至官方排行榜

引用格式

bibtex @article{yuan2025eocbench, author = {Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang}, title = {EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?}, journal = {arXiv}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在动态自我中心场景中评估物体中心化认知能力的EOC-Bench数据集，通过混合格式的人类参与循环标注框架构建而成。该数据集包含3,277个精细标注的问答对，涵盖过去、现在和未来三个时间类别，涉及11个细粒度评估维度和3种视觉物体引用类型。为确保评估全面性，研究团队设计了包含四种问题类型的标注体系，并创新性地提出多尺度时间准确性指标用于开放式时间评估。

特点

EOC-Bench数据集以其独特的时间维度划分和细粒度评估体系脱颖而出。数据集将问题系统地组织为过去、现在和未来三大时间类别，每个类别下又细分为11个具体维度，为多模态大语言模型在自我中心视角下的物体识别、记忆和预测能力提供了全面评估框架。特别值得注意的是，数据集创新性地融合了视觉物体引用机制，通过视频帧标注框提示等方式增强了评估的直观性和准确性。

使用方法

该数据集托管于HuggingFace平台，用户可通过配置Python环境快速部署评估系统。评估代码库支持包括GPT-4o、Gemini、Qwen2.5-VL等在内的多种主流多模态模型。用户可通过修改eval.sh脚本中的模型设置启动评估流程，或通过在models目录中添加自定义模型类实现模型扩展。数据集还提供了详细的评估文档和持续更新的排行榜系统，研究人员可将评估结果提交至指定邮箱参与模型性能比较。

背景与挑战

背景概述

EOC-Bench是由阿里巴巴达摩学院的研究团队于2025年推出的创新性基准数据集，旨在系统评估动态自我中心场景中以物体为中心的具身认知能力。该数据集由Yuqian Yuan等学者主导开发，包含3,277个精细标注的问答对，涵盖过去、现在和未来三个时间维度，涉及11个细粒度评估维度和3种视觉物体引用类型。EOC-Bench通过建立混合格式的人类参与标注框架和创新的多尺度时间精度度量标准，为多模态大语言模型在自我中心视角下的物体识别、记忆和预测能力提供了全面评估工具，推动了具身智能和计算机视觉交叉领域的发展。

当前挑战

EOC-Bench致力于解决自我中心视角下多模态大语言模型对动态场景中物体的时空认知挑战。在领域层面，该数据集需要克服自我中心视频中物体遮挡、视角变化和时序关联等复杂视觉问题，同时要求模型具备跨时间维度的推理能力。在构建过程中，研究团队面临标注一致性和时间维度划分的挑战，特别是对未来事件预测的开放式问答设计需要平衡创造性和客观性。此外，开发多尺度时间精度度量标准以准确评估模型在开放域时间推理任务中的表现，也是数据集构建的关键技术难点。

常用场景

经典使用场景

在动态自我中心场景中，EOC-Bench数据集通过精心设计的3,277个标注QA对，为多模态大语言模型（MLLMs）在对象识别、记忆和预测方面的能力提供了系统性评估框架。该数据集覆盖了过去、现在和未来三个时间维度的11个细粒度评估维度，特别适用于研究模型在复杂视觉场景中的时间推理能力。研究者可利用其混合格式的标注框架和多尺度时间准确性指标，深入探索模型在动态视觉环境中的认知表现。

解决学术问题

EOC-Bench有效解决了多模态学习领域的关键挑战：如何量化评估模型对动态视觉场景中对象的时空理解能力。通过构建包含三种视觉对象引用类型和四种问题形式的评估体系，该数据集填补了现有基准在时间维度评估上的空白。其创新性的人机协同标注框架为研究视觉-语言模型的时间推理机制提供了标准化工具，推动了具身认知研究的发展。

衍生相关工作

基于EOC-Bench的创新评估范式，已衍生出多个关于视频理解与时序推理的研究方向。相关工作包括改进的视觉语言预训练方法、增强型时间注意力机制，以及针对动态场景优化的多模态融合架构。该数据集的开源特性促进了学术界在VideoLLaMA、Osprey等视频理解模型上的对比研究，推动了具身智能评估标准的统一化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集