ECBench

Name: ECBench
Creator: 阿里巴巴达摩院, 浙江大学, 同济大学
Published: 2025-01-09 15:43:49
License: 暂无描述

arXiv2025-01-09 更新2025-01-11 收录

下载链接：

https://github.com/RhDang/ECBench

下载链接

链接失效反馈

官方服务：

资源简介：

ECBench是由阿里巴巴达摩院、浙江大学和同济大学联合开发的一个多模态基准测试数据集，旨在评估大型视觉语言模型在自我中心视频中的认知能力。该数据集包含386个RGB-D视频和4324个问答对，涵盖了30个不同的认知维度，包括感知、推理、自我意识、动态捕捉和幻觉等。数据集的创建过程采用了类独立的人工标注和多轮问题筛选策略，确保了数据的质量和平衡性。ECBench的应用领域主要集中在机器人技术和人工智能领域，旨在解决机器人在动态环境中进行复杂任务时的认知挑战。

ECBench is a multimodal benchmark dataset jointly developed by Alibaba DAMO Academy, Zhejiang University and Tongji University, aiming to evaluate the cognitive capabilities of large vision-language models in egocentric videos. This dataset contains 386 RGB-D videos and 4324 question-answer pairs, covering 30 distinct cognitive dimensions including perception, reasoning, self-awareness, dynamic capture and hallucination. The dataset was constructed using class-independent manual annotation and multi-round question screening strategies to ensure data quality and balance. The application scenarios of ECBench mainly focus on robotics and artificial intelligence, and it is designed to address the cognitive challenges faced by robots when performing complex tasks in dynamic environments.

提供机构：

阿里巴巴达摩院, 浙江大学, 同济大学

创建时间：

2025-01-09

搜集汇总

数据集介绍

构建方式

ECBench数据集的构建采用了多源视频采集与精细的人工标注相结合的方式。首先，通过开放世界物体导航代理和主动问答代理在HM3D虚拟环境中捕捉机器人视角的真实视频流，确保视频内容能够真实反映机器人在任务执行中的感知过程。其次，从ScanNet和MultiScan数据集中精选了191个真实扫描视频，并结合Intel RealSense深度相机采集了现实世界中的反直觉场景和动态场景视频，为幻觉问题和动态感知评估提供了数据基础。为确保数据质量，ECBench采用了类别无关的标注策略，并通过多轮问题筛选机制，减少仅依赖常识即可回答的问题比例。此外，ECBench还引入了ECEval评估系统，结合二元评分和多级评分，确保评估指标的公平性和合理性。

特点

ECBench数据集的特点在于其多样化的场景视频来源、开放的问答形式以及30个维度的具身认知能力评估。数据集涵盖了静态场景、动态场景和幻觉问题三大类别，其中静态场景问题进一步细分为场景认知和机器人中心认知，动态场景问题则聚焦于空间、状态、信息和数量动态变化。ECBench通过引入机器人中心认知问题，首次系统评估了模型对自身与环境关系的理解能力。此外，ECBench还特别关注了具身场景中的幻觉问题，从常识过度自信和用户输入过度自信两个角度进行了详细评估。数据集共包含4,324个问答对，覆盖了30个细粒度的评估维度，确保了评估的全面性和系统性。

使用方法

ECBench数据集的使用方法主要围绕其评估框架ECEval展开。ECEval结合了二元评分和多级评分机制，能够有效处理封闭式和开放式问题的评估。对于封闭式问题，ECEval采用二元评分，直接判断答案的正确性；而对于开放式问题，ECEval则通过人工标注的0.5分参考答案，结合GPT-4o的多级评分，提供更为精确的评分结果。在使用ECBench进行评估时，研究者可以通过输入视频序列和问题，获取模型生成的答案，并利用ECEval框架进行评分。此外，ECBench还提供了详细的评估指标和数据集统计信息，帮助研究者深入分析模型在具身认知任务中的表现。通过ECBench，研究者可以全面评估多模态大模型在具身环境中的认知能力，推动具身智能的发展。

背景与挑战

背景概述

ECBench是由阿里巴巴达摩院、浙江大学和同济大学的研究团队于2025年提出的一个多模态基础模型（LVLMs）在自我中心视频中的具身认知能力评估基准。该数据集的创建旨在解决当前具身视频问答数据集中缺乏系统性和全面性评估框架的问题。ECBench通过引入多样化的场景视频来源、开放的问答格式以及30个维度的具身认知能力，为LVLMs的具身认知能力提供了全面的评估工具。该数据集的核心研究问题包括机器人自我认知、动态场景感知和幻觉问题等，这些问题在现有数据集中往往被忽视。ECBench的推出为具身代理的核心模型开发奠定了坚实的基础，推动了LVLMs在具身认知能力上的进一步发展。

当前挑战

ECBench面临的挑战主要体现在两个方面：首先，在领域问题方面，现有的具身视频问答数据集往往缺乏对机器人自我认知、动态场景感知和幻觉问题的系统性评估，导致LVLMs在这些关键具身认知能力上的表现难以准确衡量。其次，在数据集构建过程中，ECBench面临的主要挑战包括如何确保视频数据的多样性和高质量，以及如何设计复杂的问答对来评估模型的具身认知能力。此外，ECBench还通过多轮问题筛选策略和人工标注来确保数据集的平衡性和视觉依赖性，这进一步增加了数据集的构建难度。这些挑战使得ECBench在具身认知评估领域具有重要的创新性和前瞻性。

常用场景

经典使用场景

ECBench数据集主要用于评估多模态基础模型（如大视觉语言模型，LVLMs）在自我中心视频中的认知能力。其经典使用场景包括机器人自我认知、动态场景感知以及幻觉问题的系统性评估。通过提供多样化的场景视频、开放式问题格式以及30个维度的认知能力评估，ECBench为研究者在机器人视觉认知领域提供了全面的测试平台。

衍生相关工作

ECBench的提出催生了一系列相关研究工作，尤其是在机器人视觉认知和多模态模型评估领域。例如，基于ECBench的研究可以进一步探索如何提升模型在动态场景中的表现，或如何减少模型在自我中心视频中的幻觉问题。此外，ECBench还为其他研究者提供了数据基础，推动了更多针对机器人自我认知和动态场景理解的研究。

数据集最近研究