EMBODIEDBENCH

Name: EMBODIEDBENCH
Creator: 伊利诺伊大学厄巴纳-香槟分校, Northwestern University, 多伦多大学, 芝加哥丰田技术研究所
Published: 2025-02-14 02:11:34
License: 暂无描述

arXiv2025-02-14 更新2025-02-15 收录

下载链接：

https://embodiedbench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

EMBODIEDBENCH是由伊利诺伊大学厄巴纳-香槟分校等机构创建的综合性评测数据集，包含四种环境下的1128个测试任务，覆盖从高级语义任务到低级原子动作任务。数据集经过精心设计，不仅具有多样的任务层次，还引入了面向能力的细粒度评估框架。该数据集能够全面评估多模态大型语言模型在视觉感知、常识推理、复杂指令理解、空间感知和长期规划等方面的性能。

EMBODIEDBENCH is a comprehensive benchmark dataset developed by the University of Illinois Urbana-Champaign and other institutions. It comprises 1128 test tasks across four distinct environments, covering tasks ranging from high-level semantic tasks to low-level atomic action tasks. Meticulously designed, this dataset not only features diverse task hierarchies but also introduces a capability-oriented fine-grained evaluation framework. This benchmark enables comprehensive performance evaluation of multimodal large language models across multiple domains including visual perception, commonsense reasoning, complex instruction understanding, spatial perception, and long-term planning.

提供机构：

伊利诺伊大学厄巴纳-香槟分校, Northwestern University, 多伦多大学, 芝加哥丰田技术研究所

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

EMBODIEDBENCH 数据集的构建旨在评估基于多模态大型语言模型（MLLMs）的视觉驱动的具身代理的性能。数据集包括四个环境，共有 1,128 个测试任务，涵盖了从高层次语义任务（如家务活动）到低层次原子动作任务（如导航和操作）的广泛任务类型。数据集还精心设计了六个子集，用于评估代理的关键能力，如常识推理、复杂指令理解、空间意识、视觉感知和长期规划。通过这些任务和子集，研究者可以全面评估 MLLM 的性能，并深入了解其优缺点。

特点

EMBODIEDBENCH 数据集的特点包括任务类型的多样性、能力导向的评估和视觉驱动。数据集涵盖了从高层次到低层次的多种任务类型，能够全面评估代理的能力。此外，数据集还引入了能力导向的评估框架，可以评估代理在常识推理、复杂指令理解、空间意识、视觉感知和长期规划等方面的能力。此外，数据集还强调了视觉信息在具身代理任务中的重要性，并提供了视觉感知和反馈，以帮助代理更好地理解环境和执行任务。

使用方法

使用 EMBODIEDBENCH 数据集进行评估时，需要遵循一定的步骤。首先，需要选择合适的 MLLM 模型，并将其部署到相应的环境中。然后，根据数据集中的任务和子集，为代理提供语言指令和视觉感知信息。代理需要根据这些信息生成行动序列，并执行相应的动作。最后，根据任务的成功率和其他指标评估代理的性能。此外，数据集还提供了多种视觉增强技术，如检测框、多步图像和多视图图像，可以帮助代理更好地理解环境和执行任务。

背景与挑战

背景概述

在多模态大型语言模型（MLLMs）应用于具身智能体领域的研究中，EMBODIEDBENCH是一个全面的基准测试，旨在评估视觉驱动的具身智能体。该数据集由杨瑞等研究人员于2025年2月发布，旨在解决当前评估框架的缺乏，以促进MLLM-based具身智能体的发展。EMBODIEDBENCH包含了四个环境中的1128个测试任务，涵盖了从高级语义任务（如家庭任务）到涉及原子操作的底层任务（如导航和操作）。该数据集还包括六个精心策划的子集，用于评估基本任务解决、常识推理、复杂指令理解、空间意识、视觉感知和长期规划等关键智能体能力。通过广泛的实验，研究人员评估了13个领先的专有和开源MLLMs，发现MLLMs在高级任务上表现出色，但在低级操作上表现不佳。

当前挑战

EMBODIEDBENCH数据集面临的挑战主要包括：1)低级操作任务上的困难，例如导航和操作等；2)长期规划能力的不足；3)视觉输入对低级任务的重要性，以及对高级任务的影响较小。此外，数据集构建过程中也遇到了一些挑战，例如如何有效地整合空间推理与低级操作规划，以及如何更好地利用视觉输入以解决高级具身任务。

常用场景

经典使用场景

EMBODIEDBENCH 数据集被广泛应用于评估和比较多模态大型语言模型（MLLM）在视觉驱动下的具身智能体性能。该数据集包含了跨越四个环境的 1,128 个测试任务，这些环境从高级语义任务（如家务）到涉及原子动作的低级任务（如导航和操作）不等。这使得 EMBODIEDBENCH 成为研究和开发视觉驱动具身智能体的关键工具。

衍生相关工作

EMBODIEDBENCH 数据集衍生了许多相关的经典工作，包括视觉语言模型（VLA）的评估、具身智能体的能力评估和具身智能体的设计等。这些相关工作进一步推动了具身智能体技术的发展，并为开发更智能、更灵活的具身智能体提供了新的思路和方法。

数据集最近研究