EmbodiedBench

github2025-03-02 更新2025-02-24 收录

下载链接：

https://github.com/EmbodiedBench/EmbodiedBench

下载链接

链接失效反馈

官方服务：

资源简介：

EmbodiedBench是一个综合性的基准，用于评估多模态大型语言模型作为具身代理的表现。它不仅提供了对高级任务的评估，还提供了对低级任务和六种关键代理能力的评估。

EmbodiedBench is a comprehensive benchmark for evaluating the performance of multimodal large language models as embodied agents. It not only provides assessments of high-level tasks, but also covers low-level tasks and six key agent capabilities.

创建时间：

2025-02-12

原始信息汇总

EmbodiedBench 数据集概述

基本信息

名称：EmbodiedBench
类型：多模态大型语言模型（MLLMs）基准测试
目标：评估视觉驱动的具身代理的多模态大型语言模型
论文：arXiv:2502.09560
数据集：Hugging Face
项目网站：embodiedbench.github.io

主要特点

多样化的任务：包含1,128个测试任务，涵盖四个环境（EB-ALFRED、EB-Habitat、EB-Navigation、EB-Manipulation）
能力导向评估：六个专门子集评估代理的关键能力（常识推理、复杂指令、空间意识、视觉感知、长期规划等）
统一API：提供Gym风格的API，支持所有环境
灵活的模型支持：支持专有模型（如OpenAI API）和开源模型（本地执行）
可配置的设计：支持视觉输入、文本和视觉上下文提示、环境反馈、相机分辨率等多种配置选项

环境与任务

EB-ALFRED：家庭环境中的高级任务
EB-Habitat：语言重排任务
EB-Navigation：导航任务
EB-Manipulation：操作任务

安装与设置

安装方式：提供install.sh脚本或手动安装
环境需求：需要三个独立的conda环境
数据集下载：需从Hugging Face或GitHub下载大型数据集，确保Git LFS已初始化

快速开始

专有模型评估：设置API密钥后运行相应命令
开源模型评估：支持离线运行和模型服务两种方式
配置选项：包括环境选择、模型名称、数据采样比例、语言输入模式等

更新历史

2025.03.19：新增支持多个MLLMs，修复常见生成的JSON错误

致谢

基于多个优秀的具身基准测试和模拟器开发，包括Lota-Bench、ALFRED、ai2thor等

引用

bibtex @article{yang2025embodiedbench, title={EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents}, author={Yang, Rui and Chen, Hanyang and Zhang, Junyu and Zhao, Mark and others}, journal={arXiv preprint arXiv:2502.09560}, year={2025} }

搜集汇总

数据集介绍

构建方式

EmbodiedBench是一个旨在评估多模态大型语言模型作为视觉驱动型具身代理的综合性能基准。该数据集通过创建新的高质量数据集和增强现有的模拟器，构建了跨越从高级任务（EB-ALFRED和EB-Habitat）到低级任务（EB-Navigation和EB-Manipulation）的1118个测试任务。

特点

EmbodiedBench的特点在于其多样化的任务层级、针对六种关键代理能力的专门化子集、统一的API接口、以及易于使用的模型评估支持。它不仅提供了一个多方面的标准化评估平台，揭示了当前具身AI的挑战，而且提供了推动多模态大型语言模型驱动的具身代理边界的有价值见解。

使用方法

使用EmbodiedBench数据集，用户可以根据具体的评估需求选择合适的环境和模型。数据集支持专有和开源模型，并提供API和本地执行两种评估方式，同时允许通过配置选项进行深入的实验，以更好地理解各个组件在代理性能中的作用。

背景与挑战

背景概述

EmbodiedBench是由Rui Yang等研究人员于2025年创建的，旨在全面评估多模态大型语言模型作为视觉驱动型具身代理的性能。该数据集结合了四个环境中的1,128个测试任务，涵盖了从高级任务（如EB-ALFRED和EB-Habitat）到低级任务（如EB-Navigation和EB-Manipulation），为研究多模态大型语言模型在具身智能体中的应用提供了全面的、细粒度的评估平台。

当前挑战

EmbodiedBench面临的挑战主要包括：1) 如何准确评估多模态大型语言模型在具身智能体中的性能，尤其是在高级任务和低级任务中的表现；2) 在构建数据集过程中，如何确保所提供的多环境、多任务的标准化评估平台能够揭示当前具身AI的挑战，并为推动多模态大型语言模型驱动的具身智能体的发展提供可操作的洞见。

常用场景

经典使用场景

EmbodiedBench作为一个全面的基准测试，其经典使用场景在于评估多模态大型语言模型（MLLMs）作为视觉驱动的具身代理。通过包含从高层次任务到低层次任务的环境，以及六个关键的代理能力，EmbodiedBench为研究者和开发人员提供了一个细致且全面的性能评估平台。

实际应用

在实际应用中，EmbodiedBench能够帮助开发具有高级推理、感知和操作能力的智能机器人。这些机器人可以在家庭、工业和医疗等多种环境中执行复杂的任务，提高自动化水平和效率。

衍生相关工作

基于EmbodiedBench的研究成果，已经衍生出一系列相关工作，包括对多模态语言模型的进一步改进、具身代理在真实世界环境中的适应性研究，以及多模态学习在具身智能中的应用探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集