MFE-ETP

Name: MFE-ETP
Creator: 天津大学智能与计算学部
Published: 2024-07-06 19:07:18
License: 暂无描述

arXiv2024-07-06 更新2024-07-12 收录

下载链接：

https://mfe-etp.github.io/

下载链接

金山云加速下载

链接失效反馈

官方服务：

资源简介：

MFE-ETP数据集由天津大学智能与计算学部创建，是一个针对具身任务规划的多模态基础模型综合评估基准。该数据集包含1184个高质量测试案例，覆盖100个具身任务，涉及对象理解、时空感知、任务理解和具身推理等多个能力维度。数据集的创建过程结合了从BEHAVIOR-100和VirtualHome平台收集的典型家庭任务数据，并通过人工标注和设计任务指令进行精细化处理。MFE-ETP数据集主要应用于提升多模态基础模型在具身人工智能领域的任务规划能力，旨在解决模型在复杂任务场景中的性能瓶颈问题。

The MFE-ETP dataset, developed by the College of Intelligence and Computing at Tianjin University, is a comprehensive evaluation benchmark for multimodal foundation models focused on embodied task planning. It comprises 1,184 high-quality test cases spanning 100 embodied tasks, covering multiple capability dimensions including object understanding, spatio-temporal perception, task comprehension, and embodied reasoning. The dataset was constructed by integrating typical household task data collected from the BEHAVIOR-100 and VirtualHome platforms, followed by fine-grained processing via manual annotation and task instruction design. The MFE-ETP dataset is primarily applied to improve the task planning capabilities of multimodal foundation models in the domain of embodied artificial intelligence, with the goal of resolving performance bottlenecks of models in complex task scenarios.

提供机构：

天津大学智能与计算学部

创建时间：

2024-07-06

原始信息汇总

数据集概述

标题

MFE-ETP: An Embodied Task Planning Benchmark for Multi-modal Foundation Models

作者

Min Zhang
Jianye Hao
Xian Fu
Peilong Han
Hao Zhang
Lei Shi
Hongyao Tang

机构

Tianjin University
Montreal Institute of Learning Algorithms (MILA)

摘要

近年来，多模态基础模型（MFMs）和具身人工智能（EAI）以空前的速度并行发展，两者的结合引起了AI研究界的广泛关注。本工作旨在深入全面地评估MFMs在具身任务规划方面的性能，以揭示其在该领域的功能和局限性。为此，基于具身任务规划的特点，我们首先开发了一个系统的评估框架，该框架涵盖了MFMs的四个关键能力：对象理解、时空感知、任务理解和具身推理。随后，我们提出了一个新的基准，名为MFE-ETP，其特点是任务场景复杂多变、任务类型典型多样、任务实例难度不一，以及从多模态问题回答到具身任务推理的丰富测试案例类型。最后，我们提供了一个简单易用的自动评估平台，使多个MFMs能够在提出的基准上进行自动化测试。通过使用该基准和评估平台，我们评估了几个最先进的MFMs，发现它们与人类水平的性能存在显著差距。MFE-ETP是一个高质量、大规模且具有挑战性的基准，与现实世界任务相关。

相关链接

搜集汇总

数据集介绍

构建方式

MFE-ETP数据集的构建基于实体任务规划的特性，首先开发了一个系统的评估框架，该框架涵盖了MFMs的四个关键能力：对象理解、时空感知、任务理解和实体推理。随后，提出了一个新的基准MFE-ETP，其特点是复杂的任务场景、典型且多样的任务类型、不同难度的任务实例以及从多实体问答到实体任务推理的丰富测试案例类型。最后，提供了一个简单易用的自动评估平台，使得在提出的基准上对多个MFMs进行自动化测试成为可能。

特点

MFE-ETP数据集具有以下特点：复杂的任务场景和多样的任务类型，确保了对MFMs任务规划能力的广泛评估；任务实例的难度各异，涵盖了从简单到复杂的多种情况；丰富的测试案例类型，包括多实体问答和实体任务推理，全面评估MFMs在实体任务规划中的表现；提供了一个自动化的评估平台，便于对多个MFMs进行大规模的性能评估。

使用方法

MFE-ETP数据集的使用方法包括：首先，根据数据集提供的任务描述和视觉信息，模型需要进行对象理解、时空感知、任务理解和实体推理；其次，模型需要根据任务要求生成相应的任务计划；最后，通过自动评估平台对模型的输出进行评估，评估标准包括任务计划的合理性和任务目标的达成情况。数据集的评估结果可以用于改进MFMs在实体任务规划中的性能，并为未来的研究提供参考。

背景与挑战

背景概述

近年来，多模态基础模型（MFMs）和具身人工智能（EAI）以空前的速度并行发展，两者的融合引起了人工智能研究社区的极大关注。MFE-ETP数据集由天津大学智能与计算学院的Min Zhang等人于2024年创建，旨在深入全面地评估MFMs在具身任务规划中的表现，揭示其在该领域的潜力与局限。该数据集基于具身任务规划的特性，开发了一个系统的评估框架，涵盖了对象理解、时空感知、任务理解和具身推理四个关键能力。MFE-ETP数据集通过复杂的任务场景、典型的任务类型、不同难度的任务实例以及丰富的测试案例类型，为MFMs在具身任务规划中的性能评估提供了高质量、大规模且具有挑战性的基准。

当前挑战

MFE-ETP数据集面临的挑战主要集中在两个方面：一是解决具身任务规划领域的复杂问题，包括对象识别、时空感知、任务理解和具身推理等多维度能力的综合评估；二是在构建过程中遇到的实际困难，如数据收集的高成本和复杂性，以及确保评估框架的全面性和准确性。此外，如何有效地利用多模态基础模型进行具身任务规划，避免盲目应用而未能达到最佳性能，也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

MFE-ETP数据集的经典使用场景在于评估多模态基础模型（MFMs）在具身任务规划中的表现。通过该数据集，研究者可以系统地测试模型在对象理解、时空感知、任务理解和具身推理四个关键能力上的表现，从而揭示其在具身任务规划中的潜力与局限。

实际应用

MFE-ETP数据集在实际应用中具有广泛的前景，特别是在机器人和具身人工智能领域。通过该数据集的评估，开发者可以优化多模态基础模型，使其在家庭服务机器人、自动驾驶等实际场景中更高效地完成任务规划，从而提升系统的智能化水平和用户体验。

衍生相关工作

MFE-ETP数据集的提出激发了大量相关研究工作。例如，基于该数据集的研究者们开发了新的评估框架和自动评估平台，进一步推动了多模态基础模型在具身任务规划中的应用。此外，该数据集还促进了对象检测模块和三维信息集成等技术的研究，以提升模型的感知和推理能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集