MFE-ETP|具身人工智能数据集|任务规划数据集

arXiv2024-07-06 更新2024-07-12 收录

具身人工智能

任务规划

下载链接：

https://mfe-etp.github.io/

下载链接

链接失效反馈

资源简介：

MFE-ETP数据集由天津大学智能与计算学部创建，是一个针对具身任务规划的多模态基础模型综合评估基准。该数据集包含1184个高质量测试案例，覆盖100个具身任务，涉及对象理解、时空感知、任务理解和具身推理等多个能力维度。数据集的创建过程结合了从BEHAVIOR-100和VirtualHome平台收集的典型家庭任务数据，并通过人工标注和设计任务指令进行精细化处理。MFE-ETP数据集主要应用于提升多模态基础模型在具身人工智能领域的任务规划能力，旨在解决模型在复杂任务场景中的性能瓶颈问题。

提供机构：

天津大学智能与计算学部

创建时间：

2024-07-06

原始信息汇总

数据集概述

标题

MFE-ETP: An Embodied Task Planning Benchmark for Multi-modal Foundation Models

作者

Min Zhang1
Jianye Hao1
Xian Fu1
Peilong Han1
Hao Zhang1
Lei Shi1
Hongyao Tang2

机构

1Tianjin University
2Montreal Institute of Learning Algorithms (MILA)

摘要

近年来，多模态基础模型（MFMs）和具身人工智能（EAI）以空前的速度并行发展，两者的结合引起了AI研究界的广泛关注。本工作旨在深入全面地评估MFMs在具身任务规划方面的性能，以揭示其在该领域的功能和局限性。为此，基于具身任务规划的特点，我们首先开发了一个系统的评估框架，该框架涵盖了MFMs的四个关键能力：对象理解、时空感知、任务理解和具身推理。随后，我们提出了一个新的基准，名为MFE-ETP，其特点是任务场景复杂多变、任务类型典型多样、任务实例难度不一，以及从多模态问题回答到具身任务推理的丰富测试案例类型。最后，我们提供了一个简单易用的自动评估平台，使多个MFMs能够在提出的基准上进行自动化测试。通过使用该基准和评估平台，我们评估了几个最先进的MFMs，发现它们与人类水平的性能存在显著差距。MFE-ETP是一个高质量、大规模且具有挑战性的基准，与现实世界任务相关。

相关链接

AI搜集汇总

数据集介绍

构建方式

MFE-ETP数据集的构建基于实体任务规划的特性，首先开发了一个系统的评估框架，该框架涵盖了MFMs的四个关键能力：对象理解、时空感知、任务理解和实体推理。随后，提出了一个新的基准MFE-ETP，其特点是复杂的任务场景、典型且多样的任务类型、不同难度的任务实例以及从多实体问答到实体任务推理的丰富测试案例类型。最后，提供了一个简单易用的自动评估平台，使得在提出的基准上对多个MFMs进行自动化测试成为可能。

特点

MFE-ETP数据集具有以下特点：复杂的任务场景和多样的任务类型，确保了对MFMs任务规划能力的广泛评估；任务实例的难度各异，涵盖了从简单到复杂的多种情况；丰富的测试案例类型，包括多实体问答和实体任务推理，全面评估MFMs在实体任务规划中的表现；提供了一个自动化的评估平台，便于对多个MFMs进行大规模的性能评估。

使用方法

MFE-ETP数据集的使用方法包括：首先，根据数据集提供的任务描述和视觉信息，模型需要进行对象理解、时空感知、任务理解和实体推理；其次，模型需要根据任务要求生成相应的任务计划；最后，通过自动评估平台对模型的输出进行评估，评估标准包括任务计划的合理性和任务目标的达成情况。数据集的评估结果可以用于改进MFMs在实体任务规划中的性能，并为未来的研究提供参考。

背景与挑战

背景概述

近年来，多模态基础模型（MFMs）和具身人工智能（EAI）以空前的速度并行发展，两者的融合引起了人工智能研究社区的极大关注。MFE-ETP数据集由天津大学智能与计算学院的Min Zhang等人于2024年创建，旨在深入全面地评估MFMs在具身任务规划中的表现，揭示其在该领域的潜力与局限。该数据集基于具身任务规划的特性，开发了一个系统的评估框架，涵盖了对象理解、时空感知、任务理解和具身推理四个关键能力。MFE-ETP数据集通过复杂的任务场景、典型的任务类型、不同难度的任务实例以及丰富的测试案例类型，为MFMs在具身任务规划中的性能评估提供了高质量、大规模且具有挑战性的基准。

当前挑战

MFE-ETP数据集面临的挑战主要集中在两个方面：一是解决具身任务规划领域的复杂问题，包括对象识别、时空感知、任务理解和具身推理等多维度能力的综合评估；二是在构建过程中遇到的实际困难，如数据收集的高成本和复杂性，以及确保评估框架的全面性和准确性。此外，如何有效地利用多模态基础模型进行具身任务规划，避免盲目应用而未能达到最佳性能，也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

MFE-ETP数据集的经典使用场景在于评估多模态基础模型（MFMs）在具身任务规划中的表现。通过该数据集，研究者可以系统地测试模型在对象理解、时空感知、任务理解和具身推理四个关键能力上的表现，从而揭示其在具身任务规划中的潜力与局限。

实际应用

MFE-ETP数据集在实际应用中具有广泛的前景，特别是在机器人和具身人工智能领域。通过该数据集的评估，开发者可以优化多模态基础模型，使其在家庭服务机器人、自动驾驶等实际场景中更高效地完成任务规划，从而提升系统的智能化水平和用户体验。

衍生相关工作

MFE-ETP数据集的提出激发了大量相关研究工作。例如，基于该数据集的研究者们开发了新的评估框架和自动评估平台，进一步推动了多模态基础模型在具身任务规划中的应用。此外，该数据集还促进了对象检测模块和三维信息集成等技术的研究，以提升模型的感知和推理能力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集，随着低剂量胸部CT筛查项目的普及，该数据集变得越来越重要。

github 收录