EgoPlan-Bench

Name: EgoPlan-Bench
Creator: 腾讯人工智能实验室
Published: 2024-04-17 21:56:06
License: 暂无描述

arXiv2024-04-17 更新2024-06-21 收录

下载链接：

https://chenyi99.github.io/ego_plan/

下载链接

金山云加速下载

链接失效反馈

官方服务：

资源简介：

EgoPlan-Bench是一个专为评估自我中心具身规划中的多模态大语言模型（MLLMs）而设计的基准数据集。该数据集由腾讯人工智能实验室创建，包含从真实世界视频中提取的现实任务，涉及与数百种不同对象的交互和来自不同场景的复杂视觉观察。数据集的创建过程涉及自动提取任务目标，并构造基于这些目标的多选题。EgoPlan-Bench旨在解决MLLMs在实际环境中作为具身任务规划者的能力评估问题，特别是在需要复杂视觉理解和任务规划的场景中。

EgoPlan-Bench is a benchmark dataset specifically designed for evaluating multimodal large language models (MLLMs) in egocentric embodied planning. Created by Tencent AI Lab, this dataset contains realistic tasks extracted from real-world videos, involving interactions with hundreds of distinct objects and complex visual observations from diverse scenarios. The dataset construction process involves automatically extracting task objectives and constructing multiple-choice questions based on these objectives. EgoPlan-Bench aims to address the problem of evaluating the capabilities of MLLMs as embodied task planners in real-world environments, especially in scenarios requiring complex visual understanding and task planning.

提供机构：

腾讯人工智能实验室

创建时间：

2023-12-11

搜集汇总

数据集介绍

构建方式

EgoPlan-Bench数据集的构建方式独特且具有挑战性，它基于真实世界的视频，通过从大型第一人称视角视频数据集中提取日常人类活动，构建了包含3.4K高质量人类验证的多选题的基准测试。该数据集的构建流程包括三个主要步骤：首先，利用GPT-4进行分层推理，从视频中提取任务目标；其次，根据任务所需的动作数量进行筛选，保留中等复杂度的任务；最后，使用模板自动生成问题，并通过人类验证确保问题的准确性和客观性。

使用方法

EgoPlan-Bench数据集的使用方法是通过多选题的形式评估模型在第一人称视角下的任务规划能力。模型需要根据视频中的任务进度、当前的视觉观察和语言指令来预测下一步的可执行动作。数据集的评估策略是基于语言完成分布的封闭集答案排名策略，通过计算模型生成每个候选动作的概率来评估模型的表现。此外，数据集还用于构建了一个名为EgoPlan-IT的指令调整数据集，该数据集用于提高模型在复杂现实世界场景中的高级任务规划能力。

背景与挑战

背景概述

EgoPlan-Bench是一个用于评估多模态大型语言模型（MLLMs）在现实世界场景中执行具身任务规划能力的基准数据集。该数据集由腾讯AI实验室、香港大学、腾讯PCG ARC实验室、加州大学伯克利分校和鹏城实验室的研究人员合作创建。EgoPlan-Bench的核心研究问题是评估MLLMs是否能够成为具身任务规划领域的通才，能够在复杂的现实环境中，根据实时任务进度、视觉观察和开放式语言指令预测可行的行动。EgoPlan-Bench的独特之处在于其任务的真实性，这些任务是从真实世界的视频中提取的，涉及与数百种不同物体的交互，并且包含来自各种场景的复杂视觉观察。该数据集的创建填补了现有基准在评估MLLMs具身规划能力方面的空白，并对相关领域产生了重要影响，推动了具身人工智能研究的发展。

当前挑战

EgoPlan-Bench数据集面临的挑战主要包括：1) MLLMs在理解动态复杂的视觉环境和识别与任务相关的关键信息方面存在困难；2) 模型需要能够理解各种类型的精细视觉信息，如物体状态和物体之间的空间关系；3) 对于长期任务，模型需要处理一系列过去的视觉观察，以评估任务进度并做出更好的计划；4) 现有的MLLMs尚未能够成为具身规划通才，即使在GPT-4V这样的先进模型上也是如此。为了解决这些挑战，研究人员构建了一个指令调整数据集EgoPlan-IT，以促进模型在复杂现实世界情况下的高级任务规划学习。实验结果表明，在EgoPlan-IT上调整的模型不仅在我们的基准上显著提高了性能，而且还可以作为任务规划器，在模拟环境中指导具身代理完成长期任务。

常用场景

经典使用场景

EgoPlan-Bench 数据集在评估多模态大型语言模型 (MLLM) 作为具身任务规划器的潜力方面具有经典的使用场景。该数据集包含真实世界的任务，多样化的动作以及复杂的视觉观察，旨在评估 MLLM 在预测可行行动方面的能力。通过使用 EgoPlan-Bench，研究人员可以评估 MLLM 在真实世界场景下的表现，并揭示其作为具身任务规划器的潜力。

解决学术问题

EgoPlan-Bench 数据集解决了当前 MLLM 在具身任务规划方面存在的挑战。现有的 MLLM 在理解和处理动态和复杂的视觉环境以及识别与任务相关的关键信息方面存在困难。EgoPlan-Bench 通过提供真实世界的任务和多样化的动作，为 MLLM 提供了一个评估其在具身任务规划方面能力的平台。该数据集的引入填补了现有基准的空白，并为研究人员提供了一个评估 MLLM 在真实世界场景下表现的标准。

实际应用

EgoPlan-Bench 数据集在实际应用中具有广泛的应用场景。例如，它可以用于开发智能助手，帮助人们规划日常任务，如烹饪、清洁和购物等。此外，该数据集还可以用于训练机器人，使其能够执行复杂的任务，如组装和维修等。EgoPlan-Bench 的引入为开发具有更高智能和适应性的 AI 系统提供了支持，并为人们提供了更便捷和高效的工具。

数据集最近研究