EgoPlan-Bench2|多模态大语言模型数据集|规划能力评估数据集

arXiv2024-12-06 更新2024-12-09 收录

下载链接：

https://qiulu66.github.io/egoplanbench2/

下载链接

链接失效反馈

资源简介：

EgoPlan-Bench2是由香港大学和腾讯PCG ARC实验室创建的多模态大语言模型规划基准，旨在评估模型在多种真实世界场景中的规划能力。该数据集包含1,321个高质量的多选题问答对，覆盖了工作、日常生活、爱好和娱乐四大领域，共24个详细场景。数据集通过半自动化的过程构建，利用第一人称视角的视频，结合手动验证，确保数据的真实性和可靠性。EgoPlan-Bench2主要用于评估和提升多模态大语言模型在复杂环境中的任务规划能力，旨在解决现实世界中的多样化问题。

提供机构：

香港大学, 腾讯PCG ARC实验室

创建时间：

2024-12-06

AI搜集汇总

数据集介绍

构建方式

EgoPlan-Bench2数据集通过半自动化的流程构建，利用了Ego4D数据集中的第一人称视角视频。首先，通过GPT-4进行任务目标的提取和分解，确保任务目标具有明确的目的性和逻辑步骤。随后，基于这些任务目标和相应的动作序列，使用预定义的模板生成多选题问答对。最后，通过模型和人工验证确保数据集的可靠性和客观性。

使用方法

EgoPlan-Bench2数据集主要用于评估多模态大语言模型在真实世界场景中的规划能力。使用者可以通过提供的多选题问答对，结合视频和图像数据，评估模型在不同场景下的任务规划表现。数据集还提供了详细的统计信息和分析工具，帮助研究者深入理解模型的优缺点，并指导未来的改进方向。

背景与挑战

背景概述

EgoPlan-Bench2数据集由香港大学和腾讯ARC实验室的研究人员于2024年创建，旨在评估多模态大语言模型（MLLMs）在真实世界场景中的规划能力。该数据集涵盖了日常任务的四个主要领域和24个详细场景，通过利用第一人称视角视频和半自动化的数据生成流程，确保了数据的真实性和多样性。EgoPlan-Bench2的推出填补了当前MLLMs在复杂场景规划能力评估方面的空白，为实现人工通用智能（AGI）提供了重要的研究工具。

当前挑战

EgoPlan-Bench2数据集面临的挑战主要集中在两个方面。首先，构建过程中遇到的挑战包括从第一人称视角视频中提取任务目标的复杂性，以及确保生成的多选题答案对的质量和可靠性。其次，该数据集解决的领域问题——多模态大语言模型在真实世界中的规划能力——面临着模型对复杂环境理解不足、时间感知和认知能力有限，以及综合规划过程中推理能力不足等具体挑战。这些挑战要求未来的研究在视觉感知、复杂时间理解和推理能力等方面进行深入探索和提升。

常用场景

经典使用场景

EgoPlan-Bench2 数据集的经典使用场景在于评估多模态大型语言模型（MLLMs）在真实世界场景中的规划能力。该数据集通过包含日常任务的4个主要领域和24个详细场景，模拟了人类在日常生活中解决问题的第一人称视角。通过使用EgoPlan-Bench2，研究人员可以测试和分析MLLMs在复杂环境中的决策能力，特别是在需要根据当前环境和历史任务进度做出合理决策的情况下。

解决学术问题

EgoPlan-Bench2 数据集解决了当前MLLMs在多样化场景中规划能力的评估不足问题。它提供了一个全面的基准，通过半自动化的过程利用第一人称视频，辅以人工验证，确保了数据集的准确性和可靠性。该数据集的引入不仅揭示了现有MLLMs在实际任务规划中的显著挑战，还为未来提升这些模型的规划能力提供了宝贵的见解和方向。

实际应用

EgoPlan-Bench2 数据集在实际应用中具有广泛的前景，特别是在开发能够协助人类处理日常任务的智能助手方面。通过评估MLLMs在真实世界场景中的规划能力，该数据集有助于推动智能助手在家庭、工作、娱乐等多个领域的应用。此外，它还可以用于训练和优化机器人、自动驾驶系统等需要复杂决策能力的智能系统。

数据集最近研究