EXPRESS-Bench

Name: EXPRESS-Bench
Creator: 中山大学
Published: 2025-03-14 14:29:47
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

https://github.com/HCPLab-SYSU/EXPRESS-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

EXPRESS-Bench是一个专门设计用于评估探索和推理能力的大型数据集，由中山大学的研究团队创建。该数据集包含777个探索轨迹和2044个问题-轨迹对，旨在支持主动探索并解决现有数据集在模糊性和依赖先验知识方面的关键局限。数据集通过记录代理的视觉观察和动作来生成问题-答案对，并通过人工筛选确保答案的相关性和唯一性。EXPRESS-Bench适用于评估Embodied Question Answering (EQA)任务，助力提升代理的探索效率和回答可靠性。

EXPRESS-Bench is a large-scale dataset specifically designed to evaluate exploration and reasoning capabilities, developed by the research team from Sun Yat-sen University. It contains 777 exploration trajectories and 2044 question-trajectory pairs, aiming to support active exploration and address the key limitations of existing datasets in terms of ambiguity and reliance on prior knowledge. The dataset generates question-answer pairs by recording agents' visual observations and actions, and ensures the relevance and uniqueness of answers through manual screening. EXPRESS-Bench is applicable for evaluating Embodied Question Answering (EQA) tasks, helping to improve agents' exploration efficiency and answer reliability.

提供机构：

中山大学

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

EXPRESS-Bench数据集的构建过程分为三个阶段：轨迹生成、问答对生成和数据过滤。首先，通过Habitat模拟器在HM3D数据集中随机采样初始和目标位置，生成最短路径的轨迹，并记录每一步的视觉观察和状态信息。随后，利用多模态大模型GPT-4o-mini生成与场景相关的开放式问答对，确保问题的多样性和自然性。最后，通过人工筛选和验证，确保每个问题的答案与场景相关且唯一，从而保证数据集的高质量和可靠性。

特点

EXPRESS-Bench数据集的特点在于其强调探索与推理的结合，包含777条探索轨迹和2044个问答对，覆盖了状态、知识、位置、属性、计数、存在和物体等七类问题。与现有EQA数据集相比，EXPRESS-Bench通过引入探索-答案一致性（EAC）评估指标，确保答案的生成基于真实的探索过程，避免了模型生成虚假答案的问题。此外，数据集中的问题设计更加贴近真实场景，减少了先验知识的依赖，提升了任务的挑战性和实用性。

使用方法

EXPRESS-Bench数据集的使用方法主要包括探索与推理两个阶段。在探索阶段，智能体通过混合前沿探索和目标导向探索策略，逐步构建环境的三维语义地图，并基于任务相关性进行精细化的区域探索。在推理阶段，智能体利用探索过程中收集的视觉信息，结合问题语义生成答案。数据集的评估通过EAC指标进行，该指标综合考虑答案的正确性和探索过程的可靠性，确保模型的表现能够真实反映其探索与推理能力。

背景与挑战

背景概述

EXPRESS-Bench是由中山大学、鹏城实验室和香港科技大学的研究团队于2025年提出的一个面向探索感知的具身问答（EQA）任务的大规模数据集。该数据集旨在评估智能体在三维环境中的探索能力和推理能力，包含777条探索轨迹和2044个问题-轨迹对。EXPRESS-Bench的提出是为了解决现有EQA数据集在探索效率、数据集设计和评估指标上的局限性，特别是针对智能体在复杂环境中进行细粒度探索的能力。该数据集的构建基于Habitat模拟器，并利用HM3D数据集中的真实场景进行环境模拟。EXPRESS-Bench通过引入探索-答案一致性（EAC）评估指标，确保了智能体的探索过程与答案生成的可靠性之间的对齐，推动了具身智能领域的发展。

当前挑战

EXPRESS-Bench面临的挑战主要集中在两个方面：领域问题的挑战和数据集构建的挑战。在领域问题方面，EQA任务要求智能体在动态的三维环境中进行多步推理和探索，以回答与环境相关的问题。然而，现有方法往往依赖于手动或规则生成的数据集，导致智能体在生成答案时缺乏对探索过程的真实依赖，容易产生虚假推理。此外，现有评估指标无法有效检测模型生成的幻觉答案，导致对智能体探索和推理能力的评估存在偏差。在数据集构建方面，EXPRESS-Bench的创建过程涉及复杂的轨迹生成和问题-答案对生成，需要确保每个问题的答案具有唯一性，避免因场景复杂性导致的非唯一答案问题。同时，数据生成过程中依赖多模态大模型（如GPT-4o-mini），其输出可能存在不可靠或不合理的情况，因此需要进行人工筛选和验证，以确保数据集的高质量。

常用场景

经典使用场景

EXPRESS-Bench数据集在具身智能领域中被广泛用于评估智能体在三维环境中的探索与推理能力。该数据集通过记录智能体在复杂环境中的探索轨迹和问题-轨迹对，提供了丰富的视觉信息和多步推理任务，特别适用于研究智能体在动态环境中的主动探索与问题回答能力。

实际应用

EXPRESS-Bench的实际应用场景包括家庭服务机器人、虚拟助手和自主导航系统。在这些场景中，智能体需要通过与环境的动态交互来获取信息并回答问题。例如，家庭机器人可以通过该数据集学习如何在复杂的室内环境中导航，并根据用户的提问提供准确的答案，如“客厅的灯是否关闭”或“厨房的水龙头是否开着”。

衍生相关工作

EXPRESS-Bench的推出催生了一系列相关研究工作，特别是在探索策略和评估方法上的创新。例如，Fine-EQA模型结合了前沿探索和目标导向探索，显著提升了智能体的探索效率。此外，基于该数据集的EAC评估指标也被广泛应用于其他具身智能任务中，推动了具身问答领域的标准化评估体系的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集