EQA-RT
收藏arXiv2025-10-23 更新2025-10-25 收录
下载链接:
https://tooleqa.github.io
下载链接
链接失效反馈官方服务:
资源简介:
EQA-RT数据集包含约18K的EQA问答对,其中包含推理轨迹,涵盖了多种复杂和多样化的问答类型。数据集被分为训练集(EQA-RT-Train)和两个测试集,包括与训练集重叠的场景(EQA-RT-Seen)和用于评估泛化的新场景(EQA-RT-Unseen)。
The EQA-RT dataset contains approximately 18K EQA question-answer pairs that incorporate reasoning trajectories, covering a wide range of complex and diverse question-answering types. The dataset is divided into a training set (EQA-RT-Train) and two test sets: EQA-RT-Seen, which includes scenarios overlapping with the training set, and EQA-RT-Unseen, which comprises novel scenarios designed to evaluate generalization capability.
提供机构:
北京理工大学
创建时间:
2025-10-23
原始信息汇总
ToolEQA数据集概述
数据集基本信息
- 数据集名称: ToolEQA
- 研究领域: 具身问答(Embodied Question Answering)
- 核心创新: 通过工具增强实现多步推理的具身问答代理
数据集构成
- 总规模: 约18K任务
- 训练集: EQA-RT-Train
- 测试集:
- EQA-RT-Seen(与训练集场景重叠)
- EQA-RT-Unseen(新场景)
任务类型
- 关系类: relationship
- 状态类: status
- 距离类: distance
- 位置类:
- location-location
- location-special
- 计数类: counting
- 属性类:
- color
- special
- size
数据特征
- 答案形式: 开放式或多选题
- 探索步骤: 多数问题需要约十步探索
- 目标对象:
- 10,224个任务涉及单个目标
- 7,098个任务涉及两个目标
- 940个任务涉及三个或更多对象
- 分布特点: 在平均探索步骤和每个问题相关对象数量上呈现明显长尾分布
性能表现
- 改进幅度: 相比现有最优基线,成功率提升9.2%~20.2%
- 零样本对比: 相比零样本ToolEQA,成功率提升10%
- 泛化能力: 在HM-EQA、OpenEQA和EXPRESS-Bench数据集上均达到最优性能
搜集汇总
数据集介绍

构建方式
在具身问答研究领域,EQA-RT数据集的构建采用了创新的自动化生成流程。该流程基于HM3D数据集中的713个高质量三维场景,首先通过三维检测模型提取场景中所有物体的边界框、位置坐标和类别信息,并采集物体图像。随后利用GPT-4o大语言模型,结合精心设计的提示模板,自动生成涵盖关系、状态、距离、位置、计数和属性等六大类别的多样化问题及其答案。在推理轨迹生成阶段,系统通过A*算法计算最短探索路径,并借助GPT-4o为每个步骤注入推理思维和工具选择,形成完整的任务解决轨迹。最后通过任务验证器和轨迹验证器的双重质量把控,确保生成数据的准确性和合理性。
特点
EQA-RT数据集在具身智能领域展现出显著特色。该数据集包含约18,000个具身问答任务,涵盖训练集EQA-RT-Train以及两个测试集EQA-RT-Seen和EQA-RT-Unseen,其中测试集分别对应与训练集场景重叠的域内评估和全新场景的域外泛化评估。数据集的独特之处在于每个任务都配备了完整的推理轨迹,平均探索步数达到12.69步,涉及多种工具的组合使用。问题类型分布呈现长尾特征,既有涉及单个目标的简单任务,也包含多个目标的复杂推理问题,特别是EQA-RT-Seen测试集中的任务通常涉及更多对象,具有更高的挑战性。
使用方法
在具身问答任务的应用中,EQA-RT数据集为模型训练和评估提供了标准化框架。研究者可利用该数据集对视觉语言模型进行监督微调,训练控制器学习多步推理和工具使用策略。评估时采用三个核心指标:成功率衡量问题回答的准确性,recall@D评估探索过程中相关对象的发现效率,epath@D则综合考虑成功率、召回率和探索路径长度,全面反映模型的综合性能。数据集支持多选和开放词汇两种任务形式,分别通过准确率计算和语义相似度评估来量化模型表现。这种严谨的评估体系确保了不同方法在具身问答任务上的公平比较和可靠验证。
背景与挑战
背景概述
EQA-RT数据集于2025年由北京理工大学与上海人工智能实验室联合研发,专为具身问答任务设计。该数据集构建于HM3D三维场景数据库之上,包含18,000个高质量问答对,涵盖关系推理、空间定位、属性比较等六大任务类型。作为具身智能领域的重要突破,EQA-RT通过自动化数据生成流程,首次实现了多步推理轨迹的规模化标注,为探索具身智能的认知推理能力提供了关键数据支撑。该数据集的发布显著推动了具身问答任务从单纯的环境探索向复杂推理决策的范式转变。
当前挑战
在具身问答领域,传统方法面临环境探索效率低下与多步推理能力不足的双重挑战。具体表现为:智能体常因缺乏显式规划而产生冗余探索路径,且在复杂空间关系中难以维持连贯的推理链条。数据集构建过程中,需攻克三维场景语义解析的精度难题,确保物体属性标注与空间坐标的精确对应;同时需设计严格的验证机制,通过置信度匹配与大型语言模型双重校验,过滤低质量样本。此外,多步推理轨迹的生成需平衡路径最优性与工具调用的合理性,这对数据生成管线的设计提出了极高要求。
常用场景
经典使用场景
在具身人工智能研究领域,EQA-RT数据集为多步推理与环境交互提供了标准化评估平台。该数据集最经典的应用场景体现在训练智能体通过结构化规划解决复杂空间推理问题,例如在三维环境中定位多个目标物体并比较其属性特征。研究人员利用数据集中的18K个任务样本,能够系统评估智能体在探索路径规划、工具调用序列生成以及多模态信息整合等方面的综合能力。
解决学术问题
EQA-RT数据集有效解决了具身问答任务中探索效率与推理深度的平衡难题。传统方法依赖视觉语言模型直接生成答案,缺乏显式的中间推理过程,导致探索路径冗余且答案准确性有限。该数据集通过提供带有工具调用轨迹的标注数据,使模型能够学习分步推理策略,显著提升了在未知场景中的泛化能力。其创新性在于将物理环境本身定义为工具集,推动了具身推理从静态认知向动态交互的范式转变。
衍生相关工作
EQA-RT数据集的发布催生了系列创新性研究。基于其多步推理框架,研究者开发了融合语义地图的Graph-EQA系统,通过构建场景图增强空间记忆能力。ToolEQA代理的提出进一步拓展了工具增强推理的研究方向,启发了如MeCo框架等认知信号驱动的工具调用策略。这些衍生工作共同推动了具身智能从感知到认知的跨越,为开放世界环境下的自适应决策提供了理论支撑与方法论借鉴。
以上内容由遇见数据集搜集并总结生成



