MT-EQA

Name: MT-EQA
Creator: Georgia Institute of Technology 和 Facebook AI Research
Published: 2019-04-09 00:00:00
License: 暂无描述

github2019-04-09 更新2025-02-19 收录

下载链接：

https://github.com/facebookresearch/MT-EQA

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Target Embodied Question Answering（MT-EQA）数据集由北卡罗来纳大学教堂山分校、佐治亚理工学院和 Facebook AI 研究团队共同创建，旨在拓展具身问答任务（EQA）的边界。该数据集包含 19,287 个问题，覆盖 588 个环境，涉及 61 种独特物体类型和 8 种房间类型。问题设计为多目标比较形式，如物体颜色、大小、距离以及房间大小的对比，要求智能体在虚拟环境中导航至多个目标位置并进行推理。数据集通过 SUNCG 数据集的注释生成，经过路径可行性检查和熵过滤，确保问题的平衡性和可执行性。MT-EQA 数据集致力于推动具身智能的研究，解决多目标导航与视觉问答的复杂任务。

Multi-Target Embodied Question Answering (MT-EQA) dataset was co-created by the University of North Carolina at Chapel Hill, Georgia Institute of Technology, and Facebook AI Research team, aiming to expand the boundaries of embodied question answering (EQA) tasks. This dataset contains 19,287 questions covering 588 environments, involving 61 unique object types and 8 room types. The questions are designed in the form of multi-target comparisons, such as comparisons of object color, size, distance, and room size, requiring agents to navigate to multiple target locations in virtual environments and conduct reasoning. The dataset is generated based on annotations from the SUNCG dataset, and has undergone path feasibility checks and entropy filtering to ensure the balance and executability of the questions. The MT-EQA dataset is dedicated to promoting embodied intelligence research and addressing complex tasks of multi-target navigation and visual question answering.

提供机构：

Georgia Institute of Technology 和 Facebook AI Research

创建时间：

2019-04-09

原始信息汇总

MT-EQA 数据集概述

数据集简介

MT-EQA（Multi-Target Embodied Question Answering）是一个针对多目标问题回答的机器人导航数据集。该数据集涉及的问题需要机器人在环境中导航到多个位置，并进行比较推理以回答问题。为了应对这一问题，研究者提出了一个由程序生成器、控制器、导航器和VQA模块组成的模块化架构。

数据集构成

数据生成：数据集通过一系列脚本生成问题-答案对、图、连接图、最短路径等。
- 生成问题-答案对：通过脚本生成并保存到cache/question-gen-outputs目录。
- 生成图和连接图：通过脚本生成并保存到cache/3d-graphs和cache/target-obj-conn-maps。
- 生成最短路径：通过脚本计算连接起点、最佳视角点和终点（包括模拟终点）的最短路径。
House3D环境：数据集使用House3D环境，安装方法见House3D GitHub页面。

数据处理与训练

模仿学习：在nav_loc_vqa文件夹中进行数据处理，准备House数据，包括连接图、图、最短路径、图像、特征等，并进行模仿学习训练和评估。
强化学习微调：在eqa_nav文件夹中进行数据处理，准备导航数据，并进行模仿学习和强化学习微调训练及评估。

引用

@inproceedings{yu2019mteqa, title={Multi-Target Embodied Question Answering}, author={Yu, Licheng and Chen, Xinlei and Gkioxari, Georgia and Bansal, Mohit and Berg, Tamara L and Batra, Dhruv}, booktitle={CVPR}, year={2019} }

许可

BSD许可证

联系方式

该项目的维护者是Licheng Yu。

搜集汇总

数据集介绍

构建方式

MT-EQA数据集的构建采取了模块化架构，包含程序生成器、控制器、导航器和视觉问答模块。程序生成器将给定的问题转化为可执行的子程序序列；导航器指导智能体移动到与导航相关子程序相关的多个位置；控制器学习选择其路径上的相关观察；然后将这些观察输入到视觉问答模块以预测答案。

使用方法

使用MT-EQA数据集，首先需要在`eqa_data`文件夹中生成问题-答案对和相关的图、连接映射以及最短路径。之后，在`nav_loc_vqa`和`eqa_nav`文件夹中进行模仿学习和强化学习微调，以训练导航器和对象导航器。数据集的使用包括准备房屋数据、训练与评估模仿学习，以及使用强化学习进行微调。

背景与挑战

背景概述

MT-EQA数据集是在Embodied Question Answering (EQA)领域的一个拓展，由Licheng Yu等人于2019年在CVPR会议上提出。该数据集的核心研究问题是探讨如何使智能体在三维环境中处理含有多个目标的问题，例如比较不同地点的物体大小。MT-EQA的创建，为智能体导航、程序生成以及视觉问答等领域提供了新的研究方向，并在智能体理解复杂指令与交互环境方面产生了重要影响。

当前挑战

该数据集在构建过程中面临的挑战包括：1)如何设计模块化的架构来处理多目标问题，包括程序生成器、控制器、导航器和VQA模块的协同工作；2)如何在三维环境中生成有效的路径并确保智能体能够准确导航至目标地点；3)数据集构建中的多样性和复杂性，确保智能体能够处理各种不同的问题和场景。在解决的领域问题上，MT-EQA要求智能体不仅能够理解单个目标，还要能够进行多目标间的比较推理，这一过程涉及到复杂的空间认知和决策制定。

常用场景

经典使用场景

MT-EQA数据集的问世，旨在拓展Embodied Question Answering (EQA)的范畴，处理包含多个目标的问题。此类问题要求智能体在模拟环境中导航至多个地点，并进行比较推理，从而作出回答。数据集的典型使用场景是，研究者在虚拟环境中训练智能体，使其能够理解自然语言形式的问题，自主导航至相关地点，并整合视觉问答(VQA)模块以输出正确答案。

解决学术问题

MT-EQA解决了传统EQA无法处理的具有多个目标的问题，这要求智能体具备更复杂的导航和推理能力。数据集通过提供包含多个目标的场景和问题，促进了智能体架构的创新，如模块化的程序生成器、导航器和VQA模块的集成，这些对于理解复杂指令和执行多步骤任务至关重要，对学术研究产生了深远的影响。

实际应用

在实际应用中，MT-EQA数据集可以被用来训练智能体，以辅助进行复杂的交互式任务，例如智能家居中的多目标查询响应，或者在游戏和模拟环境中提供更加智能的辅助功能。这种智能体能够在理解复杂查询的同时，进行有效的空间导航，有着广泛的应用前景。

数据集最近研究