HM-EQA

Name: HM-EQA
Creator: 普林斯顿大学、斯坦福大学和丰田研究所
Published: 2024-07-07 00:00:00
License: 暂无描述

github2024-07-07 更新2025-02-19 收录

下载链接：

https://github.com/Stanford-ILIAD/explore-eqa

下载链接

链接失效反馈

官方服务：

资源简介：

HM-EQA 数据集由普林斯顿大学、斯坦福大学和丰田研究所共同创建，基于 Habitat-Matterport 3D 研究数据集（HM3D）构建，包含 500 个问题，涉及 267 个不同场景。数据集以真实室内场景为基础，涵盖多种家庭环境，问题类型包括物体识别、状态判断、位置查找等。数据集通过 GPT4-V 生成候选问题，并经人工筛选以确保问题的合理性和多样性。其创建旨在推动具身问答任务的发展，帮助机器人在复杂环境中高效探索并准确回答问题。数据集可用于研究机器人导航、视觉问答和语义理解等领域，为具身智能的研究提供了丰富的资源。

The HM-EQA dataset was co-created by Princeton University, Stanford University, and Toyota Research Institute, and is constructed based on the Habitat-Matterport 3D Research Dataset (HM3D). It contains 500 questions covering 267 distinct scenes. Built on real indoor scenarios, the dataset encompasses a wide range of household environments, with question types including object recognition, state judgment, location retrieval and more. Candidate questions were generated via GPT-4V and manually screened to ensure their rationality and diversity. This dataset was developed to advance the research of embodied question answering tasks, assisting robots to efficiently explore complex environments and accurately answer questions. It can be applied to research fields such as robot navigation, visual question answering and semantic understanding, providing abundant resources for embodied intelligence studies.

提供机构：

普林斯顿大学、斯坦福大学和丰田研究所

创建时间：

2024-07-07

原始信息汇总

Explore until Confident: Efficient Exploration for Embodied Question Answering Dataset

数据集信息

数据集名称：HM-EQA
包含内容：267个场景的500个问题
来源场景数据集：HM-3D

数据集获取

数据集下载：下载链接（需申请访问权限）
数据集路径：data/

使用说明

配置文件：需指定scene_data_path和hf_token
运行方法
- VLM-semantic exploration：python run_vlm_exp.py -cf cfg/vlm_exp.yaml
- CLIP-based exploration：python run_clip_exp.py -cf cfg/clip_exp.yaml
- 加载场景：python test_scene.py -cf cfg/test_scene.yaml

相关脚本

sample_views_from_scene.py：在Habitat-Sim中采样场景的随机视角
get_floor_height.py：获取HM-3D数据集每个场景的楼层高度
get_questions_gpt4v.py：使用GPT4-V生成EQA问题
sample_init_pose.py：采样每个场景中机器人的有效初始姿态

搜集汇总

数据集介绍

构建方式

HM-EQA数据集的构建，是以HM-3D数据集中的267个场景为基础，围绕这些场景制作了500个问题。这些问题涉及到场景中的不同对象和属性，旨在为Embodied Question Answering（EQA）任务提供一个具有挑战性的测试平台。数据集的构建充分利用了先进的自然语言处理技术，如GPT4-V，来生成问题，确保了问题质量和多样性。

特点

HM-EQA数据集的特点在于其问题设计的复杂性和场景的多样性。每个问题都与特定的场景紧密相关，要求智能体在3D环境中进行探索以找到答案。此外，数据集支持多种探索策略，包括基于VLM和CLIP的方法，使得研究者在探索智能体导航和问答方面有了更多的研究可能性。

使用方法

使用HM-EQA数据集，首先需要在Habitat-Sim环境中配置相应的场景数据路径和访问令牌。之后，可以通过运行提供的脚本，加载场景并实施不同的探索策略。数据集提供了多种脚本，帮助研究者在场景中采样视图、获取地板高度、生成问题以及采样机器人初始姿态，从而方便地开展各种实验和研究。

背景与挑战

背景概述

HM-EQA数据集，由Princeton University、Stanford University以及Toyota Research Institute的研究人员共同创建，并于近期发布。该数据集的核心研究问题聚焦于具身问答（Embodied Question Answering, EQA）任务，旨在通过机器人代理在3D环境中探索以获取足够信息来回答问题。HM-EQA数据集的构建，不仅推动了EQA领域的研究进展，也为相关算法的评估和比较提供了标准化平台，对机器人感知与决策制定领域产生了显著影响。

当前挑战

该数据集面临的挑战主要包括两个方面：一是EQA任务本身固有的难度，例如如何有效平衡探索与利用的矛盾，确保机器人能在有限的探索步骤内获取足够信息；二是数据集构建过程中的挑战，如3D场景的多样性和复杂性导致的数据标注一致性以及如何高质量生成与真实环境相符的问答对。此外，数据集的可用性和易用性也是一大挑战，涉及到数据集的分发、安装及与其他工具和模型的兼容性问题。

常用场景

经典使用场景

在智能机器人研究领域，HM-EQA数据集被广泛应用于Embodied Question Answering（EQA）任务中。该数据集提供了关于267个场景的500个问题，使得研究者能够训练和评估机器人在这类任务中的探索策略和答案准确性。

实际应用

在实际应用中，HM-EQA数据集有助于开发能够在真实世界环境中执行复杂任务的机器人系统。这些系统在智能家居、工业自动化和搜索救援等领域具有广泛的应用潜力，能够提升机器人在这些场景中的智能操作能力。

衍生相关工作

HM-EQA数据集的发布催生了一系列相关研究工作，包括探索不同类型的视觉语言模型在EQA任务中的应用，以及开发新的探索算法以提高机器人在复杂环境中的决策能力。这些工作进一步推动了机器人领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集