PREQA

github2024-07-01 更新2024-07-03 收录

下载链接：

https://github.com/Frieso-Turkstra/PREQA

下载链接

链接失效反馈

官方服务：

资源简介：

PREQA是一个高质量的数据集，旨在将Embodied Question Answering（EQA）任务尽可能接近现实世界。该数据集包含一个真实机器人实验室的图像，并引入了新的特性，如相机倾斜、基于视角的导航和新颖的注释。数据集包含1,910个关于三个房间和90个对象的自动生成问题，这些对象已根据其类别、位置、颜色和与其他对象的空间关系进行了注释。

PREQA is a high-quality dataset designed to bring the Embodied Question Answering (EQA) task as close to the real world as possible. This dataset contains images from a real robotic laboratory and introduces new features such as camera tilting, viewpoint-based navigation, and novel annotations. The dataset includes 1,910 automatically generated questions concerning three rooms and 90 objects, where the objects have been annotated according to their categories, positions, colors, and spatial relationships with other objects.

创建时间：

2024-06-14

原始信息汇总

PREQA: A Photorealistic Dataset for Embodied Question Answering

数据集概述

PREQA 是一个高质量的数据集，旨在将实体问答（EQA）任务尽可能接近现实世界。该数据集主要用作预训练 EQA 系统的测试集。数据集包含 1,910 个自动生成的问题，涉及三个房间和 90 个物体，这些物体已被标注其类别、位置、颜色以及与其他物体之间的空间关系。

数据内容

图像数据：包含真实世界机器人实验室的图像。
标注信息：包括物体的边界框、遮挡级别、类别标签、颜色、位置以及与其他物体之间的空间关系。
问题：自动生成的问答数据。
资源文件：包含可能的物体类别、房间类型、颜色值、视点数据和问题模板。

数据集创建指南

安装依赖：运行 pip install -r requirements.txt。
数据收集：确定视点的数量和位置，从每个视点拍摄所有方向的照片。
标注：使用图像标注软件（如 VIA）进行边界框标注，并预处理、解析和标注物体实例。
问题生成：从标注文件自动生成问题，并平衡数据集。
导航：创建视点连接的 CSV 文件，并实现环境导航。

文件结构

PREQA：包含原始图像数据、标注和问题。
esources：包含物体类别、房间类型、颜色值、视点数据和问题模板。

搜集汇总

数据集介绍

构建方式

PREQA数据集的构建旨在将具身问答（EQA）任务尽可能贴近现实世界。该数据集的核心在于其高质量的图像和详尽的标注，涵盖了真实机器人实验室的三个房间和90个对象。构建过程首先涉及依赖项的安装，随后通过设定视角和位置进行数据采集，从每个视角全方位拍摄图像。接着，使用图像标注软件如VIA进行边界框的识别和标注，包括对象的遮挡程度和类别标签。通过预处理和解析标注文件，识别所有独特的对象实例，并进一步标注其颜色、位置及与其他对象的空间关系。最后，基于标注文件自动生成问题，并通过平衡数据集确保问答的多样性。

特点

PREQA数据集的显著特点在于其真实世界的图像和详尽的标注，这使得其成为预训练EQA系统的理想测试集。数据集引入了诸如相机倾斜、基于视角的导航和新颖的标注等特性，增强了任务的复杂性和真实性。此外，数据集包含了1,910个自动生成的问题，涉及对象的类别、位置、颜色及其空间关系，确保了问答任务的全面性和深度。

使用方法

使用PREQA数据集时，用户首先需安装相关依赖项，然后可通过提供的Python脚本进行数据处理和问题生成。具体步骤包括：使用VIA软件进行图像标注，预处理和解析标注文件，生成并平衡问题数据集，以及创建视角连接的CSV文件以实现环境导航。用户可根据需求选择现有的导航模块或自定义实现。通过这些步骤，用户能够有效地利用PREQA数据集进行具身问答系统的开发和测试。

背景与挑战

背景概述

PREQA数据集是一个高质量的实体问答（Embodied Question Answering, EQA）数据集，旨在尽可能接近真实世界的环境。该数据集由一个真实的机器人实验室图像组成，包含1,910个自动生成的问题，涉及三个房间和90个物体。这些物体被标注了类别、位置、颜色及其与其他物体之间的空间关系。PREQA数据集的主要研究人员或机构未明确提及，但其核心研究问题是如何在EQA任务中模拟真实世界的复杂性和多样性。该数据集的发布对EQA领域具有重要影响，为预训练的EQA系统提供了一个高质量的测试集，推动了该领域的发展。

当前挑战

PREQA数据集在构建过程中面临多项挑战。首先，数据集的图像来源于真实世界的机器人实验室，这要求在数据采集时确保图像的高质量和多样性。其次，标注过程涉及复杂的物体识别和空间关系分析，需要精确的图像标注软件和大量的手动工作。此外，自动生成的问题需要与标注数据高度匹配，以确保问题的合理性和有效性。最后，导航模块的设计和实现也是一个挑战，需要考虑多种导航策略以模拟真实环境中的导航行为。这些挑战共同构成了PREQA数据集在EQA领域中的重要性和复杂性。

常用场景

经典使用场景

PREQA数据集在Embodied Question Answering（EQA）领域中扮演着至关重要的角色。其经典使用场景主要体现在对预训练EQA系统的性能评估上。通过提供高质量的图像数据和详细的物体标注，PREQA允许研究者测试和优化其模型在真实世界环境中的表现。具体而言，数据集中的图像捕捉了机器人实验室的真实场景，结合了相机倾斜、视角导航等新特性，使得模型能够更准确地理解和回答关于物体位置、颜色及空间关系的问题。

衍生相关工作

PREQA数据集的发布催生了多项相关经典工作。研究者们基于PREQA的高质量数据和详细标注，开发了多种EQA模型，显著提升了模型在真实世界环境中的表现。例如，一些研究团队利用PREQA数据集中的相机倾斜和视角导航特性，设计了更高效的导航算法。此外，PREQA的自动生成问题和平衡数据集的方法也被广泛应用于其他EQA数据集的创建和优化中，进一步推动了EQA领域的发展。

数据集最近研究