ERQA Dataset

github2025-03-12 更新2025-03-13 收录

下载链接：

https://github.com/embodiedreasoning/ERQA

下载链接

链接失效反馈

官方服务：

资源简介：

我们引入了一个关于具身推理问题的数据集，问题涵盖了与空间推理和世界知识相关的各种主题，特别是在机器人技术的背景下。问题由多模态交织的图像和文本组成，以多项选择题的形式呈现。每个问题的答案以单个字母（A、B、C、D）提供。

We introduce a dataset focused on embodied reasoning problems, which cover various topics related to spatial reasoning and world knowledge, particularly in the context of robotics. The problems are presented as multiple-choice questions composed of integrated multimodal images and text. The answer to each question is provided as a single letter (A, B, C, D).

创建时间：

2025-03-07

原始信息汇总

Embodied Reasoning QA Evaluation Dataset 概述

数据集简介

数据集名称：Embodied Reasoning QA Evaluation Dataset (ERQA)
数据集类型：多模态问题回答数据集
数据集内容：包含与空间推理和现实世界场景相关的多模态交错的图像和文本问题，形式为选择题
数据集格式：TF Examples，保存在 data/erqa.tfrecord 文件中

数据集特征

问题 (question)：文本形式的问题
图像 (image/encoded)：一个或多个编码后的图像
答案 (answer)：每个问题的真实答案（A, B, C, D 单字母形式）
问题类型 (question_type)：问题的类型（可选）
视觉索引 (visual_indices)：确定图像位置的视觉元素索引

使用说明

安装依赖：使用 pip install -r requirements.txt 安装所需包
运行示例数据加载器：执行 python loading_example.py 查看数据集结构和如何从TFRecord文件中加载数据

多模态评估工具

提供了一个轻量级评估工具，用于通过Gemini 2.0和OpenAI API查询ERQA基准数据集中的示例
支持多种API密钥配置方式，包括环境变量、命令行参数和API密钥文件
提供了默认设置和自定义模型参数的运行示例

命令行参数

--tfrecord_path：TFRecord文件的路径（默认：./data/erqa.tfrecord）
--api：使用的API（gemini 或 openai，默认：gemini）
--model：使用的模型名称（默认：Gemini为gemini-2.0-flash-exp，OpenAI为gpt-4o）
--gemini_api_key：Gemini API密钥
--openai_api_key：OpenAI API密钥
--api_keys_file：包含API密钥的文件路径
--num_examples：处理的示例数量（默认：1）
--max_retries：资源耗尽时每个API密钥的最大重试次数（默认：2）
--max_tokens：响应中的最大令牌数（仅限OpenAI，默认：300）
--connection_retries：连接错误时的最大重试次数（仅限OpenAI，默认：5）

多API密钥和重试逻辑

支持使用多个API密钥，并提供重试逻辑
当遇到资源耗尽错误时，将重试请求，并尝试下一个API密钥，直到所有API密钥耗尽为止
对于OpenAI API，连接错误时也提供重试逻辑

搜集汇总

数据集介绍

构建方式

ERQA数据集的构建旨在模拟机器人领域中与空间推理和世界知识相关的真实场景。该数据集由一系列融合了图像和文本的问答对构成，以多选问题的形式呈现，涵盖了多种空间推理主题。数据集采用TF Examples格式存储，其中包括问题文本、图像编码、答案、问题类型以及视觉元素索引等信息，确保了数据的一致性和易于处理性。

特点

ERQA数据集的特点在于其多媒体融合的问答形式，不仅包含文本信息，还辅以图像数据，使得该数据集在评估机器人对现实世界场景的理解和推理能力方面独树一帜。数据集提供了400个示例，每个示例均包含一个问题和四个可能的答案选项，以及一个正确答案。此外，数据集支持多种API模型的评估，使用户能够灵活选择适合自己需求的模型。

使用方法

使用ERQA数据集首先需要安装相关依赖，通过运行示例数据加载器可以了解数据集的结构和如何从TFRecord文件中加载数据。用户可以通过环境变量、命令行参数或API密钥文件等多种方式配置API密钥。启动评估工具时，用户可以指定API类型、模型、API密钥以及处理示例的数量等参数，以便对模型在ERQA数据集上的表现进行评估。

背景与挑战

背景概述

ERQA Dataset，即Embodied Reasoning QA Evaluation Dataset，是一个针对机器人领域中具体现实场景的空间推理和世界知识问题回答的数据集。该数据集由多模态交错的图像和文本构成，问题以多项选择题的形式提出，答案则以单个字母（A、B、C、D）表示。该数据集的创建，旨在推动机器人领域对空间推理和世界知识理解的深入研究，其影响力已渗透至相关领域的研究与应用之中。该数据集由相关研究人员或机构在近期推出，并迅速成为该领域研究的重点资源。

当前挑战

该数据集在研究领域中面临的挑战主要包括：1）如何准确捕捉和表述与空间推理和世界知识相关的问题，以及如何有效地结合图像和文本信息；2）在构建过程中，数据集的多样性和覆盖范围的扩展，以及保持数据质量的一致性。此外，针对该数据集的评价和模型测试，如何设计合理的评估框架和指标，以及如何处理多模态数据的高效加载和计算，也是当前研究中的关键挑战。

常用场景

经典使用场景

ERQA数据集，作为机器人领域空间推理与实际场景知识融合的典范，其经典使用场景在于评估机器人对现实世界情境的理解能力。该数据集通过多模态融合的方式，将图像与文本问题相结合，形成选择题形式，对机器人的视觉理解与推理能力进行综合考量。

衍生相关工作

基于ERQA数据集的研究衍生出了一系列相关工作，如多模态信息处理、视觉问答系统、机器人智能评估框架等。这些研究不仅提升了机器人在空间推理方面的智能水平，也为多模态学习领域提供了新的研究方向和灵感。

数据集最近研究