ERQA

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/RunsenXu/ERQA

下载链接

链接失效反馈

官方服务：

资源简介：

ERQA数据集是一个视觉问答数据集，其中包含了问题、问题类型、答案、视觉索引和图像编码。该数据集通过将图像占位符插入问题文本中，并使用视觉索引将图像与占位符对应起来，来整合视觉信息与文本信息。数据集提供了测试集，并且包含了用于数据格式转换的脚本。

创建时间：

2025-08-26

原始信息汇总

ERQA (Parquet) 数据集概述

数据集基本信息

语言：英语
任务类别：问答、视觉问答
数据集名称：ERQA (Parquet)
数据格式：Parquet

数据集特征

问题 (string)：包含根据视觉索引插入的 <image> 占位符
问题类型 (string)
答案 (string, 可选)
视觉索引 (int64序列)
编码图像 (图像序列)：与 <image> 占位符顺序对齐的图像字节

数据划分

测试集：erqa.parquet

数据集内容

erqa.parquet 文件：包含完整数据集，具有上述特征列
ERQA.tsv 文件：专为 vlmevalkit 格式化，包含以下列：
- 索引 (int)
- 类别 (string，来自问题类型)
- 图像 (string)：单图像为 base64 字符串，多图像为 base64 字符串数组字符串，无图像为空字符串
- 问题 (string)
- 答案 (string，可能为空)

与原版差异

相比原始 Google ERQA 版本，此版本使用视觉索引将 <image> 占位符注入问题文本中，并重新排序编码图像以匹配这些占位符。

相关资源

原始项目：https://github.com/embodiedreasoning/ERQA

搜集汇总

数据集介绍

构建方式

在视觉问答领域，ERQA数据集通过精心设计的转换流程构建而成。原始数据来源于Google发布的TFRecord格式，经过Python脚本处理转化为Parquet格式，确保数据的高效存储与访问。转换过程中，系统依据visual_indices字段将图像占位符精准插入问题文本，并对图像编码进行重新排序以匹配问题中的视觉引用顺序，从而保持多模态数据的一致性。

特点

ERQA数据集显著特点在于其多模态结构与精细化标注。每个样本包含自然语言问题、问题类型标签、答案及对应的视觉索引序列，其中问题文本中嵌入了动态图像占位符以指示视觉依赖关系。图像数据以编码字节序列形式存储，与问题中的占位符严格对齐，支持单图或多图场景。数据集额外提供适配vlmevalkit评估框架的TSV格式，包含索引、类别、图像基编码、问题与答案等结构化字段。

使用方法

该数据集适用于多模态推理模型的训练与评估，尤其擅长检验视觉-语言联合理解能力。研究人员可直接加载Parquet格式数据，通过解析问题中的图像占位符与images_encoded字段获取对齐的多模态样本。若需使用vlmevalkit进行评估，可调用配套脚本将Parquet转换为标准TSV格式，其中图像数据以基编码字符串或数组形式存储，支持无缝集成到评估流水线中。

背景与挑战

背景概述

ERQA数据集由Google研究团队于2023年推出，专注于具身推理问答领域的研究。该数据集旨在探索多模态环境下智能体对视觉场景的深度理解与逻辑推理能力，通过结合图像序列与自然语言问题，推动视觉语言模型在动态环境中的认知发展。其创新性在于引入了时序视觉索引机制，为人工智能在机器人交互、自动驾驶等领域的应用提供了重要的基准测试平台。

当前挑战

ERQA面临的核心挑战在于解决动态视觉场景中的多步推理问题，要求模型同时处理时序图像序列和语言语义的对齐。数据构建过程中需克服多模态数据同步标注的复杂性，包括精确匹配视觉索引与文本描述的空间时序关系，以及确保大规模图像-问答对标注的一致性。此外，模型需具备跨模态推理能力以应对真实环境中视觉元素变化的挑战。

常用场景

经典使用场景

在视觉语言推理研究领域，ERQA数据集被广泛用于评估多模态模型对具身推理任务的解决能力。研究者通过该数据集中的图像序列和文本问题，测试模型在时空推理、物体状态变化理解和动作序列预测等方面的表现，为多模态推理研究提供标准化评估基准。

解决学术问题

该数据集有效解决了多模态推理中时空动态建模的学术难题，通过提供包含视觉索引和图像编码的结构化数据，支持研究者探索视觉与语言信息的深度融合机制。其意义在于推动了具身人工智能的发展，为理解智能体在动态环境中的推理过程提供了重要数据支撑。

衍生相关工作

基于ERQA数据集，研究者开发了多个经典的多模态推理模型，包括视觉语言预训练框架和动态场景理解算法。这些工作显著推进了具身推理领域的发展，衍生出如视觉问答增强模型、时序推理网络等一系列创新成果，为后续研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集