ReasonVQA

Hugging Face2025-11-01 更新2025-11-02 收录

下载链接：

https://huggingface.co/datasets/duongtr/ReasonVQA

下载链接

链接失效反馈

官方服务：

资源简介：

ReasonVQA是一个包含结构化知识的视觉问答多跳推理基准数据集。数据集包含训练和验证的数据，格式包括问题ID、问题内容、图像ID、图像名称、图像路径、图像来源、问题中的跳数、答案列表、答案正确性、类别列表、用于构建问题的Wikidata属性ID和名称、用于构建问题的实体ID和名称、从图像到问题的节点列表以及问题是否包含场景图信息。

创建时间：

2025-11-01

原始信息汇总

ReasonVQA数据集概述

数据集基本信息

发布日期：2025年11月1日
版本号：1.0
许可证：GNU Affero General Public License v3.0 (AGPL-3.0)
数据规模：1M<n<10M
图像数量：482,773张
问题数量：4,628,801个

数据集描述

ReasonVQA是一个用于视觉问答的多跳推理基准数据集，包含结构化知识。该论文已被ICCV 2025接收。

数据格式

数据文件(train.jsonl和val.jsonl)包含以下字段：

question_id：问题ID（整数）
question：问题内容（字符串）
image_id：图像ID（字符串）
image_name：CV数据集中的图像名称（字符串）
image_path：图像的URL或本地路径（字符串）
source：图像来源名称（字符串）
hop：跳数（整数）
answers：答案列表（字符串数组）
correct：每个答案正确性的指示列表（1或0的整数数组）
categories：类别列表（整数数组）
property_id：用于构建问题的属性Wikidata ID（字符串）
property_label：用于构建问题的属性Wikidata名称（字符串）
entity_id：用于构建问题的实体Wikidata ID（字符串）
entity_label：用于构建问题的实体Wikidata名称（字符串）
route：从图像到问题的节点列表（字符串数组）
has_scene_graph：指示问题是否包含场景图信息（布尔值）

许可证信息

本数据集根据GNU Affero通用公共许可证v3.0发布。使用本数据集即表示同意AGPL许可证的条款。

相关链接

官方主页：https://duong-tr.github.io/ReasonVQA/
许可证文件：https://www.gnu.org/licenses/agpl-3.0.en.html
官方许可证文本：https://opensource.org/licenses/AGPL-3.0

搜集汇总

数据集介绍

构建方式

在视觉问答领域，多跳推理能力的评估一直是研究难点。ReasonVQA数据集通过结构化知识图谱与视觉场景的深度融合构建而成，其核心方法基于维基数据（Wikidata）的知识实体与属性关系网络。研究人员精心设计了482,773张图像与4,628,801个问题的对应关系，每个问题都标注了明确的推理跳数（hop）和知识路径（route），并利用场景图（scene graph）技术增强视觉语义理解，确保每个问题都需要经过多步推理才能得出正确答案。

特点

该数据集最显著的特点是实现了视觉理解与知识推理的有机结合。每道问题不仅包含传统的图像问答对，还完整记录了从视觉元素到知识实体的推理路径，包括属性标识（property_id）和实体标签（entity_label）等结构化信息。数据集涵盖1至多跳的不同复杂度推理任务，通过正确性标注（correct）和分类标签（categories）提供细粒度评估维度，其大规模样本量和丰富的元数据为研究多模态推理机制提供了理想实验平台。

使用方法

使用该数据集时，研究人员可通过train.jsonl和val.jsonl文件加载训练与验证数据。每个样本包含完整的多模态信息：图像路径（image_path）用于视觉特征提取，问题文本（question）与答案列表（answers）构成基础问答对，而推理路径（route）和跳数（hop）则为模型的可解释性分析提供关键依据。建议研究者结合场景图信息（has_scene_graph）设计分层推理模型，利用知识实体（entity_id）和属性关系（property_label）构建结构化推理链条，从而全面提升视觉问答系统的逻辑推理能力。

背景与挑战

背景概述

在视觉问答领域，多跳推理能力一直是衡量模型认知深度的关键指标。ReasonVQA数据集由研究团队于2025年创建，作为ICCV会议的正式成果，该数据集通过整合结构化知识图谱与视觉场景图，构建了包含482,773张图像和462万余问题的基准。其核心研究目标在于推动机器对复杂跨模态关系的理解，通过引入维基数据实体属性和多跳推理路径，为探索视觉与语言联合推理机制提供了重要实验平台。

当前挑战

该数据集致力于解决视觉问答中多跳推理的固有难题，要求模型在异构信息间建立语义桥梁，其挑战体现在对隐含逻辑链的解析与跨模态对齐精度。构建过程中面临知识图谱与视觉数据的语义融合困境，需精确维护数百万级实体关系的拓扑一致性；同时场景图标注的稀疏性与多跳问题生成的组合爆炸现象，对数据质量控制提出了严峻考验。

常用场景

经典使用场景

在视觉与语言交叉研究领域，ReasonVQA数据集通过多跳推理机制构建了结构化知识驱动的视觉问答基准。其经典应用体现在评估模型对复杂视觉场景的深层理解能力，例如要求系统基于图像中的实体属性，通过多步逻辑推理链回答涉及隐含关系的提问。这种设计有效模拟了人类认知过程中从感知到推理的递进式思维模式，为衡量人工智能的视觉推理水平提供了标准化测试平台。

衍生相关工作

基于ReasonVQA的基准特性，研究界已衍生出诸多创新工作，包括结合图神经网络的多跳推理架构、融合知识蒸馏的视觉语言预训练模型等。这些研究通过改进注意力机制中的路径规划算法，或构建动态知识路由网络，持续优化多模态推理的准确性与可解释性，形成了以结构化知识增强为核心的视觉推理技术演进路线，为后续跨模态认知智能研究奠定了方法论基础。

数据集最近研究