lance-format/gqa-testdev-balanced-lance

Name: lance-format/gqa-testdev-balanced-lance
Creator: lance-format
Published: 2026-05-08 15:50:20
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/lance-format/gqa-testdev-balanced-lance

下载链接

链接失效反馈

官方服务：

资源简介：

GQA testdev-balanced (Lance Format)是GQA `testdev_balanced`切片的Lance格式版本，包含12,578个组合式视觉问答（VQA）问题和匹配的398张图像，源自`lmms-lab/GQA`数据集。与原始数据集不同，此Lance格式数据集将问题和图像通过`imageId`连接，使得每一行都包含问题、答案、GQA推理程序标签以及内联的图像字节。数据集还包含CLIP图像和问题嵌入、预构建的索引（如IVF_PQ、INVERTED、BITMAP、BTREE）以及详细的模式（schema），支持通过推理类型进行过滤。数据集适用于视觉问答、图像文本到文本等任务，适用于英语环境，遵循CC BY 4.0许可证。

GQA testdev-balanced (Lance Format) is a Lance-formatted version of the canonical GQA `testdev_balanced` slice, comprising 12,578 compositional VQA questions joined with the matching 398 images, sourced from `lmms-lab/GQA`. Unlike the original dataset, this Lance dataset joins instructions and images on `imageId`, so each row contains the question, the answer, the GQA reasoning-program tags, and the image bytes inline. The dataset also includes CLIP image and question embeddings, pre-built indices (e.g., IVF_PQ, INVERTED, BITMAP, BTREE), and a detailed schema, supporting filtering by reasoning type. It is suitable for tasks like visual question answering and image-text-to-text, designed for English language use, and released under the CC BY 4.0 license.

提供机构：

lance-format

搜集汇总

数据集介绍

构建方式

在视觉推理与组合式问答研究领域，GQA数据集以其精细的场景图标注和多样化的推理类型而著称。本数据集源自lmms-lab/GQA中的testdev_balanced子集，共计12,578条组合式视觉问答样本与398幅匹配图像，采用Lance列式存储格式进行重构。构建过程中，将原本分离的指令数据与图像数据基于imageId字段进行联接，使每一条记录同时包含问题文本、标准答案、GQA推理程序标签以及内联存储的图像字节，彻底消除了跨配置文件的同步维护需求。

使用方法

使用时，首先通过Lance SDK加载数据集：import lance; ds = lance.dataset("hf://datasets/lance-format/gqa-testdev-balanced-lance/data/testdev.lance")。随后可利用预建索引执行高效筛选，例如基于推理类型过滤：ds.scanner(filter="structural = 'verify'", columns=["question", "answer"], limit=5).to_table()。内嵌的CLIP嵌入向量可直接用于跨模态检索或作为特征输入下游模型；内置的多种索引机制使得大规模组合式视觉问答的预处理与检索变得简洁高效，无需额外搭建向量数据库或全文检索引擎。

背景与挑战

背景概述

视觉推理与组合式问题回答是计算机视觉与自然语言处理交叉领域的前沿课题，要求模型不仅能够理解图像内容，还需执行多步逻辑推理以回答复杂问题。在此背景下，斯坦福大学NLP组的Hudson与Manning于2019年共同发布了GQA数据集，旨在克服先前VQA数据集对简单模式匹配的依赖，推动视觉推理能力的发展。GQA基于场景图结构，精心设计了涵盖属性、关系、比较等多种推理类型的组合式问题，并通过平衡策略减少了语言偏差，对视觉语言领域的进步产生了深远影响。gqa-testdev-balanced-lance作为GQA标准测试集的平衡子集，进一步通过Lance格式将图像、问题、答案及推理程序元数据整合为单一列式存储，并内置向量索引，极大地方便了研究人员对组合式视觉问答的快速实验与评估。

当前挑战

该数据集所解决的领域问题核心在于视觉组合推理的泛化性挑战：传统VQA模型往往学习问题与答案间的表面统计关联，而非真正的多步逻辑推理能力，GQA的设计迫使模型必须理解并模拟结构化推理程序，如验证、查询、比较、选择和逻辑操作，显著提升了评估的挑战性。在构建过程中，最大的挑战在于如何生成高质量且平衡的组合式问题，需要依靠完整的场景图解析、自动模板生成与人工审核的精细流程，确保问题的语义丰富性与一致性；此外，将大规模的图像与问题数据高效整合，并利用Lance格式解决传统parquet分片导致的图像与元数据分离问题，同时提供预构建的向量索引和过滤索引，这对数据基础设施的设计提出了较高的工程要求。

常用场景

经典使用场景

在视觉与语言交叉领域的研究中，GQA-testdev-balanced数据集作为一项经过精心平衡的基准，被广泛用于评估多模态模型在组合式视觉问答上的表现。该数据集汇聚了12,578个具有结构化推理程序标注的问答样本，并与398张真实场景图像一一对应，每个问题均涵盖验证、查询、比较、选择、逻辑等语义类型。研究者常借助其内置的CLIP双重嵌入与预建索引，快速过滤特定推理类别的问题进行模型性能诊断，或作为零样本跨域泛化能力的测试平台，是检验视觉语言模型深层语义理解能力的经典标尺。

解决学术问题

该数据集的出现有效破解了早期视觉问答基准中语言偏见与简单捷径学习的困局。通过引入场景图结构、异构语义类型及平衡的类别分布，它迫使模型必须摆脱对语言先验的依赖，转而进行真正基于图像内容的组合式推理。学术界由此得以更精确地度量模型在属性识别、对象关系推理、逻辑验证等不同认知维度上的能力短板，推动了从浅层模式匹配向深度视觉推理的研究范式转变，为发展可解释、可泛化的视觉语言系统奠定了关键的评估基础。

实际应用

在实际应用中，该数据集所承载的组合式推理范式正加速渗透至智能交互系统的核心环节。视觉问答技术在辅助视障人士理解图像内容时，需应对诸如“左边的蓝色杯子是否比右边的红色碗更靠近桌子边缘？”这类精细比较型问题，而GQA的多样推理类型恰好提供了涵盖全场景的测试覆盖。此外，面向教育领域的智能课本讲解、工业场景中的视觉质检报告生成，以及增强现实中的语境感知问答，都将其作为衡量与优化模型推理可靠性的重要参考，助力实现更自然的视觉对话体验。

数据集最近研究