lmms-lab/GQA

Name: lmms-lab/GQA
Creator: lmms-lab
Published: 2024-03-08 05:02:22
License: 暂无描述

Hugging Face2024-03-08 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/GQA

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个GQA数据集的格式化版本，用于`lmms-eval`管道中以评估大规模多模态模型。GQA数据集是一个用于现实世界视觉推理和组合问答的新数据集。

提供机构：

lmms-lab

原始信息汇总

数据集概述

本数据集包含多个配置，每个配置对应不同的数据集子集，涵盖图像和指令数据。以下是各配置的主要信息：

1. `challenge_all_images`

特征: id (字符串), image (图像)
分割: challenge
数据量: 1590个示例，总字节数261636425.25

2. `challenge_all_instructions`

特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
分割: challenge
数据量: 713449个示例，总字节数50797705

3. `challenge_balanced_images`

特征: id (字符串), image (图像)
分割: challenge
数据量: 1590个示例，总字节数261636425.25

4. `challenge_balanced_instructions`

特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
分割: challenge
数据量: 50726个示例，总字节数3523973

5. `submission_all_images`

特征: id (字符串), image (图像)
分割: submission
数据量: 15545个示例，总字节数2314978438.875

6. `submission_all_instructions`

特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
分割: submission
数据量: 4237524个示例，总字节数298875520

7. `test_all_images`

特征: id (字符串), image (图像)
分割: test
数据量: 2993个示例，总字节数492571840.875

8. `test_all_instructions`

特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
分割: test
数据量: 1340048个示例，总字节数95588974

9. `test_balanced_images`

特征: id (字符串), image (图像)
分割: test
数据量: 2987个示例，总字节数491210370.625

10. `test_balanced_instructions`

特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
分割: test
数据量: 95336个示例，总字节数6622775

11. `testdev_all_images`

特征: id (字符串), image (图像)
分割: testdev
数据量: 398个示例，总字节数65779269.0

12. `testdev_all_instructions`

特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
分割: testdev
数据量: 172174个示例，总字节数86970760

13. `testdev_balanced_images`

特征: id (字符串), image (图像)
分割: testdev
数据量: 398个示例，总字节数65779269.0

14. `testdev_balanced_instructions`

特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
分割: testdev
数据量: 12578个示例，总字节数6113469

15. `train_all_images`

特征: id (字符串), image (图像)
分割: train
数据量: 74256个示例，总字节数10509758457.0

16. `train_all_instructions`

特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
分割: train
数据量: 14305356个示例，总字节数6891129609

17. `train_balanced_images`

特征: id (字符串), image (图像)
分割: train
数据量: 72140个示例，总字节数10200292415.5

18. `train_balanced_instructions`

特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
分割: train
数据量: 943000个示例，总字节数460429581

19. `val_all_images`

特征: id (字符串), image (图像)
分割: val
数据量: 10564个示例，总字节数1494990904.5

20. `val_all_instructions`

特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
分割: val
数据量: 2011853个示例，总字节数967338322

21. `val_balanced_images`

特征: id (字符串), image (图像)
分割: val
数据量: 10234个示例，总字节数1447074448.75

22. `val_balanced_instructions`

特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
分割: val
数据量: 132062个示例，总字节数64498952

数据集使用许可

许可: MIT

搜集汇总

数据集介绍

构建方式

在视觉推理与组合问答领域，GQA数据集通过结构化方法构建而成。其核心源于视觉基因组场景图，经由自动化程序转化为多样化问答对。构建过程注重语义与结构的双重映射，每个问题均关联图像中的具体对象，并标注详尽的语义操作与依赖关系。数据划分涵盖训练、验证及测试子集，同时提供平衡版本以减少偏差，确保模型评估的严谨性。

特点

GQA数据集展现出多维度特性，其问题设计融合结构性与语义性，涵盖对象属性、关系及复杂推理。数据标注包含完整答案、语义解析及对象注释，支持细粒度分析。图像与指令的分离配置允许灵活加载，平衡子集则针对分布均匀性优化。规模上，它提供逾千万问答对与数万图像，为大规模多模态模型评估奠定坚实基础。

使用方法

该数据集适配于多模态模型的端到端评估，用户可通过lmms-eval管道一键加载。使用时可选择不同配置，如平衡或全量版本，并依据任务需求选取训练、验证或测试分割。图像与指令文件独立存储，支持并行处理。评估过程整合问题回答与语义分析，便于模型在视觉推理、组合问答等任务上的性能量化与比较。

背景与挑战

背景概述

在视觉推理与组合式问答研究领域，斯坦福大学的研究团队于2019年推出了GQA数据集，旨在解决真实世界场景下的复杂视觉理解问题。该数据集由Drew A. Hudson和Christopher D. Manning等学者构建，核心研究问题聚焦于推动模型超越简单的物体识别，实现深层次的组合推理与逻辑推断。通过提供丰富的图像与结构化问题对，GQA显著提升了多模态模型在视觉问答任务中的泛化能力与可解释性，为后续大规模多模态模型的评估奠定了重要基础。

当前挑战

GQA数据集致力于应对视觉问答中组合推理的挑战，要求模型理解物体属性、空间关系及逻辑操作，避免对表面统计规律的依赖。在构建过程中，挑战体现在确保问题平衡性以消除偏见，以及从视觉基因组等源数据中生成高质量、多样化的语义标注。此外，数据规模的扩展与标注一致性的维护，也对自动化流程与人工校验提出了双重考验。

常用场景

经典使用场景

在视觉推理与组合式问答研究领域，GQA数据集作为一项关键基准，常被用于评估多模态模型的深度理解与逻辑推理能力。该数据集通过提供大量基于真实世界图像的复杂问题，要求模型不仅识别视觉元素，还需执行组合推理，例如比较属性、推断关系或进行因果分析。其平衡性子集确保了问题分布的均匀性，有效避免了模型因数据偏差而导致的性能虚高，从而成为衡量模型泛化性与鲁棒性的经典工具。

实际应用

在实际应用层面，GQA数据集所训练的模型能够赋能多种智能系统，例如辅助视觉障碍者进行环境感知与交互，或为自动驾驶系统提供更精细的场景理解与决策支持。在教育技术领域，此类模型可开发出能够解答复杂图像相关问题的智能辅导工具。其强调的推理能力对于构建需要深层视觉理解的机器人、智能监控以及内容审核系统具有重要价值，推动了人工智能从感知向认知的实用化跨越。

衍生相关工作

围绕GQA数据集，学术界衍生了一系列经典研究工作，例如基于图神经网络的视觉关系推理模型、结合神经符号推理的混合架构，以及利用Transformer进行多模态融合的先进方法。这些工作不仅提升了在GQA基准上的性能，更将其中发展的技术，如场景图解析、程序化问题分解与组合注意力机制，推广至更广泛的多模态理解任务中，持续丰富并深化了视觉语言推理的研究范式与技术栈。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

lmms-lab/GQA

数据集概述

1. challenge_all_images

2. challenge_all_instructions

3. challenge_balanced_images

4. challenge_balanced_instructions

5. submission_all_images

6. submission_all_instructions

7. test_all_images

8. test_all_instructions

9. test_balanced_images

10. test_balanced_instructions

11. testdev_all_images

12. testdev_all_instructions

13. testdev_balanced_images

14. testdev_balanced_instructions

15. train_all_images

16. train_all_instructions

17. train_balanced_images

18. train_balanced_instructions

19. val_all_images

20. val_all_instructions

21. val_balanced_images

22. val_balanced_instructions