five

lmms-lab/GQA

收藏
Hugging Face2024-03-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/GQA
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个GQA数据集的格式化版本,用于`lmms-eval`管道中以评估大规模多模态模型。GQA数据集是一个用于现实世界视觉推理和组合问答的新数据集。

这是一个GQA数据集的格式化版本,用于`lmms-eval`管道中以评估大规模多模态模型。GQA数据集是一个用于现实世界视觉推理和组合问答的新数据集。
提供机构:
lmms-lab
原始信息汇总

数据集概述

本数据集包含多个配置,每个配置对应不同的数据集子集,涵盖图像和指令数据。以下是各配置的主要信息:

1. challenge_all_images

  • 特征: id (字符串), image (图像)
  • 分割: challenge
  • 数据量: 1590个示例,总字节数261636425.25

2. challenge_all_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
  • 分割: challenge
  • 数据量: 713449个示例,总字节数50797705

3. challenge_balanced_images

  • 特征: id (字符串), image (图像)
  • 分割: challenge
  • 数据量: 1590个示例,总字节数261636425.25

4. challenge_balanced_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
  • 分割: challenge
  • 数据量: 50726个示例,总字节数3523973

5. submission_all_images

  • 特征: id (字符串), image (图像)
  • 分割: submission
  • 数据量: 15545个示例,总字节数2314978438.875

6. submission_all_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
  • 分割: submission
  • 数据量: 4237524个示例,总字节数298875520

7. test_all_images

  • 特征: id (字符串), image (图像)
  • 分割: test
  • 数据量: 2993个示例,总字节数492571840.875

8. test_all_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
  • 分割: test
  • 数据量: 1340048个示例,总字节数95588974

9. test_balanced_images

  • 特征: id (字符串), image (图像)
  • 分割: test
  • 数据量: 2987个示例,总字节数491210370.625

10. test_balanced_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), isBalanced (布尔值)
  • 分割: test
  • 数据量: 95336个示例,总字节数6622775

11. testdev_all_images

  • 特征: id (字符串), image (图像)
  • 分割: testdev
  • 数据量: 398个示例,总字节数65779269.0

12. testdev_all_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
  • 分割: testdev
  • 数据量: 172174个示例,总字节数86970760

13. testdev_balanced_images

  • 特征: id (字符串), image (图像)
  • 分割: testdev
  • 数据量: 398个示例,总字节数65779269.0

14. testdev_balanced_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
  • 分割: testdev
  • 数据量: 12578个示例,总字节数6113469

15. train_all_images

  • 特征: id (字符串), image (图像)
  • 分割: train
  • 数据量: 74256个示例,总字节数10509758457.0

16. train_all_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
  • 分割: train
  • 数据量: 14305356个示例,总字节数6891129609

17. train_balanced_images

  • 特征: id (字符串), image (图像)
  • 分割: train
  • 数据量: 72140个示例,总字节数10200292415.5

18. train_balanced_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
  • 分割: train
  • 数据量: 943000个示例,总字节数460429581

19. val_all_images

  • 特征: id (字符串), image (图像)
  • 分割: val
  • 数据量: 10564个示例,总字节数1494990904.5

20. val_all_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
  • 分割: val
  • 数据量: 2011853个示例,总字节数967338322

21. val_balanced_images

  • 特征: id (字符串), image (图像)
  • 分割: val
  • 数据量: 10234个示例,总字节数1447074448.75

22. val_balanced_instructions

  • 特征: id (字符串), imageId (字符串), question (字符串), answer (字符串), fullAnswer (字符串), isBalanced (布尔值), groups (结构体), entailed (字符串), equivalent (字符串), types (结构体), annotations (序列), semantic (列表), semanticStr (字符串)
  • 分割: val
  • 数据量: 132062个示例,总字节数64498952

数据集使用许可

  • 许可: MIT
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉推理与组合问答领域,GQA数据集通过结构化方法构建而成。其核心源于视觉基因组场景图,经由自动化程序转化为多样化问答对。构建过程注重语义与结构的双重映射,每个问题均关联图像中的具体对象,并标注详尽的语义操作与依赖关系。数据划分涵盖训练、验证及测试子集,同时提供平衡版本以减少偏差,确保模型评估的严谨性。
特点
GQA数据集展现出多维度特性,其问题设计融合结构性与语义性,涵盖对象属性、关系及复杂推理。数据标注包含完整答案、语义解析及对象注释,支持细粒度分析。图像与指令的分离配置允许灵活加载,平衡子集则针对分布均匀性优化。规模上,它提供逾千万问答对与数万图像,为大规模多模态模型评估奠定坚实基础。
使用方法
该数据集适配于多模态模型的端到端评估,用户可通过lmms-eval管道一键加载。使用时可选择不同配置,如平衡或全量版本,并依据任务需求选取训练、验证或测试分割。图像与指令文件独立存储,支持并行处理。评估过程整合问题回答与语义分析,便于模型在视觉推理、组合问答等任务上的性能量化与比较。
背景与挑战
背景概述
在视觉推理与组合式问答研究领域,斯坦福大学的研究团队于2019年推出了GQA数据集,旨在解决真实世界场景下的复杂视觉理解问题。该数据集由Drew A. Hudson和Christopher D. Manning等学者构建,核心研究问题聚焦于推动模型超越简单的物体识别,实现深层次的组合推理与逻辑推断。通过提供丰富的图像与结构化问题对,GQA显著提升了多模态模型在视觉问答任务中的泛化能力与可解释性,为后续大规模多模态模型的评估奠定了重要基础。
当前挑战
GQA数据集致力于应对视觉问答中组合推理的挑战,要求模型理解物体属性、空间关系及逻辑操作,避免对表面统计规律的依赖。在构建过程中,挑战体现在确保问题平衡性以消除偏见,以及从视觉基因组等源数据中生成高质量、多样化的语义标注。此外,数据规模的扩展与标注一致性的维护,也对自动化流程与人工校验提出了双重考验。
常用场景
经典使用场景
在视觉推理与组合式问答研究领域,GQA数据集作为一项关键基准,常被用于评估多模态模型的深度理解与逻辑推理能力。该数据集通过提供大量基于真实世界图像的复杂问题,要求模型不仅识别视觉元素,还需执行组合推理,例如比较属性、推断关系或进行因果分析。其平衡性子集确保了问题分布的均匀性,有效避免了模型因数据偏差而导致的性能虚高,从而成为衡量模型泛化性与鲁棒性的经典工具。
实际应用
在实际应用层面,GQA数据集所训练的模型能够赋能多种智能系统,例如辅助视觉障碍者进行环境感知与交互,或为自动驾驶系统提供更精细的场景理解与决策支持。在教育技术领域,此类模型可开发出能够解答复杂图像相关问题的智能辅导工具。其强调的推理能力对于构建需要深层视觉理解的机器人、智能监控以及内容审核系统具有重要价值,推动了人工智能从感知向认知的实用化跨越。
衍生相关工作
围绕GQA数据集,学术界衍生了一系列经典研究工作,例如基于图神经网络的视觉关系推理模型、结合神经符号推理的混合架构,以及利用Transformer进行多模态融合的先进方法。这些工作不仅提升了在GQA基准上的性能,更将其中发展的技术,如场景图解析、程序化问题分解与组合注意力机制,推广至更广泛的多模态理解任务中,持续丰富并深化了视觉语言推理的研究范式与技术栈。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作