基于VQA视觉问答数据的分布式训练平台研究数据集

Name: 基于VQA视觉问答数据的分布式训练平台研究数据集
Creator: 中国科学院自动化研究所
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=67d510e1195d260905af9e23&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

1、TextVQA 是一个基于图像中的文本对视觉推理进行基准测试的数据集。 TextVQA 要求模型阅读和推理图像中的文本以回答有关它们的问题。具体来说，模型需要在图像中加入一种新的文本形式，并对其进行推理以回答 TextVQA 问题。统计数据 * 来自 OpenImages 的 28,408 张图像 * 45,336 个问题 * 453,360 个真实答案。 2、文档视觉问答 (DocVQA) 旨在激发文档分析和识别研究中的 “目的驱动” 观点，其中文档内容被提取并用于响应由此信息的人类消费者定义的高级任务。为此，组织了一系列挑战并发布数据集，以使机器能够 “理解” 文档图像，从而回答有关它们的问题。数据集中有50 k个问题和12k个图像。图像是从UCSF行业文档库中收集的。问题和答案是手动注释的。 3、Video-MME（Video Multi-modal Evaluation）是首个多模态大型语言模型（MLLM）在视频分析中综合评估的基准数据集。该数据集旨在全面评估MLLM在处理视频数据时的感知和认知能力，涵盖多种视觉领域、视频时长和数据模态。 Video-MME由北京大学、香港大学等六所高校联合发布，所有数据均为新鲜采集并由人工注释，确保无先验偏见。随着人工智能技术的发展，MLLM在静态图像理解方面取得了显著进展，但在处理连续视觉数据（如视频）方面的能力尚未得到充分探索。Video-MME的提出填补了这一空白，为研究人员提供了一个全面评估MLLM在视频分析中表现的工具，推动了视频理解和人工智能技术的发展。研究人员手动选择了900个视频，总计254小时。通过反复观看视频内容，设计了2,700个高质量的多选题，涵盖6大视觉领域和30个子领域，确保数据的多样性和代表性。 4、VQAv2（Visual Question Answering v2）是一个包含关于图像的开放式问题的数据集，旨在评估计算机对视觉内容的理解能力。相较于其前身VQAv1，VQAv2通过收集互补图像，确保每个问题都与两张相似但答案不同的图像相关联，从而减少了语言偏见，提高了模型对图像理解的重视程度。包含265,016张图像，主要来自COCO和抽象场景，每张图像至少有3个问题（平均每张图像5.4个问题）每个问题有10个真实答案和3个可能但不太正确的答案这些问题需要模型具备视觉、语言和常识推理能力 5、BLINK是一个旨在评估多模态大型语言模型（Multimodal Large Language Models, LLMs）视觉感知能力的基准数据集。该数据集由Fu等人在2024年提出，包含3,807个多项选择题，涵盖14个经典计算机视觉任务，如相对深度估计、视觉对应关系、取证检测和多视角推理等。这些任务需要模型具备深入的视觉理解能力。

提供机构：

中国科学院自动化研究所

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集整合了多个视觉问答（VQA）基准数据集，包括TextVQA、DocVQA、Video-MME、VQAv2和BLINK，涵盖图像、视频和文档中的文本推理任务。它旨在支持分布式训练平台的研究，用于评估多模态模型在视觉感知和问答方面的能力，数据总量约79.96GB，包含266个文件。

以上内容由遇见数据集搜集并总结生成