ReplugLens/OK-VQA

Name: ReplugLens/OK-VQA
Creator: ReplugLens
Published: 2024-06-07 06:40:52
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ReplugLens/OK-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: question_type dtype: string - name: answers sequence: string - name: id_image dtype: int64 - name: question_id dtype: int64 - name: question dtype: string splits: - name: test num_bytes: 833577670.0 num_examples: 5046 - name: train num_bytes: 1487594256.0 num_examples: 9009 download_size: 2315635688 dataset_size: 2321171926.0 configs: - config_name: default data_files: - split: test path: data/test-* - split: train path: data/train-* ---

数据集信息：特征： - 图像（image）：数据类型为图像 - 问题类型（question_type）：数据类型为字符串 - 答案（answers）：数据类型为字符串序列 - 图像ID（id_image）：数据类型为64位整型 - 问题ID（question_id）：数据类型为64位整型 - 问题（question）：数据类型为字符串数据集划分： - 测试集（test）：占用字节数833577670.0，样本数5046 - 训练集（train）：占用字节数1487594256.0，样本数9009 下载总大小：2315635688 数据集总大小：2321171926.0 数据集配置： - 默认配置（default）：数据文件： - 测试集划分：路径为data/test-* - 训练集划分：路径为data/train-*

提供机构：

ReplugLens

原始信息汇总

数据集概述

数据集特征

image: 图像数据类型
question_type: 字符串数据类型
answers: 字符串序列数据类型
id_image: 64位整数数据类型
question_id: 64位整数数据类型
question: 字符串数据类型

数据集划分

test:
- 示例数量: 5046
- 数据大小: 833577670.0字节
train:
- 示例数量: 9009
- 数据大小: 1487594256.0字节

数据集大小

下载大小: 2315635688字节
数据集总大小: 2321171926.0字节

数据文件配置

default 配置:
- test 数据路径: data/test-*
- train 数据路径: data/train-*

搜集汇总

数据集介绍

构建方式

在视觉问答领域，OK-VQA数据集通过精心设计的构建流程，为研究界提供了丰富的多模态交互资源。该数据集从公开的图像资源中选取了多样化的视觉场景，并邀请标注专家针对每幅图像提出开放性的知识驱动问题，这些问题往往需要结合外部常识或专业知识才能准确回答。随后，通过众包平台收集多个候选答案，并采用严格的验证机制确保答案的准确性与多样性，最终形成了包含训练集与测试集的完整数据架构。

特点

OK-VQA数据集以其鲜明的知识导向特性脱颖而出，每个问题均超越了简单的视觉识别，要求模型融合外部知识进行推理。数据集中涵盖了广泛的图像类型与问题类别，从日常场景到专业领域，确保了评估的全面性。其提供的多答案标注不仅反映了人类理解的多样性，也为模型性能提供了更稳健的衡量标准，使之成为推动视觉与语言融合研究的关键基准。

使用方法

研究者可利用该数据集训练或评估视觉问答模型，特别是那些旨在整合外部知识库的架构。典型流程包括加载图像与对应的问题文本，输入到多模态模型中进行联合编码与推理。在评估阶段，模型生成的答案需与数据集中提供的多个参考答案进行匹配，常采用准确率或基于共识的评分指标。数据集的标准划分便于进行公平的性能比较，推动领域内算法的迭代与创新。

背景与挑战

背景概述

OK-VQA数据集由卡内基梅隆大学和艾伦人工智能研究所的研究团队于2019年共同创建，旨在推动视觉问答领域向知识密集型任务发展。该数据集的核心研究问题聚焦于模型如何结合外部知识来回答关于图像的开放式问题，这超越了传统视觉问答仅依赖图像内容的理解。其影响力在于为多模态人工智能研究设立了新基准，促进了视觉与语言模型在知识推理能力上的融合与进步。

当前挑战

OK-VQA数据集所解决的领域问题涉及知识驱动的视觉问答，挑战在于模型需整合跨模态信息并访问庞大外部知识库以生成准确答案，这要求克服语义鸿沟与知识检索的复杂性。构建过程中的挑战包括从开放域中收集高质量图像-问题对，确保问题多样性并涵盖广泛知识领域，同时通过众包标注验证答案的可靠性与一致性，以避免偏差并维持数据集的科学严谨性。

常用场景

经典使用场景

在视觉问答领域，OK-VQA数据集因其独特的开放知识需求而备受关注。该数据集要求模型不仅理解图像内容，还需结合外部知识进行推理，从而回答复杂问题。经典使用场景包括评估多模态模型的视觉理解与知识整合能力，常被用于训练和测试视觉语言模型，以验证其能否在开放世界情境中准确检索和应用常识或专业知识。

衍生相关工作

围绕OK-VQA数据集，学术界涌现了一系列经典研究工作。这些工作主要聚焦于知识检索与融合机制，例如通过引入知识图谱、预训练语言模型或网络搜索来增强模型的知识获取能力。代表性方法包括基于检索的增强模型、多源知识集成框架以及端到端的知识感知视觉语言模型，这些衍生研究显著推动了开放知识视觉问答技术的进步与创新。

数据集最近研究