facebook/textvqa

Name: facebook/textvqa
Creator: facebook
Published: 2024-01-18 11:19:08
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/facebook/textvqa

下载链接

链接失效反馈

官方服务：

资源简介：

TextVQA数据集是一个专为视觉问答任务设计的资源，特别强调需要模型理解和推理图像中的文本以回答问题。该数据集包含45,336个问题，涉及28,408张来自OpenImages数据集的图像。所有问题均为英文，数据集分为训练集、验证集和测试集。每个数据实例包含图像ID、问题、图像和答案等详细特征。数据集的创建涉及众包注释，并使用OpenImages数据集作为图像来源。该数据集遵循CC-BY-4.0许可。

提供机构：

facebook

原始信息汇总

数据集概述

数据集名称: TextVQA

语言: 英语

许可证: CC-BY-4.0

多语言性: 单语

数据集大小: 10K<n<100K

源数据: 原始数据

任务类别: 视觉问答

数据集结构

数据实例:

问题 (question): 字符串，关于图像的问题
图像ID (image_id): 字符串，图像的ID
图像 (image): 图像对象
图像宽度 (image_width): 整数，图像的宽度
图像高度 (image_height): 整数，图像的高度
答案 (answers): 字符串序列，每个问题有10个答案
问题ID (question_id): 整数，问题的唯一ID
集合名称 (set_name): 字符串，问题所属的集合

数据分割:

训练集 (train): 34602个样本，21381310字节
验证集 (validation): 5000个样本，3077854字节
测试集 (test): 5734个样本，3025046字节

数据集创建

注释者: 众包

语言创建者: 众包

初始数据收集和规范化: 图像来自OpenImages v4数据集，通过OCR系统筛选包含文本的图像。

注释过程: 图像经过自动筛选后，由人工注释者验证图像中是否包含文本，并提出相关问题。每个问题由10个不同的注释者提供答案。

个人和敏感信息: 数据集可能包含人脸、车牌和文档等敏感信息。

使用数据集的考虑

社会影响: 数据集推动了场景文本识别和推理在机器学习应用中的重要性，并促进了相关研究的发展。

偏见讨论: 数据集通过收集多个答案来减少异常值偏差，并通过评估指标考虑所有答案。

其他已知限制: 数据集仅包含英语问题，但图像可能包含非英语拉丁字符。数据集的性能也依赖于所使用的OCR质量。

搜集汇总

数据集介绍

构建方式

在视觉问答领域，TextVQA数据集的构建体现了对图像中文本信息深度理解的追求。该数据集从OpenImages v4中筛选出包含文本的图像，通过自动光学字符识别系统进行初步过滤，随后由众包标注者手动验证图像文本的存在性。标注流程分为多阶段：首先，标注者针对图像撰写涉及场景文本的问题；其次，十位不同的标注者独立提供答案，确保答案的多样性与可靠性。最终，数据集包含45,336个问题，覆盖28,408张图像，形成了结构化的训练、验证与测试分割。

特点

TextVQA数据集的核心特点在于其专注于图像中文本的阅读与推理任务。与传统的视觉问答数据集不同，该数据集的问题设计强制模型必须识别并理解图像中的文字内容才能作答，从而推动了多模态学习的发展。数据集提供了丰富的元数据，包括图像类别、原始与处理后的图像链接、问题分词列表及十个独立标注的答案，支持全面的模型训练与评估。此外，数据集采用VQA准确度作为评估指标，并通过多答案收集机制减少了答案偏差的影响。

使用方法

使用TextVQA数据集时，研究人员可通过HuggingFace平台直接加载数据，利用其预定义的数据字段进行模型训练与验证。数据集包含训练集、验证集和测试集，其中测试集的答案未公开，需通过EvalAI平台提交预测结果以获取评估分数。典型的使用流程包括：加载图像与问题数据，结合光学字符识别技术提取文本特征，构建多模态模型进行端到端训练。注意事项包括避免直接索引图像列以优化解码效率，并利用image_classes字段过滤可能包含敏感信息的图像。

背景与挑战

背景概述

在视觉问答领域，传统模型往往局限于对图像中物体与场景的感知，而忽视了文本信息的关键作用。为弥补这一研究空白，Facebook AI Research等机构的研究人员于2019年共同创建了TextVQA数据集。该数据集旨在推动模型对图像内场景文本的阅读与推理能力，其核心研究问题聚焦于如何让视觉问答系统理解并利用图像中的文字信息来回答问题。通过从OpenImages数据集中筛选包含文本的图像，并采用众包方式收集问题与答案，TextVQA不仅丰富了视觉语言理解的任务范畴，也为后续如TextCaps、STVQA等相关研究奠定了重要基础，显著提升了模型在真实场景中的应用潜力。

当前挑战

TextVQA数据集所针对的视觉问答任务，其核心挑战在于模型需融合视觉与文本双重模态，并执行复杂的跨模态推理。具体而言，模型必须准确识别图像中的场景文本，理解其语义，并将其与视觉内容及问题意图相结合，这对模型的OCR精度与上下文推理能力提出了极高要求。在数据集构建过程中，挑战同样显著：首先，从海量图像中自动筛选含文本的图像依赖OCR系统的初始性能，任何识别误差都可能导致数据质量下降；其次，通过众包收集高质量、多样化的问答对需精心设计标注流程与质量控制机制，以确保问题的复杂性与答案的可靠性，避免标注偏差影响模型评估。

常用场景

经典使用场景

在视觉问答领域，TextVQA数据集为模型提供了融合图像文本理解能力的经典场景。该数据集通过包含大量需要识别并推理图像中场景文本的问题，促使模型超越传统视觉特征分析，实现跨模态的语义整合。研究者通常利用该数据集训练端到端的多模态模型，评估模型在复杂视觉语境下对文本信息的提取与推理能力，从而推动视觉语言理解技术的边界。

衍生相关工作

TextVQA的推出催生了一系列重要的衍生工作与数据集。例如，TextCaps扩展了任务范畴，要求模型生成包含文本描述的图像标题；TextOCR提供了更密集的文本标注以增强OCR训练。同时，STVQA、DocVQA等数据集相继出现，分别专注于街景文本与文档视觉问答，形成了以场景文本理解为核心的研究生态，并推动了如M4C、TAP等先进多模态架构的发展。

数据集最近研究