donut_vqa
收藏Hugging Face2025-06-24 更新2025-06-25 收录
下载链接:
https://huggingface.co/datasets/jinaai/donut_vqa
下载链接
链接失效反馈官方服务:
资源简介:
DonutVQA数据集是从donut-vqa数据集派生出来的,经过修改测试集字段名称,以便用于ViDoRe基准测试。该数据集包含查询、图像、图像文件名和图像文本描述四个字段。图像文本描述是通过EasyOCR从图像中提取的OCR文本。数据集仅用于研究和教育目的。
创建时间:
2025-06-10
原始信息汇总
DonutVQA数据集概述
数据集基本信息
- 来源:基于donut-vqa数据集的测试集重构
- 用途:专为ViDoRe基准测试设计
- 数据量:
- 测试集样本数:800
- 下载大小:91.7MB
- 数据集大小:100.3MB
数据结构
- 特征字段:
query:字符串类型image:图像类型image_filename:字符串类型text_description:包含通过EasyOCR从图像提取的OCR文本
版权声明
- 所有权利归原始文档作者保留
- 仅限研究和教育用途
- 侵权投诉联系:support-data (at) jina.ai
免责声明
- 可能包含公开可用的图像/文本数据
- 不主动收集个人/敏感/隐私信息
- 发现不当内容可申请移除
搜集汇总
数据集介绍

构建方式
在视觉问答领域,donut_vqa数据集的构建体现了多模态数据处理的精妙设计。该数据集源自donut-vqa原始数据集,经过专业重构形成测试集,特别适配ViDoRe基准测试需求。构建过程中采用EasyOCR技术对图像进行光学字符识别,将提取的文本信息存入text_description字段,同时保留原始图像、文件名及查询语句等关键元素,形成结构化多模态数据。
特点
该数据集展现出鲜明的多模态特性,其核心价值在于图像与文本的深度耦合。800个测试样本均包含高分辨率图像及其对应的OCR识别文本,通过query-image-text_description三元组构建起完整的视觉问答单元。图像文件名字段的保留为数据溯源提供便利,而经过标准化的字段命名则确保与ViDoRe基准的无缝对接,为模型评估创造理想条件。
使用方法
研究者可借助该数据集开展端到端的视觉问答系统测试。加载数据后,模型需同时处理图像特征与OCR文本信息,对查询语句作出准确响应。建议将图像输入视觉编码器提取特征,text_description字段接入文本处理模块,通过多模态融合机制生成预测答案。测试时需注意遵循ViDoRe基准的评估协议,以确保结果的可比性。
背景与挑战
背景概述
DonutVQA数据集作为视觉文档理解领域的重要资源,由warshakhan等研究人员于2023年构建,旨在推进文档图像视觉问答技术的研究。该数据集源自donut-vqa_ISynHMP项目的测试集重构,通过整合图像数据与EasyOCR提取的文本描述,为ViDoRe基准测试提供了标准化评估框架。其创新性在于将文档图像的视觉特征与文本语义相结合,为跨模态理解任务建立了新的研究范式,显著促进了智能文档处理、知识抽取等应用领域的发展。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,文档图像的多样性和复杂版面结构导致视觉问答系统难以准确关联图像区域与对应文本,特别是对手写体、模糊文本的识别存在显著误差;在构建过程中,原始数据的版权合规性审查与隐私信息过滤消耗了大量资源,而OCR文本提取的精度受限于图像质量,部分低分辨率样本需人工校验。如何平衡数据规模与标注质量,以及处理多语言混排文档,仍是亟待突破的技术瓶颈。
常用场景
经典使用场景
在视觉文档理解领域,donut_vqa数据集通过结合图像与文本描述,为研究者提供了丰富的多模态分析素材。其经典使用场景包括文档视觉问答系统开发,其中模型需要根据图像内容和OCR提取的文本信息,准确回答用户提出的查询问题。该数据集特别适用于测试模型在真实场景下对文档内容的理解能力,为文档智能处理技术提供了标准化的评估基准。
解决学术问题
donut_vqa数据集有效解决了文档图像理解中的关键学术挑战,包括跨模态特征对齐、文本-视觉信息融合以及复杂布局下的语义解析等问题。通过提供结构化测试样本,该数据集推动了文档视觉问答模型的性能边界探索,为评估模型在真实场景中的鲁棒性和泛化能力提供了重要依据,填补了传统OCR技术无法处理语义理解任务的空白。
衍生相关工作
donut_vqa数据集催生了多个文档理解领域的创新研究,包括基于Transformer的跨模态预训练框架、端到端文档问答系统以及视觉-语言联合表示学习方法。这些工作显著提升了模型对复杂文档布局的适应能力,其中ViDoRe基准测试体系的建立直接受益于该数据集的标准化重构,为后续研究提供了可复现的实验基础。
以上内容由遇见数据集搜集并总结生成



