lance-format/docvqa-lance
收藏Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/lance-format/docvqa-lance
下载链接
链接失效反馈官方服务:
资源简介:
DocVQA (Lance Format)是DocVQA数据集的Lance格式版本,主要用于文档图像上的视觉问答(VQA)。文档图像包括行业/政府扫描件、多页报告、表单、收据等。数据集包含验证集和测试集,分别有5,349和5,188行数据。数据集的schema详细列出了各列的名称、类型和说明,包括图像、问题、答案、文档ID等信息。此外,还提供了预构建的索引、快速开始的代码示例以及按问题类型过滤的示例。数据集的来源和许可证信息也明确给出,DocVQA采用MIT许可证,底层文档来自UCSF Industry Documents Library。
DocVQA (Lance Format) is a Lance-formatted version of the DocVQA dataset, designed for Visual Question Answering (VQA) over document images. The document images include industry/government scans, multi-page reports, forms, receipts, etc. The dataset contains validation and test splits with 5,349 and 5,188 rows respectively. The schema of the dataset details the column names, types, and notes, including image, question, answer, document ID, etc. Additionally, pre-built indices, quick start code examples, and filtering by question type are provided. The source and license information is also clearly stated, with DocVQA released under the MIT license and the underlying documents sourced from the UCSF Industry Documents Library.
提供机构:
lance-format
搜集汇总
数据集介绍

构建方式
DocVQA-Lance数据集是基于经典文档视觉问答基准DocVQA,经由Hugging Face上lmms-lab/DocVQA仓库转换而来。该数据集将原始图像与问答对以Lance列式存储格式进行重构,支持高效检索与向量化操作。构建过程中保留了DocVQA的全部标注字段,包括问题、答案、文档ID及问题类型,并额外提取了图像与问题文本的CLIP嵌入向量,以余弦归一化形式存入fixed_size_list中,为多模态检索提供了即用特征。同时,数据划分沿用原始验证集和测试集,分别包含5349与5188个样本,确保与原基准的可比性。
特点
该数据集的核心特色在于其内置了多种预构建索引,涵盖向量索引(IVF_PQ)、全文检索索引(INVERTED)以及标量索引(BTREE、LABEL_LIST),覆盖了图像嵌入、问题嵌入、问题描述、答案文本及元数据字段。这种结构化设计使得用户无需额外构建索引即可执行高效的语义搜索、过滤与近似最近邻查询。此外,数据集中每张图像均以JPEG字节形式内联存储,并与文档来源(UCSF产业文档库)的元信息关联,兼具工程实用性与学术可溯源性。
使用方法
用户可通过Python Lance库直接加载Lance格式数据集,支持基于Hugging Face路径的流式读取。对于过滤操作,可利用内置的LABEL_LIST索引结合array_has_any函数按问题类型(如‘form’)筛选样本;对于语义检索,可直接调用预构建的IVF_PQ向量索引对image_emb或question_emb执行余弦相似度搜索;对于文本查询,则可使用INVERTED索引在question或answer字段上进行全文检索。该数据集同时兼容Lance原生API与DuckDB、Pandas等生态工具,便于集成到下游视觉问答或文档分析流水线中。
背景与挑战
背景概述
在视觉与语言交叉领域,文档视觉问答(DocVQA)任务旨在使机器能够理解复杂的文档图像并回答相关自然语言问题。DocVQA数据集由Minesh Mathew、Dimosthenis Karatzas和CV Jawahar等人于2021年创建,核心研究问题聚焦于克服传统OCR与视觉理解分离的局限,推动模型从工业扫描件、多页报告、表格及收据等非结构化文档中提取语义信息。该数据集依托UCSF行业文档库构建,涵盖超过10,000个问答对,并通过MIT许可证公开,为后续多模态大模型在文档智能领域的性能评估提供了基准,有力促进了视觉问答技术向复杂文档场景的迁移。
当前挑战
DocVQA所解决的领域挑战在于文档图像中文本布局的多样性、跨页引用与表格、图表等混合结构的语义解析;传统模型难以直接泛化至未见过的文档类型或包含领域特定术语的查询。在构建过程中,研究者面临了从海量行业文档中精确标注问答对的困难,包括处理分辨率不均的扫描件、确保问题覆盖不同复杂性(如Form、Figure、Table等类型),以及将原始文档标识与标准化元数据对齐。此外,由于文档来源的版权限制,数据集在跨机构重发布时需严格遵循访问条件,增加了统一格式转换与隐私合规的复杂程度。
常用场景
经典使用场景
在视觉与语言交叉领域,文档视觉问答(DocVQA)数据集被广泛用于训练和评估模型在复杂文档图像上的理解与推理能力。该数据集包含来自工业、政府扫描件、多页报告、表格和收据的真实文档图像,每个样本附带自然语言问题及对应答案跨度。研究者利用docvqa-lance格式中预计算的CLIP嵌入和高效的Lance列式存储,可快速进行基于图像或文本语义的近似检索,从而实现文档级视觉问答、信息定位和结构化抽取等经典任务。其预设的倒排索引和标签列表索引进一步支持对大容量文档数据进行细粒度过滤与高效查询,成为多模态文档理解领域基准测试的核心资源之一。
实际应用
在实际产业应用中,docvqa-lance数据集驱动的技术广泛部署于智能文档处理系统,涵盖自动发票审核、医疗记录信息抽取、法律合同条款检索、表单数据录入以及金融报告分析等场景。企业利用基于该数据集训练的模型,能够直接对扫描件或PDF文档中的图像提出自然语言查询,例如“表格第三行的总金额是多少”或“签署日期在合同中的位置”,从而极大减少人工复核成本。此外,依托Lance格式的高效索引结构,系统可在秒级内完成海量历史文档的语义搜索与内容定位,显著提升办公自动化和数据治理的效率。
衍生相关工作
围绕DocVQA数据集,学术界衍生出一系列具有深远影响的经典工作。以T5、LayoutLM和DonUT为代表的预训练模型在DocVQA上进行微调,验证了将视觉布局信息与文本语义融合的有效性,并催生了诸如DocFormer、Pix2Struct等视觉—语言文档理解架构。基于该数据集,研究者进一步提出了跨文档推理、多页文档问答和文档图像增强等拓展任务,推动了文档级视觉问答从单页向多页、从静态到交互式的发展。此外,DocVQA也成为度量生成式大语言模型在文档理解方面能力的重要基准,相关成果广泛应用于多模态RAG系统和文档智能助理中。
以上内容由遇见数据集搜集并总结生成



