five

Docmatix

收藏
Hugging Face2024-07-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/HuggingFaceM4/Docmatix
下载链接
链接失效反馈
官方服务:
资源简介:
Docmatix是一个大规模的文档视觉问答(DocVQA)数据集,属于Idefics3发布的一部分。该数据集包含2,444,750张图像和9,500,000个问答对,用于微调视觉-语言模型Idefics3。数据集的特征包括图像和文本,其中文本部分包含用户和助手的对话。

Docmatix is a large-scale document visual question answering (DocVQA) dataset that forms part of the Idefics3 release. This dataset contains 2,444,750 images and 9,500,000 question-answer pairs, and is used for fine-tuning the vision-language model Idefics3. The dataset features images and text, where the text portion includes conversations between users and assistants.
提供机构:
HuggingFaceM4
创建时间:
2024-07-17
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: MIT
  • 大小类别: 1M<n<10M
  • 任务类别: 视觉问答
  • 名称: Docmatix
  • 标签: docvqa

配置

  • 配置名称: images

    • 数据文件:
      • 分割: train
      • 路径: data/train-*
    • 特征:
      • 名称: images
        • 序列: image
      • 名称: texts
        • 列表:
          • 名称: user
            • 数据类型: string
          • 名称: assistant
            • 数据类型: string
          • 名称: source
            • 数据类型: string
    • 分割:
      • 名称: train
        • 字节数: 552957537722.77
        • 样本数: 1273215
    • 下载大小: 159404414330
    • 数据集大小: 552957537722.77
  • 配置名称: pdf

    • 数据文件:
      • 分割: train
      • 路径: pdf/train-*
    • 特征:
      • 名称: pdf
        • 数据类型: binary
      • 名称: texts
        • 列表:
          • 名称: user
            • 数据类型: string
          • 名称: assistant
            • 数据类型: string
          • 名称: source
            • 数据类型: string
    • 分割:
      • 名称: train
        • 字节数: 44487829694
        • 样本数: 124982
    • 下载大小: 0
    • 数据集大小: 44487829694

数据字段示例

json { "images": [PIL.Image], "texts": [ { "user": "What is the purpose of the Confirmation Statement mentioned in the document?", "assistant": "The purpose of the Confirmation Statement is to confirm that all information required to be delivered by the company to the registrar in relation to the confirmation period concerned has been delivered or is being delivered at the same time as the confirmation statement.", "source": "PDFA key: 244" }, { "user": "When was the filing received as per the document?", "assistant": "The filing was received for filing in Electronic Format on the 23/03/2021.", "source": "PDFA key: 244" } ] }

与其他DocVQA数据集的比较

数据集 图片数量 Q/A对数量 令牌数量
Docmatix 2,444,750 9,500,000 390,000,000
DocVQA 10,189 39,463 337,829
TextCaps 21,953 21,953 389,658
TextVQA 21,953 34,602 181,918
ST-VQA 17,247 23,121 127,846
OCR-VQA 165,746 801,579 6,073,824
VisualMRC 3,027 11,988 168,828
IAM 5,663 5,663 144,216
InfoVQA 2,118 10,074 61,048
Diagram image-to-text 300 300 22,196
搜集汇总
数据集介绍
main_image_url
构建方式
Docmatix数据集的构建依托于Idefics3模型的微调需求,专注于文档视觉问答(Document Visual Question Answering, DocVQA)任务。该数据集通过从大量文档中提取图像和文本信息,构建了包含数百万个问答对的丰富语料库。数据来源多样,涵盖了PDF文档及其对应的图像,确保了数据的广泛性和代表性。每个样本包含最多四张图像以及与之相关的用户与助手之间的对话文本,对话内容围绕图像中的信息展开,形成了多模态的问答结构。
使用方法
使用Docmatix数据集时,首先需安装`datasets`库,并通过`load_dataset`函数加载数据。默认情况下,数据集以图像形式加载,若需加载PDF二进制文件,可通过指定配置参数实现。每个样本包含图像列表和对话文本列表,用户可根据需求提取图像或文本信息进行模型训练或评估。数据集的对话结构为多轮问答形式,适合用于视觉语言模型的微调与测试,尤其是在文档理解和问答任务中表现出色。
背景与挑战
背景概述
Docmatix数据集是Idefics3项目的一部分,专注于文档视觉问答(Document Visual Question Answering, DocVQA)领域。该数据集由Hugo Laurençon、Andrés Marafioti、Victor Sanh和Léo Tronchon等研究人员于2024年发布,旨在为视觉语言模型的微调提供大规模数据支持。Docmatix包含了超过244万张图像和950万对问答数据,涵盖了390亿个标记,是目前DocVQA领域中规模最大的数据集之一。其核心研究问题在于如何通过视觉和文本的结合,实现对文档内容的高效理解和问答。该数据集的发布显著推动了视觉语言模型在文档理解任务中的应用,并为相关领域的研究提供了重要的数据基础。
当前挑战
Docmatix数据集在解决文档视觉问答问题时面临多重挑战。首先,文档内容的多样性和复杂性使得模型需要具备强大的跨模态理解能力,能够同时处理图像和文本信息。其次,数据集的构建过程中,如何确保问答对的准确性和多样性是一个关键问题,尤其是在处理大规模数据时,标注的精确性和一致性难以保证。此外,文档中的视觉元素(如图表、表格)与文本信息的关联性较弱,增加了模型理解和推理的难度。最后,数据集的规模庞大,对计算资源和存储空间提出了较高要求,如何在有限资源下高效处理和分析这些数据也是一个亟待解决的挑战。
常用场景
经典使用场景
Docmatix数据集在文档视觉问答(DocVQA)领域具有广泛的应用,尤其是在处理大规模文档图像和文本交互任务时表现出色。该数据集通过提供丰富的图像和文本对,支持模型在理解文档内容的基础上进行问答任务。其经典使用场景包括文档内容解析、信息提取以及基于视觉的问答系统开发,特别适用于需要处理复杂文档结构的场景。
解决学术问题
Docmatix解决了文档视觉问答领域中的关键问题,如大规模数据集的稀缺性和模型在复杂文档结构上的泛化能力不足。通过提供超过240万张图像和950万对问答数据,该数据集显著提升了模型在文档理解、信息检索和问答生成任务中的表现。其大规模和高多样性的特点为研究者提供了宝贵的资源,推动了视觉-语言模型在文档处理领域的进一步发展。
实际应用
在实际应用中,Docmatix数据集被广泛用于开发智能文档处理系统,如自动化合同分析、财务报表解析和法律文件问答系统。其强大的数据支持使得模型能够在真实场景中高效处理复杂的文档内容,帮助企业实现文档处理的自动化和智能化。此外,该数据集还被用于教育领域,支持开发基于文档的智能学习助手,帮助学生快速获取文档中的关键信息。
数据集最近研究
最新研究方向
在视觉-语言模型领域,Docmatix数据集的最新研究方向聚焦于如何通过大规模文档视觉问答(DocVQA)任务进一步提升模型的跨模态理解能力。随着多模态人工智能技术的快速发展,Docmatix凭借其超过240万张图像和950万对问答数据的庞大规模,成为训练和评估视觉-语言模型的关键资源。当前研究热点包括零样本学习、文档结构理解以及跨模态对齐技术的优化。这些研究方向不仅推动了模型在复杂文档场景下的表现,还为金融、法律等领域的自动化文档处理提供了新的可能性。Docmatix的发布标志着文档理解技术从传统OCR向语义化、智能化方向的转变,为未来多模态大模型的发展奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作