Docmatix

Name: Docmatix
Creator: HuggingFaceM4
Published: 2024-07-18 20:31:33
License: 暂无描述

Hugging Face2024-07-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceM4/Docmatix

下载链接

链接失效反馈

官方服务：

资源简介：

Docmatix是一个大规模的文档视觉问答（DocVQA）数据集，属于Idefics3发布的一部分。该数据集包含2,444,750张图像和9,500,000个问答对，用于微调视觉-语言模型Idefics3。数据集的特征包括图像和文本，其中文本部分包含用户和助手的对话。

Docmatix is a large-scale document visual question answering (DocVQA) dataset that forms part of the Idefics3 release. This dataset contains 2,444,750 images and 9,500,000 question-answer pairs, and is used for fine-tuning the vision-language model Idefics3. The dataset features images and text, where the text portion includes conversations between users and assistants.

提供机构：

HuggingFaceM4

创建时间：

2024-07-17

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
大小类别: 1M<n<10M
任务类别: 视觉问答
名称: Docmatix
标签: docvqa

配置

配置名称: images
- 数据文件:
  - 分割: train
  - 路径: data/train-*
- 特征:
  - 名称: images
    - 序列: image
  - 名称: texts
    - 列表:
      - 名称: user
        
        数据类型: string
      - 名称: assistant
        
        数据类型: string
      - 名称: source
        
        数据类型: string
- 分割:
  - 名称: train
    - 字节数: 552957537722.77
    - 样本数: 1273215
- 下载大小: 159404414330
- 数据集大小: 552957537722.77
配置名称: pdf
- 数据文件:
  - 分割: train
  - 路径: pdf/train-*
- 特征:
  - 名称: pdf
    - 数据类型: binary
  - 名称: texts
    - 列表:
      - 名称: user
        
        数据类型: string
      - 名称: assistant
        
        数据类型: string
      - 名称: source
        
        数据类型: string
- 分割:
  - 名称: train
    - 字节数: 44487829694
    - 样本数: 124982
- 下载大小: 0
- 数据集大小: 44487829694

数据字段示例

json { "images": [PIL.Image], "texts": [ { "user": "What is the purpose of the Confirmation Statement mentioned in the document?", "assistant": "The purpose of the Confirmation Statement is to confirm that all information required to be delivered by the company to the registrar in relation to the confirmation period concerned has been delivered or is being delivered at the same time as the confirmation statement.", "source": "PDFA key: 244" }, { "user": "When was the filing received as per the document?", "assistant": "The filing was received for filing in Electronic Format on the 23/03/2021.", "source": "PDFA key: 244" } ] }

与其他DocVQA数据集的比较

数据集	图片数量	Q/A对数量	令牌数量
Docmatix	2,444,750	9,500,000	390,000,000
DocVQA	10,189	39,463	337,829
TextCaps	21,953	21,953	389,658
TextVQA	21,953	34,602	181,918
ST-VQA	17,247	23,121	127,846
OCR-VQA	165,746	801,579	6,073,824
VisualMRC	3,027	11,988	168,828
IAM	5,663	5,663	144,216
InfoVQA	2,118	10,074	61,048
Diagram image-to-text	300	300	22,196

搜集汇总

数据集介绍

构建方式

Docmatix数据集的构建依托于Idefics3模型的微调需求，专注于文档视觉问答（Document Visual Question Answering, DocVQA）任务。该数据集通过从大量文档中提取图像和文本信息，构建了包含数百万个问答对的丰富语料库。数据来源多样，涵盖了PDF文档及其对应的图像，确保了数据的广泛性和代表性。每个样本包含最多四张图像以及与之相关的用户与助手之间的对话文本，对话内容围绕图像中的信息展开，形成了多模态的问答结构。

使用方法

使用Docmatix数据集时，首先需安装`datasets`库，并通过`load_dataset`函数加载数据。默认情况下，数据集以图像形式加载，若需加载PDF二进制文件，可通过指定配置参数实现。每个样本包含图像列表和对话文本列表，用户可根据需求提取图像或文本信息进行模型训练或评估。数据集的对话结构为多轮问答形式，适合用于视觉语言模型的微调与测试，尤其是在文档理解和问答任务中表现出色。

背景与挑战

背景概述

Docmatix数据集是Idefics3项目的一部分，专注于文档视觉问答（Document Visual Question Answering, DocVQA）领域。该数据集由Hugo Laurençon、Andrés Marafioti、Victor Sanh和Léo Tronchon等研究人员于2024年发布，旨在为视觉语言模型的微调提供大规模数据支持。Docmatix包含了超过244万张图像和950万对问答数据，涵盖了390亿个标记，是目前DocVQA领域中规模最大的数据集之一。其核心研究问题在于如何通过视觉和文本的结合，实现对文档内容的高效理解和问答。该数据集的发布显著推动了视觉语言模型在文档理解任务中的应用，并为相关领域的研究提供了重要的数据基础。

当前挑战

Docmatix数据集在解决文档视觉问答问题时面临多重挑战。首先，文档内容的多样性和复杂性使得模型需要具备强大的跨模态理解能力，能够同时处理图像和文本信息。其次，数据集的构建过程中，如何确保问答对的准确性和多样性是一个关键问题，尤其是在处理大规模数据时，标注的精确性和一致性难以保证。此外，文档中的视觉元素（如图表、表格）与文本信息的关联性较弱，增加了模型理解和推理的难度。最后，数据集的规模庞大，对计算资源和存储空间提出了较高要求，如何在有限资源下高效处理和分析这些数据也是一个亟待解决的挑战。

常用场景

经典使用场景

Docmatix数据集在文档视觉问答（DocVQA）领域具有广泛的应用，尤其是在处理大规模文档图像和文本交互任务时表现出色。该数据集通过提供丰富的图像和文本对，支持模型在理解文档内容的基础上进行问答任务。其经典使用场景包括文档内容解析、信息提取以及基于视觉的问答系统开发，特别适用于需要处理复杂文档结构的场景。

解决学术问题

Docmatix解决了文档视觉问答领域中的关键问题，如大规模数据集的稀缺性和模型在复杂文档结构上的泛化能力不足。通过提供超过240万张图像和950万对问答数据，该数据集显著提升了模型在文档理解、信息检索和问答生成任务中的表现。其大规模和高多样性的特点为研究者提供了宝贵的资源，推动了视觉-语言模型在文档处理领域的进一步发展。

实际应用

在实际应用中，Docmatix数据集被广泛用于开发智能文档处理系统，如自动化合同分析、财务报表解析和法律文件问答系统。其强大的数据支持使得模型能够在真实场景中高效处理复杂的文档内容，帮助企业实现文档处理的自动化和智能化。此外，该数据集还被用于教育领域，支持开发基于文档的智能学习助手，帮助学生快速获取文档中的关键信息。

数据集最近研究