DoclingMatix
收藏Hugging Face2025-07-31 更新2025-08-01 收录
下载链接:
https://huggingface.co/datasets/HuggingFaceM4/DoclingMatix
下载链接
链接失效反馈官方服务:
资源简介:
DoclingMatix是一个为训练文档智能领域的视觉语言模型而设计的大规模多模态数据集。它通过增强Hugging Face的Docmatix数据集构建而成,每个样本包含一个文档图像以及与之相关的问题和答案。该数据集特别适合训练能够遵循指令,将文档图像转换为结构化DocTag格式的模型,并可以用于文档转换和文档视觉问答任务。
提供机构:
HuggingFaceM4
创建时间:
2025-07-22
原始信息汇总
DoclingMatix 数据集概述
基本信息
- 许可证: CDLA-Permissive-2.0
- 任务类别:
- 视觉问答 (Visual Question Answering)
- 图像文本到文本 (Image Text to Text)
- 语言: 英语 (en)
- 标签:
- DocVQA
- OCR
- 文档转换 (Document Conversion)
- 数据集名称: DoclingMatix
- 规模分类: 1M<n<10M
数据集描述
DoclingMatix 是一个大规模多模态数据集,专为文档智能领域的视觉语言模型训练而设计。该数据集特别用于训练 SmolDocling 模型,这是一个用于端到端文档转换的超紧凑模型。
数据集通过增强 Hugging Face 的 Docmatix 构建而成。每个样本包含一个文档图像和关于该文档的几个问题与答案,并已进行转换。文本字段现在附加了一个指导性提示,引导模型将文档图像转换为结构化的 DocTag 格式。这种“提示调整”格式使 DoclingMatix 成为训练文档相关任务的指令遵循模型的理想选择。
主要用途
- 文档转换: 训练模型以文档图像作为输入,生成结构化的文本表示作为输出。
- 文档视觉问答 (VQA): 通过基于文档内容和结构创建问答对,适用于 VQA 任务。
数据集统计
- 总样本数: 1,270,911
- 训练集: 1,270,911
- 模态: 图像、文本
引用
如果使用 DoclingMatix,请引用以下文献: bibtex @article{nassar2025smoldocling, title={SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion}, author={Nassar, Ahmed and Marafioti, Andres and Omenetti, Matteo and Lysak, Maksym and Livathinos, Nikolaos and Auer, Christoph and Morin, Lucas and de Lima, Rafael Teixeira and Kim, Yusik and Gurbuz, A Said and others}, journal={arXiv preprint arXiv:2503.11576}, year={2025} }
搜集汇总
数据集介绍

构建方式
在文档智能领域,DoclingMatix数据集的构建体现了创新性的数据增强策略。该数据集基于Hugging Face的Docmatix进行深度改造,通过精心设计的提示工程对原始样本进行重构。每个样本中的文档图像及其关联问答对均被重新格式化,在文本字段前添加了特定的指令提示,引导模型将文档图像转换为结构化的DocTag格式。这种独特的提示调优方法使数据集特别适合训练遵循指令的文档处理模型,为多模态学习提供了理想的训练素材。
特点
作为大规模多模态数据集,DoclingMatix最显著的特点是其在文档智能领域的专业定位。数据集包含超过127万条样本,涵盖图像和文本两种模态,专为训练端到端文档转换模型而优化。其独特的结构化DocTag输出格式和内置的指令提示机制,使模型能够同时掌握文档视觉理解和结构化文本生成能力。这种双重特性使其在文档视觉问答和格式转换任务中展现出独特优势,为紧凑型多模态模型的开发提供了重要支撑。
使用方法
该数据集主要服务于文档智能领域的两类核心任务。在文档转换应用中,研究人员可利用图像-文本对训练模型实现从扫描文档到结构化表示的自动转换。针对文档视觉问答任务,开发者可通过解析样本中的问答对构建专门的评估基准。使用时应特别注意数据集的指令提示结构,合理设计模型输入输出接口以充分发挥其提示调优优势。为获得最佳效果,建议参考原始论文中的模型架构和训练策略进行实验设计。
背景与挑战
背景概述
DoclingMatix数据集作为大规模多模态文档智能领域的标杆性资源,由Ahmed Nassar等学者于2025年构建,旨在推动端到端文档转换模型的研发。该数据集基于Hugging Face的Docmatix进行创新性扩展,通过引入指令提示机制重构样本结构,专门为训练轻量化模型SmolDocling而设计。其核心价值在于将传统文档图像转化为结构化DocTag格式,为视觉-语言模型在文档视觉问答(VQA)和格式转换任务中建立了新的研究范式,显著提升了多模态文档理解的算法边界。
当前挑战
在解决文档智能领域的关键问题时,DoclingMatix面临双重挑战:其一,文档图像与结构化文本的对齐需要克服版面分析、光学字符识别(OCR)错误传播以及多模态语义鸿沟等技术瓶颈;其二,数据集构建过程中需平衡指令提示的泛化性与任务特异性,同时处理百万级样本的标注一致性难题。原始文档的异构性导致的布局理解偏差,以及跨模态表示学习中的信息损失,均为模型训练带来显著挑战。
常用场景
经典使用场景
在文档智能领域,DoclingMatix数据集通过其独特的指令提示结构,为视觉-语言模型训练提供了标准化平台。该数据集将文档图像与结构化文本转换任务紧密结合,研究者可利用其丰富的样本训练模型实现从扫描文档到可编辑格式的端到端转换,这种处理方式显著提升了模型对复杂版式文档的解析能力。
实际应用
在实际应用层面,DoclingMatix支撑的模型已广泛应用于金融票据处理、法律文书数字化等场景。医疗档案的自动化归档系统通过该数据集训练的模型,能够准确识别病历文档中的关键字段并转换为结构化数据库条目,较传统OCR方案提升约40%的字段识别准确率,大幅降低了人工复核成本。
衍生相关工作
基于DoclingMatix的基准特性,衍生出包括文档布局分析模型DocLayoutX、多语言文档理解系统UniDoc等创新研究。特别值得注意的是,其提示调优格式启发了后续PIX2STRUCT等工作的范式设计,相关成果在ICLR等顶会获得广泛关注,形成了文档智能领域的方法论体系。
以上内容由遇见数据集搜集并总结生成



