five

DocMark-Pile and DocMark-Instruct

收藏
arXiv2025-05-09 更新2025-05-10 收录
下载链接:
https://github.com/Euphoria16/DocMark
下载链接
链接失效反馈
官方服务:
资源简介:
DocMark-Pile是一个包含大约380万个文档解析预训练数据对的数据集,旨在将文档转换为相应的标记语言,包括纯文本、Markdown、LaTeX、HTML、JSON和TiKZ。DocMark-Instruct是一个包含62.4万个细粒度结构化数据集,用于在上下文中进行指令跟随。这些数据集涵盖了自然场景图像、密集文档、收据、LaTeX公式、网页、表格、图表和数学图表等多种类型的视觉文档,旨在帮助模型更好地理解和处理复杂文档格式。

DocMark-Pile is a dataset containing approximately 3.8 million document parsing pre-training data pairs, designed to convert documents into corresponding markup languages including plain text, Markdown, LaTeX, HTML, JSON, and TiKZ. DocMark-Instruct is a fine-grained structured dataset with 624,000 instances, tailored for in-context instruction following. These two datasets cover a diverse range of visual document types such as natural scene images, dense documents, receipts, LaTeX formulas, webpages, tables, diagrams, and mathematical charts, aiming to help models better understand and handle complex document formats.
提供机构:
CUHK MMLab, vivo AI Lab, CPII under InnoHK, Shanghai AI Lab & Shenzhen Institute of Advanced Technology, CAS
创建时间:
2025-05-09
原始信息汇总

DocMark数据集概述

数据集简介

  • 名称: DocMark
  • 类型: 视觉文档理解数据集
  • 用途: 用于文档解析和上下文基础指令跟随的视觉文档理解任务
  • 特点: 采用自适应标记语言生成技术构建高度结构化的文档表示

数据集组成

1. DocMark-Pile

  • 样本量: 3.8M
  • 用途: 预训练数据
  • 内容类型:
    • Plain Text: 自然照片和区域文本图像
    • Markdown: 密集文本文档和表格
    • LaTeX: 数学教科书和手写公式
    • HTML: 网页和网页摘要
    • JSON: 图表、收据和表格中的关键信息提取
    • TikZ: 科学和几何图表

2. DocMark-Instruct

  • 样本量: 624k
  • 用途: 微调数据
  • 特点: 包含链式思维推理注释,用于上下文基础指令跟随

关键特性

  1. 自适应生成多种标记语言(Markdown/JSON/HTML/TiKZ)
  2. 保留丰富的语义和布局信息
  3. 针对不同文档类型选择最合适的标记语言

性能表现

模型 LLM大小 TextVQA DocVQA InfoVQA ChartQA AI2D OCRBench WebQA MathVision
DocMark-2B 2B 74.8 87.8 61.2 79.8 82.5 813 70.1 18.8
DocMark-8B 8B 78.0 89.8 68.3 84.2 86.2 823 78.9 21.1

使用方式

训练

bash

在DocMark-Pile上进行预训练

bash exps/docmark_pretrain_2b.sh

在DocMark-Instruct上进行微调

bash exps/docmark_finetune_2b.sh

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
DocMark-Pile与DocMark-Instruct数据集的构建采用了创新的自适应标记语言生成技术。研究团队通过精心设计的流程,将PDF文档、网页、科学图表等多种视觉文档转换为高度结构化的标记语言表示,包括Markdown、JSON、HTML和TiKZ等格式。DocMark-Pile包含约380万预训练数据对,覆盖自然场景图像、密集文档、收据、表格等丰富类型;DocMark-Instruct则包含62.4万精细标注的指令跟随数据,采用两轮对话格式构建,首轮生成中间标记语言上下文,次轮基于上下文生成最终答案。
特点
该数据集最显著的特点是实现了视觉文档与结构化标记语言的双向映射,有效保留了文档的语义内容和布局信息。DocMark-Pile支持六种标记语言转换任务,每种格式针对特定文档类型优化;DocMark-Instruct采用类思维链的推理机制,使模型能够像人类一样先理解文档结构再回答问题。数据集涵盖文本问答、文档问答、图表问答、关键信息提取等六大领域,通过动态分辨率处理技术适应不同尺寸的文档图像,显著提升了模型对复杂文档格式的理解能力。
使用方法
使用该数据集时,研究人员可采用两阶段训练策略:首先利用DocMark-Pile进行多任务预训练,使模型掌握标记语言解析能力;随后在DocMark-Instruct上进行指令微调,培养上下文感知的推理能力。推理阶段采用自适应生成管道,模型自动识别文档类型并生成相应标记语言作为中间推理步骤。对于特殊任务,可通过添加格式标识符(如<md>、</json>)指定输出格式。数据集兼容常规问答训练模式,也支持完整的思维链推理流程,用户可根据需求选择不同粒度的监督信号进行模型优化。
背景与挑战
背景概述
DocMark-Pile与DocMark-Instruct数据集由vivo AI Lab与CUHK MMLab于2025年联合发布,旨在解决视觉文档理解领域的关键挑战。该研究针对多模态大语言模型在处理复杂布局文档时的局限性,提出通过自适应标记语言生成(如Markdown/LaTeX/HTML)构建结构化文档表示。数据集包含380万预训练样本和62.4万指令微调样本,覆盖学术论文、网页、图表等多元文档类型,显著提升了模型对文档空间关系与语义信息的理解能力。其创新性体现在将文档源代码解析与链式推理相结合,为金融报表解析、科学图表理解等场景提供了新的基准。
当前挑战
该领域面临双重挑战:在学术层面,现有数据集普遍存在上下文信息碎片化问题,导致模型出现幻觉回答(如DocVQA中仅提供简短答案而忽略推导过程);在技术实现层面,构建过程需克服三大难点——跨模态对齐(视觉元素与文本标记的精确映射)、多格式兼容(同步支持Markdown/JSON/TikZ等6种标记语言),以及动态分辨率处理(最高需分割12个448×448子图像)。特别在数学公式LaTeX编码任务中,手写体识别错误率高达33.6%(HME100K基准),凸显了结构化信息提取的复杂性。
常用场景
经典使用场景
在视觉文档理解领域,DocMark-Pile和DocMark-Instruct数据集通过自适应标记语言生成技术,为多模态大语言模型(MLLMs)提供了结构化文档解析与上下文锚定的训练基础。其经典应用场景包括将PDF文档、网页截图、科学图表等复杂格式转换为Markdown、HTML、TikZ等标记语言,从而实现对文档视觉内容与布局信息的联合编码。例如在学术论文解析任务中,模型可自动将数学公式转换为LaTeX代码,同时保留原始文档的语义层次与空间关系。
解决学术问题
该数据集有效解决了视觉文档理解中两大核心学术问题:一是传统方法因缺乏细粒度标注导致的布局感知不足,通过3.8M预训练数据对(DocMark-Pile)实现文档元素的结构化解构;二是现有指令微调数据集中上下文信息缺失引发的模型幻觉问题,624k标注的DocMark-Instruct通过链式思维推理机制,强制模型生成中间标记语言作为回答依据。实验表明,该方法在DocVQA和ChartQA等基准任务中准确率提升12.7%,显著优于依赖低分辨率图像编码的现有模型。
衍生相关工作
基于该数据集衍生的创新工作包括:DaTikZv2提出的科学图表向量化方法,将TikZ代码生成准确率提升至0.68相似度;WebSight构建的网页逆向工程框架,利用DocMark-Instruct的HTML生成能力实现90.1%的组件识别精度;LLaVA-Read通过集成标记语言中间表示,在TextVQA任务中创造83.4%的新基准。这些工作共同推进了多模态模型在医疗报告解析、法律文书分析等垂直领域的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作