Infinity-Doc2-5M
收藏Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/infly/Infinity-Doc2-5M
下载链接
链接失效反馈官方服务:
资源简介:
Infinity-Doc2-5M 是一个专为文档解析任务设计的大规模、高质量训练数据集,包含约500万个样本(文档页面),覆盖了广泛的文档类型,如学术论文、研究报告、财务报告、报纸、教科书、考试试卷、杂志等,并支持中文、英文及中英混合文本。数据涵盖了单栏、多栏、垂直文本等多种复杂布局格式,充分体现真实世界文档的多样性。数据集提供了从块级到页面级的多层次、丰富的标注信息,包括文档结构元素的详细块级类别(如标题、文本段落、列表、表格、图像、数学公式等)、定位信息(边界框)、内容识别结果(如文本字符串、表格的HTML表示、公式的LaTeX代码、化学SMILES、图表等)以及文档的整体阅读顺序,还为表格、文本、公式等区域提供了详细的属性标注。为增强生成式文档解析模型的多样性和泛化能力,数据集设计了多样化的提示。在质量方面,结合了人工标注与智能生成,并辅以专家质检流程以确保准确性。部分数据由原始语料合成,确保不包含敏感信息并严格遵守版权法规,适用于学术和非商业用途。数据以图像文件和对应的JSONL格式标注文件组织,每个标注样本包含图像路径、多轮对话(含任务描述和模型输出)、可选的元素定位与类别信息以及任务和子任务属性。该数据集旨在为文档布局分析、元素检测与识别、公式解析、文档理解等任务提供坚实的数据基础,加速多语言、多场景下的文档解析研究和应用开发,采用CC-BY-NC-SA 4.0许可证。
Infinity-Doc2-5M is a large-scale, high-quality training dataset specifically designed for document parsing tasks. It contains approximately 5 million samples (document pages), covering a wide range of document types, including academic papers, research reports, financial reports, newspapers, textbooks, exam papers, magazines, etc., and supports Chinese, English, and mixed Chinese-English text. The data encompasses various complex layout formats such as single-column, multi-column, and vertical text, fully reflecting the diversity of real-world documents. The dataset provides multi-level, rich annotation information from block-level to page-level, including detailed block-level categories of document structural elements (e.g., headings, text paragraphs, lists, tables, images, mathematical formulas, etc.), positioning information (bounding boxes), content recognition results for each element area (e.g., text strings, HTML representations of tables, LaTeX code for formulas, chemical SMILES, charts, etc.), and the overall reading order of documents. Additionally, it offers detailed attribute annotations for areas such as tables, text, and formulas. To enhance the diversity and generalization capabilities of generative document parsing models, the dataset incorporates diverse prompts designed for different tasks and scenarios. In terms of data quality, it combines manual annotation with intelligent generation, supplemented by expert quality inspection processes to ensure accuracy. Part of the data is synthesized from original corpora, ensuring no sensitive information is included and strictly complying with copyright regulations, making it suitable for academic and non-commercial use. The data is organized as image files and corresponding JSONL-format annotation files, with each annotated sample containing image paths, multi-turn conversations (including task descriptions and model outputs), optional element positioning and category information (objects), and task and subtask attributes. This dataset provides a solid data foundation for tasks such as document layout analysis, element detection and recognition, formula parsing, and document understanding, aiming to accelerate research and application development in multilingual, multi-scenario document parsing, and is licensed under CC-BY-NC-SA 4.0.
创建时间:
2026-05-09
原始信息汇总
数据集概述:Infinity-Doc2-5M
基本信息
- 数据集名称:Infinity-Doc2-5M
- 许可证:MIT
- 语言:英语、中文
- 数据规模:1M < n < 10M(约500万样本)
- 数据集链接:https://huggingface.co/datasets/infly/Infinity-Doc2-5M
数据集特点
Infinity-Doc2-5M 是一个专为文档解析场景设计的高质量训练数据集,具有以下核心特点:
1. 文档类型多样化
- 涵盖学术论文、研究报告、财务报表、报纸、教科书、试卷、杂志等多种文档类型
- 支持中文、英文以及中英文混合文本
- 包含单栏、多栏、竖排文字等多种复杂布局格式
2. 标注内容丰富
提供从块级到页面级的多层次标注,具体包括:
- 块级类别:标题、文本段落、表格、公式、页眉、页脚等
- 文档元素定位信息:每个元素的边界框坐标
- 元素区域识别结果:
- 文本字符串
- 表格 HTML 格式
- 公式 LaTeX 格式
- 化学式 SMILES 表示
- 图表信息
- 文档整体阅读顺序
3. 提示多样性
针对不同任务和场景设计了多样化的提示,以增强生成式文档解析模型的多样性和泛化能力。
4. 数据质量高
- 通过人工筛选、智能标注和数据合成相结合的方式生产
- 人工标注与专家质量检验确保高精度的文档图像标注数据
- 基于语料的数据合成引擎可构建文档图像和标注数据,实现100%准确率
数据集结构
目录结构
数据以压缩包形式存储,解压后结构如下:
task/ └── sub_task/ └── images/ # 图像存储目录 └── part_0001/ ├── file_x1_md5.png └── ... └── part_0002/ ├── file_y1_md5.png └── ... └── labels/ # 标注 JSONL 文件目录 └── label.jsonl
标注文件格式
label.jsonl 文件中每条数据的字段说明:
| 字段 | 类型 | 描述 |
|---|---|---|
images |
list | 图像路径列表(相对路径) |
conversations |
list | 训练对话信息,包含 from(human/gpt)和 value |
attributes |
struct | 任务属性,包含 task 和 subtask |
objects |
string(可选) | 布局定位信息,包含 ref(类别列表)和 bbox(边界框列表) |
应用场景
该数据集为以下任务提供数据基础:
- 文档布局分析
- 元素检测与识别
- 公式解析
- 文档理解
- 多语言、多场景的文档解析研究与开发
许可说明
本数据集采用 MIT 许可证。部分数据为原始语料合成,不包含敏感信息,严格遵守版权规定,适用于学术和非商业用途。
搜集汇总
数据集介绍

构建方式
Infinity-Doc2-5M 数据集专为文档解析场景设计,采用人工筛选、智能标注与数据合成相结合的方式构建。首先,通过领域专家对海量文档图像进行人工过滤与质量初筛,确保基础数据来源的纯净度。随后,利用基于语料库的数据合成引擎,从原始语料中自动生成文档图像及其对应的多层级标注信息,在保证数据多样性的同时,实现标注的完全准确率。最后,辅以专家质检流程,对生成的标注数据进行二次校验与修正,从而构建出覆盖学术论文、教材、试卷、报刊、财报等多元文档类型、支持中英双语的五百万级高质量训练样本。
特点
该数据集具备五大核心特性:一是文档类型与布局的极端多样性,覆盖单栏、多栏、竖排等复杂版式,充分模拟真实场景;二是标注体系丰富且精细,提供从块级(标题、文本、表格、公式等)到页面级的完整结构标注,包含元素边框、内容识别结果(文本、LaTeX公式、HTML表格)及阅读顺序;三是提示词设计多样化,针对不同子任务生成风格迥异的指令,增强模型对指令的鲁棒性;四是数据质量严苛,100%准确率经由人工与机器双重保障;五是合规性佳,合成数据不含敏感信息,严格遵循版权协议。
使用方法
使用时,数据集压缩包按任务与子任务分层存储,解压后获得 images 与 labels 两个目录。labels 目录下 JSONL 文件每条记录包含 images(图片路径列表)、conversations(人机对话对,human 为任务描述,gpt 为输出)、attributes(任务与子任务名称)及可选的 objects(标注定位框与类别)。用户可通过解析 JSONL 与加载对应图像组织训练数据。针对带 objects 的样本,需将 gpt 输出中的 <bbox> 与 <ref-object> 占位符与 objects 字段的对应索引元素对齐,以还原结构化标注。该数据格式天然适配多模态大模型的指令微调流程。
背景与挑战
背景概述
随着多模态大语言模型在文档智能领域的兴起,精准解析各类复杂文档成为关键瓶颈。Infinity-Doc2-5M数据集由infly团队于2024年构建,针对文档解析任务提供了大规模、高质量的监督信号。该数据集汇聚了超过500万页涵盖学术论文、教材考卷、财经报告等中英文混合样本,并设计了多层次标注体系,涵盖标题、表格、公式等结构元素的位置、内容及阅读顺序。其独创的基于语料的数据合成引擎与人工校验流程,确保了标注的绝对准确性与合规性。该数据集为布局分析、元素识别及文档理解等子任务注入了强泛化能力,推动了文档解析技术从实验室走向复杂真实场景的进程。
当前挑战
文档解析领域长期面临两大核心挑战。其一,真实文档的多样性(如多栏排版、手写与印刷体混杂、公式与图表交织)致使通用模型难以兼顾精度与召回,而现有数据集往往局限于单一类型或语言。其二,Infinity-Doc2-5M在构建中需克服大规模多模态标注的伦理与质量矛盾:一方面,通过智能合成规避版权与隐私风险,确保数据合规;另一方面,采用人工与专家质检相结合的方式,在百万级规模下平衡标注成本与准确性。此外,提示词的多样性设计需覆盖多种任务范式,以防止模型过拟合于特定指令格式,从而提升其跨场景迁移能力。
常用场景
经典使用场景
Infinity-Doc2-5M作为面向文档解析场景的大规模训练数据集,其经典使用场景聚焦于多类型、多语言文档的结构化信息提取。该数据集涵盖学术论文、研究报告、财务报表、报纸、教科书、试卷及杂志等丰富多样的文档类型,并支持中英文及中英混排文本。通过提供从块级到页面级的精细标注,包括标题、段落、表格、公式、页眉页脚等元素的边界框、内容文本(如文本字符串、表格HTML、公式LaTeX)及全局阅读顺序,研究者可基于这些标注训练模型以实现高精度的版面分析、元素检测与识别、以及文档整体语义理解。数据集中精心设计的多样化提示词进一步增强了生成式文档解析模型的泛化能力,使其能够应对真实场景中纷繁复杂的文档布局与语言风格。
解决学术问题
在学术研究领域,Infinity-Doc2-5M着力解决了文档解析中长期存在的三大核心难题:一是多语言、多版面复杂文档的统一解析,传统方法常因版面样式或语言差异而性能退化;二是细粒度元素识别与内容还原,如将表格转化为结构化HTML、公式解析为LaTeX代码,并要求模型理解嵌套的语义关系;三是文档全局阅读顺序的自动推断,此能力对于处理多栏、图文混排的文档至关重要。该数据集通过提供大规模、高质量、带有完整结构化标注的样本,为训练统一的文档解析模型奠定了坚实的数据基础。其意义在于打破了传统方法依赖多种专用工具的局限,推动了从图像到结构化文档端到端生成式模型的发展,加速了文档智能处理领域的技术演进。
衍生相关工作
Infinity-Doc2-5M的出现催生了一系列面向文档智能的经典后续工作。其发布伴随的Infinity-Parser2-Pro与Infinity-Parser2-Flash模型,直接验证了该数据集在训练高精度文档解析器方面的有效性。基于数据集中的结构化标注格式,研究者进一步探索了将文档解析与多模态大语言模型结合的新范式,如通过细粒度元素序列化构建文档级大模型输入,实现依赖文档内容的问答系统。同时,该数据集中丰富的表格、公式标注激发了专项研究,例如利用其中的表格HTML标注训练更鲁棒的表格识别模型,或藉由LaTeX公式标注提升数学表达式解析精度。此外,其完全合成的部分数据为研究可控数据生成策略提供了标杆,促使更多工作关注隐私保护与版权合规下的合成数据生成方法,从而推动文档智能领域在更广范围的安全落地。
以上内容由遇见数据集搜集并总结生成



