Infinity-Doc-400K

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/infly/Infinity-Doc-400K

下载链接

链接失效反馈

官方服务：

资源简介：

Infinity-Doc-400K是一个扩展自Infinity-Doc-55K的数据集，包含400K个真实世界和合成的扫描文档，具有丰富的布局变化和全面的结构化注释，适用于文档解析模型的训练。该数据集涵盖了财务报告、医疗报告、学术论文、书籍、杂志、网页和合成文档等多种类型的文档。

Infinity-Doc-400K is a dataset extended from Infinity-Doc-55K. It contains 400K real-world and synthetic scanned documents with rich layout variations and comprehensive structured annotations, making it suitable for training document parsing models. This dataset covers a wide range of document types including financial reports, medical reports, academic papers, books, magazines, webpages, and synthetic documents.

创建时间：

2025-10-27

原始信息汇总

Infinity-Doc-400K 数据集概述

数据集简介

Infinity-Doc-400K 是 Infinity-Doc-55K 的扩展版本，包含 40 万张真实世界和合成扫描文档。该数据集具有丰富的布局变化和全面的结构标注，能够支持文档解析模型的鲁棒训练。数据集涵盖广泛的文档类型，包括财务报告、医疗报告、学术报告、书籍、杂志、网页和合成文档。

数据构建流程

采用真实世界和合成数据生成流程相结合的方法构建数据集。真实世界数据流程从实际领域（如财务报告、医疗记录和学术论文）收集多样化扫描文档，采用多专家策略和交叉验证生成可靠的结构元素伪真实标注。合成数据流程通过将维基百科等内容注入预定义 HTML 布局，渲染成扫描格式，直接从原始 HTML 提取精确的真实标注。

数据统计

文档类型	样本数量	边界框	数据来源
学术论文	70,057	✅	网页
书籍	10,526	✅	网页
财务报告	59,645	✅	网页
杂志	174,589	✅	网页
医疗报告	5,000		网页
合成文档	61,965	✅	CC3M + 网页 + 维基
网页	4,999		网页
总计	386,781

数据结构

id：图像的 MD5 哈希值，作为唯一标识符
image：文档图像
gt：文档内容，格式为 Markdown/HTML
bbox：文档中元素的边界框和类别
attributes：描述文档类型和任务类别的元数据

引用信息

@misc{wang2025infinityparserlayoutaware, title={Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing}, author={Baode Wang and Biao Wu and Weizhen Li and Meng Fang and Yanjie Liang and Zuming Huang and Haozhe Wang and Jun Huang and Ling Chen and Wei Chu and Yuan Qi}, year={2025}, eprint={2506.03197}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.03197}, }

许可证

本数据集采用 cc-by-nc-sa-4.0 许可证。

搜集汇总

数据集介绍

构建方式

在文档解析领域，构建高质量数据集需兼顾真实性与多样性。Infinity-Doc-400K通过融合真实世界与合成数据两条构建路径实现这一目标：真实数据从金融报告、医疗记录等实际场景中收集扫描文档，采用多专家交叉验证策略生成文本、表格等结构元素的伪真实标注；合成数据则通过将维基百科等内容注入预设HTML模板并渲染为扫描格式，直接从原始代码提取精确标注。这种双轨制构建方法在保证标注准确对齐的同时，有效解决了传统数据集中标注不一致的普遍问题。

特点

作为文档解析任务的重要资源，该数据集展现出多重显著特征。其囊括38万余份样本，覆盖学术论文、财务报告、医学文档等七种专业类型，且多数样本配备完整的边界框标注。数据集中既包含真实扫描文档的复杂版式变化，又融入程序化生成的合成文档，形成了丰富的布局多样性。每份样本均提供图像内容、结构化标注及元数据的三位一体信息，为模型理解文档空间结构与语义关联提供了全面支撑。

使用方法

针对文档解析模型的训练需求，该数据集提供了标准化的使用范式。研究者可通过唯一MD5标识符索引文档图像，配合边界框坐标与元素类别信息进行目标检测任务训练。同时，标注的Markdown/HTML格式内容支持端到端文档结构解析，而属性字段中的文档类型标签则便于开展领域适应性研究。数据集的统一结构设计使得其既能服务于布局分析等基础任务，也可支撑多模态文档理解的复杂应用场景。

背景与挑战

背景概述

文档智能领域长期致力于解决复杂版式文档的结构化解析难题，Infinity-Doc-400K数据集由Infly AI团队于2025年发布，作为Infinity-Doc-55K的扩展版本，其核心目标在于突破扫描文档多模态理解的瓶颈。该数据集整合了金融报告、医学记录、学术论文等七类真实文档与程序化生成的合成数据，通过双管道构建策略提供精确的版面元素标注，为端到端文档解析模型的训练奠定了坚实基础，显著推动了文档布局分析与内容提取技术的前沿发展。

当前挑战

扫描文档解析面临版面元素异构性挑战，如表格与公式的跨模态对齐、文字区域重叠等复杂场景，传统方法难以保证标注一致性。数据集构建过程中需平衡真实数据采集的噪声干扰与合成数据的分布偏差，通过多专家交叉验证生成伪真实标注，并采用HTML注入技术保障合成文档的结构完整性，最终克服了标注不精确与数据多样性不足的双重困境。

常用场景

经典使用场景

在文档智能研究领域，Infinity-Doc-400K数据集凭借其丰富的布局变化和结构注释，成为训练文档解析模型的理想资源。该数据集广泛应用于端到端文档理解任务，特别是针对扫描文档中文本、表格和公式等元素的自动识别与结构重建。通过融合真实世界文档与合成数据，它为模型提供了多样化的训练样本，有效提升了在复杂版面下的解析鲁棒性。

衍生相关工作

基于该数据集衍生的经典工作包括Infinity Parser系列模型，其提出的布局感知强化学习框架开创了扫描文档解析的新范式。相关研究不仅推动了多模态文档理解技术的发展，还催生了面向特定领域（如金融文档、医学报告）的专用解析工具，为后续研究提供了重要的方法论参考和基准体系。

数据集最近研究