infly/Infinity-Doc-55K

Name: infly/Infinity-Doc-55K
Creator: infly
Published: 2025-11-03 07:24:16
License: 暂无描述

Hugging Face2025-11-03 更新2025-05-31 收录

下载链接：

https://hf-mirror.com/datasets/infly/Infinity-Doc-55K

下载链接

链接失效反馈

官方服务：

资源简介：

Infinity-Doc-55K是一个包含55,066个真实世界和合成扫描文档的高质量多样化全文解析数据集。该数据集具有丰富的布局变化和全面的结构注释，适用于文档解析模型的训练。它包括财务报告、医疗报告、学术论文、书籍、杂志、网页和合成文档等多种类型的文档。

Infinity-Doc-55K is a high-quality diverse full-text parsing dataset, comprising 55,066 real-world and synthetic scanned documents. The dataset features rich layout variations and comprehensive structural annotations, enabling robust training of document parsing models. It includes various document types such as financial reports, medical reports, academic papers, books, magazines, web pages, and synthetic documents.

提供机构：

infly

搜集汇总

数据集介绍

构建方式

在文档解析领域，构建高质量数据集是推动模型泛化能力的关键。Infinity-Doc-55K通过融合真实世界与合成数据生成流程，构建了包含55K份扫描文档的多样化语料库。其实世界数据管道从金融报告、医疗记录及学术论文等实际领域收集扫描文档，采用多专家交叉验证策略生成文本、表格与公式等结构元素的伪真实标注。合成数据管道则通过将维基百科等内容注入预定义HTML布局，渲染为扫描格式，并从原始HTML直接提取精确的真实标注。这种双轨制方法确保了数据集的丰富性、多样性及标注的准确对齐，有效克服了传统数据集中标注不精确或不一致的问题。

使用方法

在应用层面，该数据集适用于训练与评估文档解析模型，特别是针对扫描文档的结构化理解任务。用户可通过其唯一MD5哈希标识符访问图像与对应的真实标注内容，标注以Markdown或HTML格式提供，便于直接用于模型训练。数据集的元数据属性字段允许根据文档类型或任务类别进行灵活筛选，支持特定领域的研究与应用。开发者可结合提供的代码库与演示工具，将数据集集成至现有管道，用于布局感知的强化学习或其他解析框架，以提升模型在复杂真实场景中的性能表现。

背景与挑战

背景概述

在文档智能领域，扫描文档的解析技术长期面临布局多样性与结构复杂性带来的识别瓶颈。Infinity-Doc-55K数据集由inFly团队于2025年构建，旨在为文档解析模型提供高质量、多样化的训练资源。该数据集汇集了5.5万份真实与合成扫描文档，涵盖财务报告、医疗记录、学术论文及网页等多种类型，其核心研究问题在于通过精准的结构化标注，推动布局感知的端到端文档解析模型发展，对提升文档理解与信息提取的鲁棒性具有显著影响力。

当前挑战

该数据集致力于解决扫描文档解析中的领域挑战，包括复杂布局下文本、表格及公式等元素的精确分割与识别，以及跨文档类型的泛化能力不足问题。在构建过程中，团队需克服真实数据标注成本高昂与一致性差的困难，通过多专家交叉验证生成伪真实标注；同时，合成数据管道需在保持布局多样性的前提下，确保程序化生成的文档与真实场景的语义对齐，以规避标注不精确或失准的常见缺陷。

常用场景

经典使用场景

在文档智能领域，Infinity-Doc-55K数据集为扫描文档解析任务提供了关键支撑。该数据集汇集了金融报告、医疗记录、学术论文等多样化的真实与合成文档，其丰富的布局变化和全面的结构标注，使得研究人员能够训练出具有强大泛化能力的文档解析模型。经典使用场景包括训练端到端的文档理解系统，这些系统能够准确识别文本、表格、公式等结构元素，并将其转换为结构化的Markdown或HTML格式，从而为后续的信息提取与分析奠定坚实基础。

解决学术问题

该数据集有效应对了文档解析研究中长期存在的若干挑战。传统数据集常因标注不精确或不一致而制约模型性能，Infinity-Doc-55K通过融合真实数据与合成数据的双重构建管道，提供了高质量且对齐精准的监督信号。它主要解决了模型在复杂、多样化真实世界文档上的泛化能力不足问题，为布局感知的文档解析、跨文档类型的统一理解等前沿学术方向提供了可靠的基准数据，推动了文档智能领域向更鲁棒、更通用的方向发展。

实际应用

在实际应用层面，基于Infinity-Doc-55K训练的模型展现出广泛的部署潜力。在金融行业，可自动解析年报和审计报告，快速提取关键财务指标；在医疗领域，能高效处理病历和检验报告，辅助临床决策与信息管理；在出版与档案数字化进程中，可批量转换历史书籍、杂志为可检索、可编辑的电子格式。这些应用显著提升了海量非结构化文档的处理效率与自动化水平，为各行各业的知识管理与信息利用带来了实质性变革。

数据集最近研究