Infinity-Doc-400K
收藏Infinity-Doc-400K 数据集概述
数据集简介
Infinity-Doc-400K 是 Infinity-Doc-55K 的扩展版本,包含 40 万张真实世界和合成扫描文档。该数据集具有丰富的布局变化和全面的结构标注,能够支持文档解析模型的鲁棒训练。数据集涵盖广泛的文档类型,包括财务报告、医疗报告、学术报告、书籍、杂志、网页和合成文档。
数据构建流程
采用真实世界和合成数据生成流程相结合的方法构建数据集。真实世界数据流程从实际领域(如财务报告、医疗记录和学术论文)收集多样化扫描文档,采用多专家策略和交叉验证生成可靠的结构元素伪真实标注。合成数据流程通过将维基百科等内容注入预定义 HTML 布局,渲染成扫描格式,直接从原始 HTML 提取精确的真实标注。
数据统计
| 文档类型 | 样本数量 | 边界框 | 数据来源 |
|---|---|---|---|
| 学术论文 | 70,057 | ✅ | 网页 |
| 书籍 | 10,526 | ✅ | 网页 |
| 财务报告 | 59,645 | ✅ | 网页 |
| 杂志 | 174,589 | ✅ | 网页 |
| 医疗报告 | 5,000 | 网页 | |
| 合成文档 | 61,965 | ✅ | CC3M + 网页 + 维基 |
| 网页 | 4,999 | 网页 | |
| 总计 | 386,781 |
数据结构
- id:图像的 MD5 哈希值,作为唯一标识符
- image:文档图像
- gt:文档内容,格式为 Markdown/HTML
- bbox:文档中元素的边界框和类别
- attributes:描述文档类型和任务类别的元数据
引用信息
@misc{wang2025infinityparserlayoutaware, title={Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing}, author={Baode Wang and Biao Wu and Weizhen Li and Meng Fang and Yanjie Liang and Zuming Huang and Haozhe Wang and Jun Huang and Ling Chen and Wei Chu and Yuan Qi}, year={2025}, eprint={2506.03197}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.03197}, }
许可证
本数据集采用 cc-by-nc-sa-4.0 许可证。




