FD-RL训练数据集

github2025-11-27 更新2025-12-11 收录

下载链接：

https://github.com/DocTron-hub/FD-RL

下载链接

链接失效反馈

官方服务：

资源简介：

我们通过（1）开源数据集质量增强，（2）真实世界PDF构建，以及（3）合成OCR数据生成，构建了一个大规模数据集，覆盖了九种常见文档类别：笔记、财务报告、幻灯片、考试试卷、合成数据、杂志、学术论文、书籍和报纸。

We constructed a large-scale dataset through three approaches: (1) quality enhancement of open-source datasets, (2) construction of real-world PDF documents, and (3) generation of synthetic OCR data, covering nine common document categories: notes, financial reports, slides, examination papers, synthetic data, magazines, academic papers, books, and newspapers.

创建时间：

2025-11-17

原始信息汇总

FD-RL 数据集概述

数据集简介

该数据集是用于训练文档OCR模型FD-RL的大规模数据集，通过一个综合的数据构建流程生成，旨在覆盖多样化的真实世界文档场景。

数据构建流程

数据集通过以下三个步骤构建：

开源数据集质量增强：对现有开源数据集进行质量提升。
真实世界PDF构建：从真实PDF文档中构建数据。
合成OCR数据生成：生成合成的OCR数据。

数据覆盖范围

构建得到的数据集涵盖了九种常见的文档类别：

笔记
财务报告
幻灯片
考试试卷
合成数据
杂志
学术论文
书籍
报纸

数据集用途

该数据集专门用于训练FD-RL模型，该模型是一个用于文档OCR的格式解耦强化学习模型。数据集支持模型在监督微调（SFT）和强化学习（RL）两个阶段进行训练。

模型训练策略

在强化学习阶段，数据使用策略包括：

基于熵的数据过滤策略：
- 基于类型的过滤：丰富结构化数据并平衡语言。
- 基于熵的过滤：保留高熵样本。
格式解耦强化学习：针对不同内容类型使用独立的奖励函数：
- 纯文本使用字符串匹配奖励。
- 公式使用表达式正确性奖励。
- 表格使用结构连贯性奖励。

评估基准

使用OmniDocBench v1.5基准进行评估，该基准涵盖了多样化的真实世界场景（例如办公文档、学术论文、扫描材料）。评估指标包括整体解析准确率、文本编辑距离、公式CDM分数、表格TEDS分数和阅读顺序编辑距离。

搜集汇总

数据集介绍

构建方式

在文档光学字符识别领域，构建高质量的训练数据集是提升模型泛化能力的关键。FD-RL训练数据集的构建采用了多源融合策略，通过开源数据集质量增强、真实世界PDF文档构建以及合成OCR数据生成三种途径，系统性地整合了笔记、财务报告、幻灯片、试卷、杂志、学术论文、书籍和报纸等九类常见文档，确保了数据在类别和格式上的广泛覆盖。

特点

该数据集的核心特点在于其针对文档内容的结构化多样性进行了深度优化。它不仅涵盖了丰富的文档类型，还通过格式解耦强化学习策略，为纯文本、数学公式和表格等不同内容类型设计了差异化的奖励机制，从而在训练过程中有效提升了模型对复杂文档结构的解析精度和语义连贯性。

使用方法

对于研究人员和开发者而言，FD-RL数据集及其关联模型可通过Hugging Face平台便捷获取。使用流程主要包括利用Transformers库加载预训练模型，结合特定提示词对输入图像进行结构化内容提取，并支持通过vLLM框架进行高效在线服务部署，以实现端到端的文档解析任务。

背景与挑战

背景概述

文档光学字符识别（OCR）领域长期面临从复杂版式中准确提取并理解多模态内容的挑战，传统方法在处理公式、表格等结构化信息时往往力有不逮。FD-RL训练数据集应运而生，由DocTron团队于2025年构建，旨在支持格式解耦强化学习框架，以训练端到端视觉语言模型。该数据集通过整合开源数据增强、真实PDF构建与合成OCR生成三种策略，覆盖笔记、财务报告、幻灯片等九大类文档，致力于解决文档内容的结构化解析与语义保真问题，为提升模型在真实场景下的鲁棒性与准确性奠定了数据基础。

当前挑战

在文档OCR领域，核心挑战在于模型需同时应对文本、公式与表格的异构内容解析，并保持输出在格式与语义上的双重准确性。FD-RL数据集构建过程中，需克服多源数据质量参差、标注一致性难以保障，以及合成数据与真实分布对齐等困难。此外，为训练格式解耦的强化学习策略，数据集必须精心设计以平衡不同内容类型的样本分布，并确保奖励函数能够有效区分各类内容的解析质量，这对数据筛选与标注流程提出了极高的要求。

常用场景

经典使用场景

在文档智能领域，FD-RL训练数据集为端到端视觉语言模型提供了多格式文档解析的基准训练资源。该数据集通过整合开源数据增强、真实PDF构建与合成OCR生成，覆盖笔记、财务报告、幻灯片等九类常见文档，为模型学习文本、公式和表格的联合解析奠定了数据基础。其经典使用场景在于训练模型从复杂版面中准确提取结构化信息，并保持原始文档的语义连贯性与格式完整性。

实际应用

在实际应用中，FD-RL数据集支撑的模型能够高效处理学术论文、财务报表、教科书等专业文档的数字化转换。其输出可直接用于构建可检索的文献数据库、自动化财务审计流水线或教育资源的无障碍访问系统。该技术显著降低了人工录入成本，提升了大规模文档归档与知识挖掘的效率，为金融、出版、教育等行业提供了可靠的智能化解决方案。

衍生相关工作

基于FD-RL数据集的训练范式，衍生出一系列专注于文档结构理解的创新工作。例如，采用熵基数据过滤策略的增强型预训练方法，以及结合格式解耦强化学习的多任务优化框架。这些工作进一步拓展了文档OCR在低资源语言适配、历史档案修复等场景的应用边界，推动了如OmniDocBench等综合性评测基准的演进与完善。

以上内容由遇见数据集搜集并总结生成