FinePDFs
收藏github2025-10-21 更新2025-10-22 收录
下载链接:
https://github.com/huggingface/finepdfs
下载链接
链接失效反馈官方服务:
资源简介:
FinePDFs数据集是一个大规模PDF文本数据集,包含过滤、提取、OCR、后处理、去重、分类和打包PDF文本数据的端到端处理流程。
The FinePDFs Dataset is a large-scale PDF text dataset that encompasses an end-to-end processing workflow for PDF text data, including filtering, extraction, OCR, post-processing, deduplication, classification and packaging.
创建时间:
2025-10-17
原始信息汇总
FinePDFs数据集概述
数据集基本信息
- 数据集名称:FinePDFs
- 数据集卡片地址:https://huggingface.co/datasets/HuggingFaceFW/finepdfs
- 许可证:ODC-By 1.0(同时受CommonCrawl条款约束)
- 发布年份:2025年
数据集处理流程
核心处理步骤
- PDF文本数据过滤
- 内容提取
- 光学字符识别(OCR)
- 后处理
- 去重
- 分类
- 打包
技术组件
- 文本提取:使用Docling进行嵌入式文本提取
- OCR路由分类器:基于XGBoost的OCR与非OCR文档分类
- 语言过滤:使用google/gemma-3-27b-it进行语言分类
- 质量分类器:基于ModernBERT的多头分类器(英语)和BERT-based分类器(非英语语言)
数据集特点
语言支持
- 支持多种语言处理(如eng_Latn)
- 语言过滤阈值优化F-β分数(β=0.1),优先保证精确度
质量保证
- 使用Qwen3-235B-A22B-Instruct-2507进行数据标注
- 提供教育内容分类器(edu classifier)
- 实施精确去重和最小哈希去重
相关资源
训练数据集
- OCR标注数据集:HuggingFaceFW/ocr-annotations
- 语言分类数据集:HuggingFaceFW/finepdfs_lang_classification
- 教育标注数据集:HuggingFaceFW/finepdfs_fw_edu_labeled
预训练模型
- 教育分类器:HuggingFaceFW/finepdfs_edu_classifier_{language}
- DCLM分类器:HuggingFaceFW/finepdfs_dclm_classifier_eng_Latn
- OCR质量分类器:HuggingFaceFW/finepdfs_ocr_quality_classifier_eng_Latn
技术限制
- Docling仅提取嵌入式文本,图像内容可能丢失
- 表格和公式可能错位,段落顺序可能存在问题
- OCR可能产生幻觉文本或遗漏文本,特别是在低资源语言中
- 页面级故障可能发生
- 可能保留有害内容
引用格式
bibtex @misc{kydlicek2025finepdfs, title = {FinePDFs}, author = {Hynek Kydl{\i}{\v{c}}ek and Guilherme Penedo and Leandro von Werra}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceFW/finepdfs}} }
搜集汇总
数据集介绍

构建方式
在数字文档处理领域,FinePDFs数据集通过多阶段流程构建而成。该流程从CommonCrawl中筛选PDF文档,运用Docling工具提取嵌入式文本,并对扫描文档实施OCR处理以增强可读性。随后采用去重技术消除冗余内容,并利用Gemma-3-27B模型进行语言分类,结合XGBoost分类器实现OCR需求预测。最终通过教育质量分类器对文本进行精细化过滤,确保数据内容的学术价值与结构完整性。
特点
该数据集融合嵌入式文本与OCR处理结果,覆盖多语言场景并包含高质量教育类文献。其特色在于采用量化布局模型优化存储效率,通过多头部分类器实现并行质量评估。数据标注过程融合教师模型蒸馏技术,在保持精度的同时显著提升处理速度。文档结构保留原始版面特征,为语言模型训练提供兼具多样性与准确性的语料资源。
使用方法
用户可通过运行标准化管道脚本启动端到端处理流程,指定语种参数即可完成数据提取与分类。数据集支持直接加载至HuggingFace平台,配套提供质量分类模型与语言过滤阈值配置。研究者可调用预训练分类器进行内容筛选,或基于开放量化代码优化布局分析模块。注意事项包括需配置GPU环境以支持vLLM推理,且需遵循CommonCrawl使用条款与ODC-By开源协议。
背景与挑战
背景概述
FinePDFs数据集由Hugging Face研究团队于2025年发布,聚焦于大规模PDF文档的智能处理与分析。该数据集旨在解决数字文档中文本提取与内容理解的复杂性,通过集成多模态技术实现嵌入式文本解析、光学字符识别和语义分类。其核心研究问题在于突破传统PDF处理工具的局限性,为自然语言处理领域提供高质量、多语言的文档语料库,显著推动了文档智能与知识挖掘的技术边界。
当前挑战
在领域问题层面,FinePDFs需应对PDF文档的异构性挑战,包括扫描文档的字符识别误差、多语言文本的语义一致性以及复杂版式下的内容结构还原。构建过程中,研究团队面临嵌入式文本提取的完整性缺失、OCR技术对低资源语言的适应性不足,以及基于机器学习的内容过滤可能引入的系统性偏差。此外,文档去重与质量评估的平衡亦成为关键难点,需在保证数据纯净度的同时避免过度筛选导致的信息损失。
常用场景
经典使用场景
在数字文档处理领域,FinePDFs数据集通过集成文本提取、光学字符识别与智能分类技术,为大规模PDF文档的语义解析提供了标准化流程。其核心价值体现在对混合格式文档的自动化处理能力,既能解析原生文本型PDF,又能通过OCR技术处理扫描文档,有效解决了传统方法在跨格式文档处理中的断层问题。该流程特别适用于学术文献库的数字化重建,能够将异构PDF文档转化为结构化文本数据,为下游自然语言处理任务奠定基础。
实际应用
在工业实践维度,FinePDFs构建的端到端流水线已广泛应用于数字档案馆的智能化升级。其OCR路由分类器能自动识别需光学识别的文档,大幅提升扫描档案的数字化效率。教育机构可利用其教育内容过滤功能构建专业课程资源库,出版行业则借助其多语言处理能力实现跨国文献的自动化整理。该技术栈特别适合处理政府公开文档、企业年报等半结构化数据,为知识管理系统提供可持续的文本数据供给。
衍生相关工作
基于该数据集的技术框架,研究社区衍生出多个创新方向。文档布局分析领域涌现出基于OpenVINO量化的轻量化模型,显著提升了移动端文档解析效率。在质量评估层面,融合Gemma大语言模型的文档分类方法开创了基于语义的文档筛选新范式。其发布的OCR标注数据集催生了新一代扫描文档质量评估标准,而多任务蒸馏分类器则推动了边缘计算场景下的文档理解技术发展,形成从数据准备到模型部署的完整技术生态。
以上内容由遇见数据集搜集并总结生成



