FinePDFs

github2025-10-21 更新2025-10-22 收录

下载链接：

https://github.com/huggingface/finepdfs

下载链接

链接失效反馈

官方服务：

资源简介：

FinePDFs数据集是一个大规模PDF文本数据集，包含过滤、提取、OCR、后处理、去重、分类和打包PDF文本数据的端到端处理流程。

The FinePDFs Dataset is a large-scale PDF text dataset that encompasses an end-to-end processing workflow for PDF text data, including filtering, extraction, OCR, post-processing, deduplication, classification and packaging.

创建时间：

2025-10-17

原始信息汇总

FinePDFs数据集概述

数据集基本信息

数据集名称：FinePDFs
数据集卡片地址：https://huggingface.co/datasets/HuggingFaceFW/finepdfs
许可证：ODC-By 1.0（同时受CommonCrawl条款约束）
发布年份：2025年

数据集处理流程

核心处理步骤

PDF文本数据过滤
内容提取
光学字符识别（OCR）
后处理
去重
分类
打包

技术组件

文本提取：使用Docling进行嵌入式文本提取
OCR路由分类器：基于XGBoost的OCR与非OCR文档分类
语言过滤：使用google/gemma-3-27b-it进行语言分类
质量分类器：基于ModernBERT的多头分类器（英语）和BERT-based分类器（非英语语言）

数据集特点

语言支持

支持多种语言处理（如eng_Latn）
语言过滤阈值优化F-β分数（β=0.1），优先保证精确度

质量保证

使用Qwen3-235B-A22B-Instruct-2507进行数据标注
提供教育内容分类器（edu classifier）
实施精确去重和最小哈希去重

技术限制

Docling仅提取嵌入式文本，图像内容可能丢失
表格和公式可能错位，段落顺序可能存在问题
OCR可能产生幻觉文本或遗漏文本，特别是在低资源语言中
页面级故障可能发生
可能保留有害内容

引用格式

bibtex @misc{kydlicek2025finepdfs, title = {FinePDFs}, author = {Hynek Kydl{\i}{\v{c}}ek and Guilherme Penedo and Leandro von Werra}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face repository}, howpublished = {url{https://huggingface.co/datasets/HuggingFaceFW/finepdfs}} }

搜集汇总

数据集介绍

构建方式

在数字文档处理领域，FinePDFs数据集通过多阶段流程构建而成。该流程从CommonCrawl中筛选PDF文档，运用Docling工具提取嵌入式文本，并对扫描文档实施OCR处理以增强可读性。随后采用去重技术消除冗余内容，并利用Gemma-3-27B模型进行语言分类，结合XGBoost分类器实现OCR需求预测。最终通过教育质量分类器对文本进行精细化过滤，确保数据内容的学术价值与结构完整性。

特点

该数据集融合嵌入式文本与OCR处理结果，覆盖多语言场景并包含高质量教育类文献。其特色在于采用量化布局模型优化存储效率，通过多头部分类器实现并行质量评估。数据标注过程融合教师模型蒸馏技术，在保持精度的同时显著提升处理速度。文档结构保留原始版面特征，为语言模型训练提供兼具多样性与准确性的语料资源。

使用方法

用户可通过运行标准化管道脚本启动端到端处理流程，指定语种参数即可完成数据提取与分类。数据集支持直接加载至HuggingFace平台，配套提供质量分类模型与语言过滤阈值配置。研究者可调用预训练分类器进行内容筛选，或基于开放量化代码优化布局分析模块。注意事项包括需配置GPU环境以支持vLLM推理，且需遵循CommonCrawl使用条款与ODC-By开源协议。

背景与挑战

背景概述

FinePDFs数据集由Hugging Face研究团队于2025年发布，聚焦于大规模PDF文档的智能处理与分析。该数据集旨在解决数字文档中文本提取与内容理解的复杂性，通过集成多模态技术实现嵌入式文本解析、光学字符识别和语义分类。其核心研究问题在于突破传统PDF处理工具的局限性，为自然语言处理领域提供高质量、多语言的文档语料库，显著推动了文档智能与知识挖掘的技术边界。

当前挑战

在领域问题层面，FinePDFs需应对PDF文档的异构性挑战，包括扫描文档的字符识别误差、多语言文本的语义一致性以及复杂版式下的内容结构还原。构建过程中，研究团队面临嵌入式文本提取的完整性缺失、OCR技术对低资源语言的适应性不足，以及基于机器学习的内容过滤可能引入的系统性偏差。此外，文档去重与质量评估的平衡亦成为关键难点，需在保证数据纯净度的同时避免过度筛选导致的信息损失。

常用场景

经典使用场景

在数字文档处理领域，FinePDFs数据集通过集成文本提取、光学字符识别与智能分类技术，为大规模PDF文档的语义解析提供了标准化流程。其核心价值体现在对混合格式文档的自动化处理能力，既能解析原生文本型PDF，又能通过OCR技术处理扫描文档，有效解决了传统方法在跨格式文档处理中的断层问题。该流程特别适用于学术文献库的数字化重建，能够将异构PDF文档转化为结构化文本数据，为下游自然语言处理任务奠定基础。

实际应用

在工业实践维度，FinePDFs构建的端到端流水线已广泛应用于数字档案馆的智能化升级。其OCR路由分类器能自动识别需光学识别的文档，大幅提升扫描档案的数字化效率。教育机构可利用其教育内容过滤功能构建专业课程资源库，出版行业则借助其多语言处理能力实现跨国文献的自动化整理。该技术栈特别适合处理政府公开文档、企业年报等半结构化数据，为知识管理系统提供可持续的文本数据供给。

衍生相关工作

基于该数据集的技术框架，研究社区衍生出多个创新方向。文档布局分析领域涌现出基于OpenVINO量化的轻量化模型，显著提升了移动端文档解析效率。在质量评估层面，融合Gemma大语言模型的文档分类方法开创了基于语义的文档筛选新范式。其发布的OCR标注数据集催生了新一代扫描文档质量评估标准，而多任务蒸馏分类器则推动了边缘计算场景下的文档理解技术发展，形成从数据准备到模型部署的完整技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集