CCpdf

Name: CCpdf
Creator: 雪花科技
Published: 2023-06-06 15:35:17
License: 暂无描述

arXiv2023-06-06 更新2024-06-21 收录

下载链接：

https://github.com/applicaai/CCpdf

下载链接

链接失效反馈

官方服务：

资源简介：

CCpdf数据集是由雪花科技和亚当密茨凯维奇大学合作创建的，旨在从互联网上的PDF文件中构建一个大规模、多样化的多语言文档语料库。该数据集包含1450万页PDF文件，覆盖11种不同语言，主要来源于2010年至2022年间的文档。创建过程中，研究团队分析了多种处理技术，以平衡数据质量、处理时间和成本。CCpdf数据集特别适用于2D语言模型的预训练，有助于提升模型在多语言和多领域文档理解方面的性能。

The CCpdf dataset was jointly developed by Snowflake Technology and Adam Mickiewicz University, with the objective of constructing a large-scale, diverse multilingual document corpus from PDF documents sourced from the public Internet. This dataset comprises 14.5 million pages of PDF documents, spanning 11 distinct languages, and is primarily derived from documents published between 2010 and 2022. During its development, the research team evaluated multiple processing techniques to strike a balance between data quality, processing latency, and associated costs. The CCpdf dataset is particularly suitable for pre-training 2D language models, and helps improve the model's performance in multilingual and multi-domain document understanding.

提供机构：

雪花科技

创建时间：

2023-04-29

搜集汇总

数据集介绍

构建方式

在文档理解领域，构建大规模、高质量的多模态语料库是推动二维语言模型预训练的关键。CCpdf数据集通过精心设计的流程，从Common Crawl的2022年5月网络爬取数据中提取PDF文件链接，并采用基于URL的简单启发式方法进行初步语言检测，涵盖阿拉伯语、英语、法语等11种语言。为保障数据质量，研究团队实施了反垃圾邮件过滤策略，通过正则表达式识别并排除可疑域名，同时限制每个域名的文件下载数量以平衡语言和领域多样性。下载后的PDF文件经过“数字原生”检测机制分类，无需OCR处理的文件通过DjVu工具直接提取文本和边界框，其余文件则使用Tesseract OCR引擎处理，并结合内容语言检测优化输出质量，最终构建了一个包含约112万份文档、1450万页的索引语料库。

特点

CCpdf数据集在文档理解语料库中展现出显著的多样性与时效性优势。与以往单领域或单语言的语料库不同，该数据集覆盖了11种语言，并汇集了来自互联网多个领域的文档，从而在布局和主题上提供了丰富的多样性。文档平均长度较长，有助于模型理解长距离文本关系；且大多数文档创建于2010年之后，反映了当代语言和文档风格的变化，增强了模型的现实适用性。此外，数据集经过严格的质量控制，包括反垃圾邮件过滤和语言检测验证，确保了内容的可靠性和一致性。这些特点使得CCpdf成为支持多语言、多领域二维语言模型预训练的理想资源。

使用方法

CCpdf数据集以PDF文件索引的形式提供，研究人员可通过随附的脚本从原始URL下载文件，或从Common Crawl转储中提取。该数据集主要用于二维语言模型（如LayoutLM、LAMBERT等）的预训练，其多模态特性——包含文本、布局和视觉信息——支持模型学习文档的深层语义和结构关系。用户可根据需要，利用索引中的元数据（如语言、创建年份）筛选特定子集，或结合OCR输出构建衍生数据集，用于文档分类、信息提取等下游任务。数据集的设计兼顾了效率与质量，为文档理解研究提供了可扩展且高质量的基础资源。

背景与挑战

背景概述

在文档理解领域，随着二维语言模型如LayoutLM和TILT的兴起，大规模、高质量的多模态文档语料库成为预训练的关键基础。CCpdf数据集由Snowflake与亚当·密茨凯维奇大学的研究团队于2023年提出，旨在解决现有预训练语料库在单领域、单语言或非公开性方面的局限。该数据集通过高效处理Common Crawl网络爬虫数据，构建了一个涵盖11种语言、跨领域、视觉丰富的PDF文档集合，包含约1450万页内容，为多语言文档理解模型的开发提供了重要资源，推动了文档智能向更通用、更包容的方向发展。

当前挑战

CCpdf数据集致力于解决文档理解中多语言、跨领域视觉丰富文档的建模挑战，其核心在于如何从异构网络数据中提取高质量、结构化的文本与布局信息。构建过程中的挑战包括：从海量Common Crawl数据中精准识别并下载PDF文件，需克服文件截断、链接失效及垃圾内容过滤等问题；在文档处理阶段，需高效区分原生数字文档与扫描文档，以优化OCR流程，同时平衡多语言识别的准确性与计算成本；此外，确保语料库在语言、领域和时效性上的多样性，避免模型偏差，也是一项复杂任务。

常用场景

经典使用场景

在文档理解领域，CCpdf数据集为二维语言模型的预训练提供了关键支持。该数据集通过从互联网广泛爬取PDF文件，构建了一个大规模、多语言、多领域的视觉丰富文档语料库。其经典使用场景在于为LayoutLM、LAMBERT等模型提供预训练数据，帮助模型学习文档的文本、布局和视觉元素的联合表示，从而提升对复杂文档结构的理解能力。

衍生相关工作

CCpdf数据集衍生了一系列经典研究工作，特别是在多语言文档理解模型的开发中发挥了重要作用。基于其构建的索引和预处理流程，研究人员可以进一步创建细粒度的文档分类、布局分析或问答数据集。该数据集也为跨语言文档检索、视觉文档的生成模型等方向提供了数据支持，启发了如LayoutXLM等多语言模型的预训练，推动了文档理解领域向更广泛的语言和场景扩展。

数据集最近研究