PleIAs/common_corpus

Name: PleIAs/common_corpus
Creator: PleIAs
Published: 2026-05-06 00:28:17
License: 暂无描述

Hugging Face2026-05-06 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/common_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Common Corpus是最大的开放且许可宽松的文本数据集，包含超过2万亿个标记（2,003,039,184,047个标记）。它是一个多样化的数据集，包括书籍、报纸、科学文章、政府和法律文件、代码等。Common Corpus与现有的开放数据集不同之处在于：真正开放、多语言、多样性和经过精心策划。数据集由五个精心策划的集合组成：OpenCulture、OpenGovernment、OpenSource、OpenScience和OpenWeb。每个集合都有特定的领域和来源，如公共领域的书籍和报纸、金融和法律文件、开源代码、学术内容和网络文本。数据集的使用方法、注意事项、偏见讨论和个人敏感信息处理也在README中详细说明。

Common Corpus is the largest open and permissible licensed text dataset, comprising over 2 trillion tokens (2,003,039,184,047 tokens). It is a diverse dataset, consisting of books, newspapers, scientific articles, government and legal documents, code, and more. Common Corpus differs from existing open datasets in that it is: truly open, multilingual, diverse, and extensively curated. The dataset is made of five carefully curated collections: OpenCulture, OpenGovernment, OpenSource, OpenScience, and OpenWeb. Each collection has specific domains and sources, such as public domain books and newspapers, financial and legal documents, open-source code, academic content, and web text. The README also provides detailed instructions on how to use the dataset, considerations for using the data, discussion of bias, and handling of personal and sensitive information.

提供机构：

PleIAs

搜集汇总

数据集介绍

构建方式

Common Corpus是迄今规模最大的开放许可文本数据集，总规模达2.27万亿词元，由Pleias携手多方合作伙伴精心构建。数据集囊括六大核心子集：OpenCulture汇集公有领域书籍与报纸，依托Pleias模型创新性地校正历史数字化文本错误；OpenGovernment整合来自SEC、WTO等机构的金融与法律文件；OpenSource精选GitHub中80%的高质量开源代码；OpenScience通过视觉-语言模型保留OpenAlex等学术资源的结构化信息；OpenWeb收录维基百科、YouTube Commons及Stack Exchange文本；OpenSemantic则将Wikidata的语义三元组转化为逾300种语言的自然语言陈述。所有数据均经过严格的毒性过滤与低教育价值内容剔除，并附带详尽的来源许可信息。

特点

该数据集的核心特性在于其真正的开放性、可追溯性与多语言多样性。每一份文档均关联明确的许可信息，涵盖公有领域作品及CC、MIT等自由许可，完全符合开源AI定义与AI法案行为准则。语言覆盖极为广泛，英语与法语占据主体，但德语、西班牙语、意大利语、希腊语、拉丁语等8种语言各自超过百亿词元，33种语言逾十亿词元。数据时间跨度显著，过半内容源自21世纪以前的文化遗产。OpenSemantic子集更是开创性地将结构化知识转化为可训练的文本形式，为知识增强型模型提供独特资源。

使用方法

Common Corpus依托HuggingFace Datasets库提供便捷的加载接口，用户仅需一行代码即可调用完整数据集。元数据中包含语言、日期、许可类型等关键字段，支持按需过滤：可筛选特定语言构建多语料库，或依据年份设定自定义时间截断点。针对毒性内容，数据集已通过Celadon分类器移除高毒性文本和冒犯性术语，并使用Microsoft Presidio框架进行跨语言的个人身份信息脱敏，包括针对欧洲电话号码格式的特殊处理。用户既可商用也可非商用使用，但需注意部分历史文本可能隐含社会偏见，建议在下游任务中结合具体场景做进一步评估。

背景与挑战

背景概述

Common Corpus由Pleias联合多个合作伙伴于2024年11月首次发布，是当前规模最大的开放许可文本数据集，涵盖2.27万亿词元。该数据集致力于解决大语言模型训练中数据封闭性、版权不明和可追溯性缺失的痛点，严格整合无版权或自由许可的资源，包括书籍、报纸、学术论文、政府法律文件及代码等多元领域。其独特之处在于对每份文档均记录许可状态与来源，确保数据透明，符合欧盟《人工智能法案》行为准则及开源倡议定义，为构建真正开源、可复现的AI模型提供了坚实的数据基础设施，对推动AI领域的开放科学研究具有里程碑意义。

当前挑战

该数据集面临的核心挑战包括：其一，领域问题层面，传统大规模数据集常含版权受限或来源不明的文本，导致模型商用受限且伦理风险高，Common Corpus需在2.3万亿词元量级上严格筛选仅开放许可内容，并处理历史文本中存在的偏见、有害信息及低教育价值数据，实现高质量与合规性的平衡。其二，构建过程中，多语言覆盖（尤其是中文、阿拉伯语等非西方语言）与历史文本数字化误差的精准校正（如OCR纠错）是技术难点；此外，需从GitHub等异构来源中筛选高质量代码，并融合维基数据语义三元组为自然语言，工程复杂度极高，同时需保障个人身份信息的移除与合规性过滤，这对大规模自动化处理管线提出严苛要求。

常用场景

经典使用场景

Common Corpus作为目前规模最大的开放许可文本数据集，其经典使用场景在于为大规模语言模型的预训练提供高质量、具备完整溯源信息的语料库。研究人员可借助该数据集训练符合开源AI定义的大模型，尤其适用于追求模型透明度、可复现性及合规性的学术与工业场景。数据集中包含的六类精心策展的语料——涵盖文化典籍、政府法律文书、科研论文、开源代码、通用网络文本及语义知识图谱——使得模型能够从多样化的知识维度中学习，从而在多项自然语言处理任务上获得优异表现。例如，利用其中的OpenScience子集可增强模型对学术文献的理解能力，而OpenSource子集则有助于提升代码生成与理解的相关任务性能。

衍生相关工作

Common Corpus的发布催生了一系列重要的衍生工作，并已获ICLR 2026的oral报告。其伴随的技术报告系统性地阐述了大规模开放语料的策展方法论与数据来源，为后续研究提供了可复现的范本。基于该数据集，研究团队已经开发出专门的OCR校正模型与毒性分类器Celadon，以提升数据质量。数据集还与MOSEL、kl3m、AI4Bharat等开源倡议深度融合，推动了跨语言和低资源语言模型的进步。此外，其规范的元数据结构支持按语言、时间、许可证等维度进行灵活筛选，激励了关于数据子集对模型行为影响的研究，以及面向特定领域（如法律、科学）的高质量小规模数据集构建工作。

数据集最近研究