Common Corpus
收藏arXiv2025-06-02 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/PleIAs/common_corpus
下载链接
链接失效反馈官方服务:
资源简介:
Common Corpus是一个大型开放数据集,包含约两万亿个token,适用于大型语言模型预训练。数据集包含多种语言,从主要欧洲语言到低资源语言,以及大量的代码数据。数据来源广泛,覆盖多个领域和时间段,为研究和商业需求提供支持。数据集的开发过程详细记录,并通过过滤和整理确保数据质量。Common Corpus旨在解决现有预训练数据集面临的版权和法律问题,为开放科学研究和语言模型开发提供支持。
Common Corpus is a large-scale open dataset containing approximately 2 trillion tokens, tailored for pre-training of large language models (LLMs). The dataset encompasses a diverse set of languages, ranging from major European languages to low-resource languages, along with a large volume of code data. It draws from extensive data sources spanning multiple domains and time periods, catering to both research and commercial needs. The development process of Common Corpus is thoroughly documented, and its data quality is guaranteed through rigorous filtering and curation. Furthermore, Common Corpus aims to resolve the copyright and legal issues plaguing existing pre-training datasets, providing robust support for open scientific research and language model development.
提供机构:
PleIAs, Paris, France
创建时间:
2025-06-02
原始信息汇总
Common Corpus 数据集概述
数据集基本信息
- 语言: 英语(en)、法语(fr)、德语(de)、意大利语(it)、西班牙语(es)、拉丁语(la)、荷兰语(nl)、波兰语(pl)
- 规模: 2万亿词元(1,998,647,168,282 tokens)
- 版本: 第二版(2024年11月发布第一版)
- 许可证: 全部为无版权或宽松许可内容
核心特点
- 真正开放: 仅包含无版权或宽松许可内容
- 可追溯性: 每个文档都附带完整的上下文信息
- 多语言性:
- 8种语言超过100亿词元(德语、西班牙语、意大利语、波兰语、希腊语、拉丁语)
- 33种语言超过10亿词元
- 多样性: 包含书籍、报纸、科学文章、政府法律文件、代码等
- 严格筛选:
- 纠正数字化文本的拼写和格式错误
- 移除有害和低教育价值内容
数据集组成
| 集合名称 | 词元数量 | 内容领域 | 主要来源 |
|---|---|---|---|
| OpenCulture | 885,982,490,090 | 文化遗产 | Wikisource、古登堡计划 |
| OpenGovernment | 406,581,454,455 | 法律行政 | SEC、WTO、Europarl |
| OpenSource | 283,227,402,898 | 代码 | GitHub |
| OpenScience | 281,193,563,789 | 学术 | OpenAlex |
| OpenWeb | 73,217,485,489 | 网络文本 | 维基百科、YouTube Commons |
| OpenSemantic | 67,958,671,827 | 语义数据 | Wikidata |
数据结构
identifier: 唯一文本标识符(通常为原始资源链接)collection: 所属子集合名称open type: 六大集合分组之一license: 内容授权信息date: 资源创建日期title: 资源标题或文件名creator: 发布/收集机构language: 自动识别的语言word_count: 空格分隔的单词数token_count: 官方分词器计算的词元数text: 完整文本内容(无格式)
使用说明
- 支持商业和非商业用途
- 可按语言和日期筛选数据
- 已移除高毒性内容和个人身份信息
技术支持
- 毒性分类器: Celadon
- PII移除工具: Microsoft Presidio
- 特殊处理: GDPR过滤模型
加载方式
python from datasets import load_dataset data = load_dataset(PleIAs/common_corpus)
合作伙伴
- AI Alliance
- 法国文化部
- Wikimedia Enterprise
- Wikidata/Wikimedia Germany
- Mozilla
- NVIDIA
搜集汇总
数据集介绍

构建方式
Common Corpus作为目前最大的开放预训练数据集,其构建过程体现了严谨的法律合规性与多源异构数据整合能力。研究团队通过系统化采集公有领域文本(如政府公开文件、文化遗产数字化资料)及符合许可协议的开放内容(如知识共享许可的学术论文、开源代码),构建了约两万亿token的语料库。数据来源涵盖欧盟官方文件库、国际组织档案、多国文化遗产机构的数字化藏品以及GitHub开源代码等,并通过自动化工具与人工审核相结合的方式,确保数据版权状态可追溯。特别值得注意的是,团队开发了专用工具链(如OCRonos光学字符校正模型、Celadon毒性检测器)对原始数据进行去标识化、OCR纠错和内容过滤,形成覆盖45种语言的标准化语料。
特点
该数据集的核心价值在于其法律安全性与内容多样性。作为完全符合欧盟AI法案的预训练资源,所有数据均通过公有领域状态验证或明确许可授权,规避了传统网络爬取数据的版权争议。语料时间跨度从17世纪历史文献到当代科技文档,包含金融法律文本(占20.3%)、多语言文化遗产(44.3%)、学术论文(14.1%)及编程代码(14.2%)等多元领域。其语言分布突破英语中心化格局,法语(13.8%)、德语(5.6%)等非英语语料占比显著,尤其包含拉丁语、希腊语等罕见资源。数据集还创新性地整合了视频字幕、专利文书等多媒体衍生文本,为多模态模型研发提供可能。
使用方法
使用者可通过Hugging Face平台获取按主题分块的10,000个Parquet文件,每个数据单元均附带语言、许可证类型、年代等元数据标签,支持灵活的子集筛选。建议研究团队根据目标模型的应用场景配置数据混合比例:法律领域应用可侧重Open Government子集(含WTO文件等专业语料),多语言生成任务建议组合Open Culture中的历史文献与现代网络文本。对于计算资源受限的场景,可利用随附的Pleias基础分词器进行高效预处理。需注意的是,数据集未包含指令微调数据,建议配合TaskBench等基准测试集评估模型性能。目前已成功应用于Anthropic特征可视化研究、Salamandra多语言模型训练等工业级项目。
背景与挑战
背景概述
Common Corpus是由PleIAs团队于2025年发布的开源多语言预训练数据集,旨在解决大语言模型训练数据中的版权合规问题。该数据集包含约2万亿标记,涵盖公共领域文本和允许许可内容,涉及从主要欧洲语言到低资源语言的广泛语种,并包含大量代码数据。其核心研究问题是为AI研究提供合法、可审计的训练数据基础设施,已被Anthropic等业界领先机构采用,成为欧盟AI法规框架下的重要开放科学资源。
当前挑战
该数据集面临双重挑战:领域问题上需平衡数据开放性与质量要求,尤其在处理历史文献的现代伦理标准符合性时;构建过程中需克服多语言OCR校正、个人身份信息脱敏等技术难题,并解决低资源语言数据稀缺的'开放数据悖论'——即大量合规数据因数字化程度低而难以获取的问题。
常用场景
经典使用场景
Common Corpus作为目前最大的开放预训练数据集,其经典应用场景主要集中在多语言大语言模型的预训练领域。该数据集以其2万亿token的庞大规模和丰富的语言多样性,为研究人员提供了构建高质量、合规基础模型的可靠数据来源。尤其在欧盟严格的AI法规环境下,Common Corpus通过完全开放许可的内容,解决了传统网络爬取数据面临的版权合规问题。
解决学术问题
该数据集有效解决了LLM研究中的三个核心学术问题:首先,通过完全合规的数据来源,规避了AI立法中的版权争议;其次,其包含从主要欧洲语言到低资源语言的广泛语种覆盖,缓解了非英语语言模型训练数据不足的困境;最后,数据集中的代码数据部分为提升模型在数学推理和结构化输出任务上的表现提供了支持。这些特性使其成为开放科学研究的基石性资源。
衍生相关工作
基于Common Corpus已衍生出多项重要工作:Pleias模型家族首次实现了完全基于该数据集的欧洲可复现模型;Salamandra系列模型利用其法语文化遗产数据增强了欧洲语言支持;NeKo模型采用其OCR校正数据提升文本纠错能力;FAMA语音基础模型则使用了数据集中的YouTube Commons音频转录内容。这些衍生工作共同推动了开放、合规AI生态系统的发展。
以上内容由遇见数据集搜集并总结生成



