CommonCrawl-CreativeCommons-recommended
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/BramVanroy/CommonCrawl-CreativeCommons-recommended
下载链接
链接失效反馈官方服务:
资源简介:
Common Crawl Creative Commons Corpus Recommended (C5r) 是 Common Crawl Creative Commons Corpus (C5) 的一个过滤版本,仅保留满足特定条件的样本,例如同时出现在 FineWeb 或 FineWeb-2 数据集中,没有许可证冲突,不是“非商业”许可证,不是“cc-unknown”,且名称中不包含“wiki”。C5r 仅支持 Afrikaans、German、English、French、Frysian、Italian、Dutch 和 Spanish 等语言,并提供多种配置选项。
创建时间:
2025-08-14
原始信息汇总
Common Crawl Creative Commons Corpus Strict (C5s) 数据集概述
数据集基本信息
- 许可证: CC(Creative Commons)
- 主要任务: 文本生成
- 任务子类: 语言建模
- 数据集名称: Common Crawl Creative Commons Corpus Strict (C5s)
- 支持语言: 南非荷兰语(afr)、德语(deu)、英语(eng)、法语(fra)、弗里斯兰语(fry)、意大利语(ita)、荷兰语(nld)、西班牙语(spa)
数据集描述
该数据集是 Common Crawl Creative Commons Corpus (C5) 的过滤版本,仅保留符合以下条件的样本:
- 同时存在于 FineWeb 或 FineWeb-2 数据集中
- 无许可证分歧(所有找到的许可证类型相同,版本号可能不同)
- 非"非商业用途"许可证(不含"nc")
- 非"cc-unknown"许可证
- 名称中不含"wiki"(建议从其他高质量资源中包含维基百科和维基数据)
数据配置
数据集包含多个配置,按爬取周期和语言分类:
爬取周期配置
- CC-MAIN-2019-30(全语言及单语言版本)
- CC-MAIN-2020-05(全语言及单语言版本)
- CC-MAIN-2022-05(全语言及单语言版本)
- CC-MAIN-2023-06(全语言及单语言版本)
- CC-MAIN-2024-46(全语言及英语版本)
- CC-MAIN-2024-51(全语言及英语版本)
语言配置
- afr(南非荷兰语)
- deu(德语)
- eng(英语)
- fra(法语)
- fry(弗里斯兰语)
- ita(意大利语)
- nld(荷兰语)
- spa(西班牙语)
数据特征
数据集包含以下特征字段:
- text: 文本内容(字符串)
- id: 标识符(字符串)
- dump: 来源信息(字符串)
- url: 网页地址(字符串)
- date: 日期(字符串)
- file_path: 文件路径(字符串)
- license_abbr: 许可证缩写(字符串)
- license_version: 许可证版本(字符串)
- license_location: 许可证位置(字符串)
- license_in_head: 许可证在头部(布尔值)
- license_in_footer: 许可证在底部(布尔值)
- license_parse_error: 许可证解析错误(布尔值)
- license_disagreement: 许可证分歧(布尔值)
- language_script: 语言脚本(字符串)
- language: 语言(字符串)
- language_score: 语言评分(浮点数)
- potential_licenses: 潜在许可证信息(结构体)
数据规模
- 训练集大小: 81,876,660 个样本
- 总字节数: 35,049,867,677 字节
- 下载大小: 18,241,370,199 字节
- 数据集大小: 35,049,867,677 字节
语言分布详情
| 语言 | 原始文档数 | C5s文档数 | 原始词元数 | C5s词元数 |
|---|---|---|---|---|
| afr | 312,262 | 350 | 358,873,448 | 913,178 |
| deu | 9,530,746 | 89,340 | 11,362,859,534 | 84,408,955 |
| eng | 92,635,372 | 7,843,160 | 87,537,859,958 | 7,035,305,977 |
| fra | 9,234,900 | 44,824 | 12,366,480,025 | 43,143,952 |
| fry | 230,910 | 1 | 197,430,774 | 1,092 |
| ita | 10,734,597 | 68,418 | 11,913,669,333 | 58,765,829 |
| nld | 2,827,636 | 18,266 | 2,757,074,705 | 18,957,134 |
| spa | 22,226,944 | 123,301 | 22,515,709,432 | 113,258,753 |
| 总计 | 147,733,367 | 8,187,660 | 149,009,957,209 | 7,354,754,870 |
搜集汇总
数据集介绍

构建方式
在数字文本资源日益丰富的背景下,CommonCrawl-CreativeCommons-recommended数据集通过多阶段筛选机制构建而成。其基础源自Common Crawl网络爬虫项目,从中提取采用知识共享许可协议的网页内容。随后应用严格过滤策略,仅保留同时存在于FineWeb或FineWeb-2高质量数据集中的样本,并排除非商业许可、版权争议内容及维基类文档。数据处理过程通过专门设计的脚本实现自动化流水线,确保最终语料符合研究级质量标准。
特点
该数据集最显著的特征在于其多语言覆盖与高质量文本内容。涵盖 Afrikaans、German、English、French 等八种语言,每种语言独立配置便于研究使用。数据结构设计精密,除文本内容外还包含URL来源、抓取时间、许可协议详情及语言检测置信度等元数据。特别值得注意的是其严格的许可验证机制,所有文本均采用兼容商业研究的知识共享协议,为学术和工业应用提供了法律安全性保障。
使用方法
研究人员可通过HuggingFace数据集库直接加载该资源,支持按语言配置或特定爬取时段灵活选取数据子集。典型应用场景包括多语言语言模型训练、文本生成任务评估以及跨语言语义分析。使用前建议详细查阅各语种的统计信息,根据实际需求选择合适的数据划分。对于需要更高容错率的场景,可考虑其宽松版本C5f数据集作为补充资源。
背景与挑战
背景概述
CommonCrawl-CreativeCommons-recommended数据集源于Common Crawl项目对网络文本资源的系统性采集与处理,由BramVanroy等研究者基于知识共享许可协议构建。该数据集聚焦多语言文本语料的高质量筛选,涵盖英语、德语、法语等八种语言,旨在为自然语言处理领域提供大规模、合规的预训练数据资源。其构建过程体现了对数字版权合规性与数据可用性的深度整合,显著推动了多语言语言模型研究与开源数据生态的发展。
当前挑战
该数据集需解决多语言文本分类与质量控制的复杂性挑战,包括从海量网络文本中精准识别符合知识共享协议的语料,并处理不同语言版本间的许可证一致性验证。构建过程中面临多源数据融合的技术难题,需协调Common Crawl原始数据与FineWeb数据集的结构差异,同时规避非商业许可内容并消除版权歧义,确保数据在法律合规性与语言多样性间的平衡。
常用场景
经典使用场景
在自然语言处理领域,大规模语料库对语言模型预训练具有关键价值。CommonCrawl-CreativeCommons-recommended数据集通过严格筛选机制,为多语言文本生成任务提供高质量训练资源。其经典应用场景包括构建多语言神经语言模型,支持跨语言语义表示学习,以及作为机器翻译系统的平行语料补充来源。该数据集特别适用于需要合规商业授权的学术与工业级语言模型开发。
实际应用
在实际应用层面,该数据集为多语言搜索引擎、智能客服系统和内容生成平台提供了核心语料支持。企业可利用其合规特性开发商业级语言模型,避免版权纠纷。教育机构则借助其多语言特性构建语言学习工具,而文化保护组织能利用其包含的低资源语言数据(如弗里斯兰语)进行数字文化遗产保存。其结构化元数据设计更便于企业进行数据溯源和质量监控。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于许可协议感知的语料过滤技术、多语言语料质量评估体系构建,以及低资源语言模型增强方法。其与FineWeb数据集的协同使用启发了新型数据融合范式,相关成果见于ACL、EMNLP等顶级会议。后续研究进一步拓展了其在代码生成、法律文本分析等垂直领域的应用,形成了以合规语料为核心的新兴研究生态。
以上内容由遇见数据集搜集并总结生成



