CommonCrawl-CreativeCommons-fine
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/BramVanroy/CommonCrawl-CreativeCommons-fine
下载链接
链接失效反馈官方服务:
资源简介:
Common Crawl Creative Commons Corpus Fine (C5f) 是 Common Crawl Creative Commons Corpus (C5) 的过滤版本,只保留在 FineWeb 或 FineWeb-2 数据集中出现的样本。因此,该数据集包含 C5 的高质量子集。该数据集支持多种语言,包括南非荷兰语、德语、英语、法语、弗里斯兰语、意大利语、荷兰语和西班牙语。数据集包含多个配置,每个配置对应不同的数据文件路径。数据集特征包括文本、ID、转储、URL、日期、文件路径、许可证缩写、许可证版本、许可证位置、许可证在头部、许可证在尾部、许可证解析错误、许可证不一致、语言脚本、语言、语言得分、潜在许可证等。数据集大小为 84579547764 字节,包含 18763868 个示例。
创建时间:
2025-08-13
原始信息汇总
Common Crawl Creative Commons Corpus Fine (C5f) 数据集概述
数据集简介
- 名称:Common Crawl Creative Commons Corpus Fine (C5f)
- 描述:Common Crawl Creative Commons Corpus (C5) 的过滤版本,仅保留同时存在于 FineWeb 或 FineWeb-2 数据集中的样本,包含 C5 的高质量子集。
许可证
- 许可证类型:Creative Commons (cc)
任务类别
- 主要任务类别:文本生成
- 具体任务:语言建模
语言支持
- 支持语言:
- 南非荷兰语 (afr)
- 德语 (deu)
- 英语 (eng)
- 法语 (fra)
- 弗里斯兰语 (fry)
- 意大利语 (ita)
- 荷兰语 (nld)
- 西班牙语 (spa)
数据配置
数据集包含多个配置,按爬取时间和语言分类:
按爬取时间配置
- CC-MAIN-2019-30
- CC-MAIN-2020-05
- CC-MAIN-2022-05
- CC-MAIN-2023-06
- CC-MAIN-2024-46
- CC-MAIN-2024-51
按语言配置
- afr (南非荷兰语)
- deu (德语)
- eng (英语)
- fra (法语)
- fry (弗里斯兰语)
- ita (意大利语)
- nld (荷兰语)
- spa (西班牙语)
数据特征
数据集包含以下特征字段:
- text (文本内容)
- id (唯一标识符)
- dump (数据来源)
- url (网页URL)
- date (日期)
- file_path (文件路径)
- license_abbr (许可证缩写)
- license_version (许可证版本)
- license_location (许可证位置)
- license_in_head (头部许可证标识)
- license_in_footer (底部许可证标识)
- license_parse_error (许可证解析错误标识)
- license_disagreement (许可证不一致标识)
- language_script (语言脚本)
- language (语言)
- language_score (语言评分)
- potential_licenses (潜在许可证信息,包含多个子字段)
数据规模
- 训练集大小:84,579,547,764 字节
- 训练集样本数:18,763,868 条
- 下载大小:45,200,344,303 字节
- 数据集总大小:84,579,547,764 字节
数据量统计
| 语言 | 原始文档数 | C5f文档数 | 原始令牌数 | C5f令牌数 |
|---|---|---|---|---|
| afr | 312,262 | 5,753 | 358,873,448 | 8,214,345 |
| deu | 9,530,746 | 224,789 | 11,362,859,534 | 258,945,770 |
| eng | 92,635,372 | 17,528,954 | 87,537,859,958 | 16,629,260,476 |
| fra | 9,234,900 | 136,349 | 12,366,480,025 | 176,835,571 |
| fry | 230,910 | 3,240 | 197,430,774 | 3,879,970 |
| ita | 10,734,597 | 301,315 | 11,913,669,333 | 334,812,841 |
| nld | 2,827,636 | 60,572 | 2,757,074,705 | 60,488,015 |
| spa | 22,226,944 | 502,896 | 22,515,709,432 | 496,644,788 |
| 总计 | 147,733,367 | 18,763,868 | 149,009,957,209 | 17,969,081,776 |
注意事项
- 该版本不包含 CC-MAIN-2025-05 爬取数据,因为 FineWeb 和 FineWeb-2 未包含该数据
- 2024-46 和 2024-51 爬取数据仅包含英语,因为 FineWeb-2 未包含这些爬取的其他语言数据
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量语料库的构建对模型性能至关重要。CommonCrawl-CreativeCommons-fine数据集通过精密筛选机制,从原始Common Crawl Creative Commons语料中提取与FineWeb及FineWeb-2数据集高度重合的样本,采用基于语言标识和内容匹配的双重过滤策略,确保数据兼具规模性与纯净度。其构建过程依托自动化脚本实现跨数据集对齐,涵盖2019至2024年间多个爬取批次,最终形成以多语言平行语料为主体的结构化数据集合。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,支持按语言代码或爬取批次进行配置选择。典型应用场景包括多语言语言模型预训练、跨语言文本生成任务以及版权合规性研究。数据以Parquet格式存储,支持分布式处理框架高效读取。使用时可结合内置的语言筛选功能提取特定语种子集,亦可通过元数据字段实现基于版权协议类型或抓取时间段的纵向分析。建议优先参考配套的统计文件以了解各语言分区数据分布特征。
背景与挑战
背景概述
CommonCrawl-CreativeCommons-fine数据集源于网络文本挖掘领域对高质量多语言语料库的迫切需求,由BramVanroy等研究者基于Common Crawl Creative Commons Corpus(C5)构建而成。该数据集通过整合FineWeb和FineWeb-2的高质量文本样本,形成了覆盖非洲语、德语、英语、法语等八种语言的精炼语料库,其核心研究目标在于为大规模语言模型训练提供经过严格筛选且版权清晰的文本数据。自2019年首次发布以来,该数据集持续更新至2024年最新网络爬取内容,显著推动了多语言自然语言处理技术的发展,并为学术研究提供了可靠的数据基础。
当前挑战
该数据集致力于解决多语言文本生成与语言建模中面临的数据质量参差不齐和版权合规性难题。构建过程中需应对海量网络文本的噪声过滤、多语言文本的精确识别与分类,以及Creative Commons许可协议的复杂解析等技术挑战。特别是在跨语言数据一致性维护方面,需要平衡不同语言文本的质量标准,同时确保许可协议的准确标注与法律合规性。此外,计算资源与存储空间的限制也使得大规模多语言语料的高效处理成为持续性的工程挑战。
常用场景
经典使用场景
在自然语言处理领域,CommonCrawl-CreativeCommons-fine数据集作为高质量多语言文本资源,主要应用于大规模语言模型的预训练任务。该数据集通过精细过滤机制,从原始Common Crawl数据中筛选出符合Creative Commons许可且经过FineWeb标准净化的文本,为模型提供跨语言、跨领域的可靠训练素材。其多语言特性特别适合构建具备跨文化理解能力的语言模型,为机器翻译、跨语言信息检索等任务奠定数据基础。
解决学术问题
该数据集有效解决了大规模语言模型训练中面临的数据质量参差不齐、版权许可不明确等关键学术问题。通过严格的许可验证和内容过滤机制,为研究者提供了法律合规、质量可控的训练数据,显著降低了模型训练过程中的版权风险。其多语言平行语料特性为低资源语言处理研究提供了宝贵资源,推动了语言技术民主化进程,对构建公平、包容的人工智能系统具有重要学术价值。
实际应用
在实际应用层面,该数据集为商业语言模型开发提供了可靠的训练基础,特别是在需要多语言支持的全球化产品中。企业可基于此数据集训练客服机器人、内容生成系统和跨语言搜索引擎,确保输出内容的合法性和质量稳定性。教育机构利用其多语言特性开发语言学习工具,而文化保护组织则借助低资源语言数据开展数字人文项目,促进语言多样性保护。
数据集最近研究
最新研究方向
在自然语言处理领域,CommonCrawl-CreativeCommons-fine数据集作为高质量多语言语料库,正推动大语言模型预训练的前沿研究。其精选的Creative Commons许可内容与FineWeb数据集的深度融合,为模型训练提供了法律合规且质量优异的文本资源。当前研究热点集中于多语言模型的跨语言泛化能力提升,以及低资源语言如弗里西亚语的性能优化。该数据集通过精确的语言标注和许可证验证机制,为学术机构提供了规避版权风险的研究基础,显著影响了多语言NLP模型的训练范式,促进了开源语言模型的合规发展。
以上内容由遇见数据集搜集并总结生成



