yhavinga/mc4_nl_cleaned

Name: yhavinga/mc4_nl_cleaned
Creator: yhavinga
Published: 2025-10-10 09:47:01
License: 暂无描述

Hugging Face2025-10-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yhavinga/mc4_nl_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

Clean Dutch mC4数据集是C4多语言数据集的荷兰语部分的清理版本，基于Common Crawl数据集。该数据集经过预处理，包括移除包含不雅词汇的文档、过滤不符合条件的句子和文档，以及使用LangDetect包识别主要语言为荷兰语的文档。数据集包含URL、文本内容和时间戳等字段，并提供了不同大小的配置以便于使用。该数据集是目前荷兰语最大的清理语料库，可用于训练语言模型，对荷兰语商业语言技术应用的发展有重要影响。

提供机构：

yhavinga

原始信息汇总

数据集概述

数据集名称

名称: mC4_nl_cleaned
别名: Clean Dutch mC4

数据集描述

概述: 该数据集是mC4多语言数据集的荷兰语部分的一个清洁版本，大小为151GB，原始大小为277GB。它是基于Common Crawl数据集构建的。
语言: 荷兰语（nl）和英语（en）
许可证: ODC-BY

数据集结构

数据实例: 每个实例包含timestamp（时间戳）、url（源URL）和text（文本内容）。
数据字段:
- url: 字符串，源URL。
- text: 字符串，文本内容。
- timestamp: 字符串，提取时间戳。
数据配置: 提供多种配置，从微型（micro）到完整（full），每个配置都有不同的文档和字数大小。

数据集创建

预处理: 预处理包括去除包含不良词汇的文档，以及过滤掉不符合特定条件的句子。使用96个CPU核心的TPUv3进行处理，耗时约10小时。

使用数据集的考虑

社会影响: 该数据集是荷兰语中最大的清洁文本数据集，对荷兰语言技术的发展具有重要影响。
偏见讨论: 尽管进行了清洁处理，模型仍可能反映互联网内容中的偏见。

附加信息

许可证信息: 数据集根据ODC-BY许可证发布。
引用信息: 引用时请参考相关论文。
贡献者: 感谢多位贡献者对数据集的贡献。

5,000+

优质数据集

54 个

任务类型

进入经典数据集