five

yhavinga/mc4_nl_cleaned

收藏
Hugging Face2025-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yhavinga/mc4_nl_cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
Clean Dutch mC4数据集是C4多语言数据集的荷兰语部分的清理版本,基于Common Crawl数据集。该数据集经过预处理,包括移除包含不雅词汇的文档、过滤不符合条件的句子和文档,以及使用LangDetect包识别主要语言为荷兰语的文档。数据集包含URL、文本内容和时间戳等字段,并提供了不同大小的配置以便于使用。该数据集是目前荷兰语最大的清理语料库,可用于训练语言模型,对荷兰语商业语言技术应用的发展有重要影响。
提供机构:
yhavinga
原始信息汇总

数据集概述

数据集名称

  • 名称: mC4_nl_cleaned
  • 别名: Clean Dutch mC4

数据集描述

  • 概述: 该数据集是mC4多语言数据集的荷兰语部分的一个清洁版本,大小为151GB,原始大小为277GB。它是基于Common Crawl数据集构建的。
  • 语言: 荷兰语(nl)和英语(en)
  • 许可证: ODC-BY

数据集结构

  • 数据实例: 每个实例包含timestamp(时间戳)、url(源URL)和text(文本内容)。
  • 数据字段:
    • url: 字符串,源URL。
    • text: 字符串,文本内容。
    • timestamp: 字符串,提取时间戳。
  • 数据配置: 提供多种配置,从微型(micro)到完整(full),每个配置都有不同的文档和字数大小。

数据集创建

  • 预处理: 预处理包括去除包含不良词汇的文档,以及过滤掉不符合特定条件的句子。使用96个CPU核心的TPUv3进行处理,耗时约10小时。

使用数据集的考虑

  • 社会影响: 该数据集是荷兰语中最大的清洁文本数据集,对荷兰语言技术的发展具有重要影响。
  • 偏见讨论: 尽管进行了清洁处理,模型仍可能反映互联网内容中的偏见。

附加信息

  • 许可证信息: 数据集根据ODC-BY许可证发布。
  • 引用信息: 引用时请参考相关论文。
  • 贡献者: 感谢多位贡献者对数据集的贡献。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作