allenai/MADLAD-400
收藏MADLAD-400 数据集概述
数据集介绍
MADLAD-400(Multilingual Audited Dataset: Low-resource And Document-level)是一个基于Common Crawl的多语种文档级数据集,涵盖了419种语言。该数据集使用了截至2022年8月1日的所有Common Crawl快照。其主要优势在于高度多语种(419种语言)、经过审计和高度过滤,以及文档级特性。主要缺点是其高度过滤可能导致某些应用所需的召回率不足。
数据集分为两个版本:
- noisy 版本:仅通过文档级LangID进行过滤。
- clean 版本:应用了多种过滤器,但仍包含一定程度的噪声。
每个版本的数据集都以去重后的文档级形式发布。
数据加载
可以通过指定LangID加载任意语言的clean和noisy版本:
python madlad_abt = load_dataset("allenai/madlad-400", "abt")
也可以通过关键字参数加载多个语言:
python madlad_multilang = load_dataset("allenai/madlad-400", languages=["abt", "ace"])
此外,可以使用split关键字参数分别加载noisy和clean子集:
python madlad_multilang_clean = load_dataset("allenai/madlad-400", languages=["abt", "ace"], split="clean")
LangID模型和爬取
基于Language Id In the Wild,我们训练了一个半监督LangID模型(SSLID),涵盖500种语言。训练数据采样温度为T=3,以减少低资源语言的过度触发,并补充了来自同一论文的网络爬取数据,以增强对网络域文本的鲁棒性。
过滤步骤
在按LangID分离原始CommonCrawl语料库之前,执行以下过滤步骤:
- 丢弃少于5个句子的页面,并仅保留至少包含3个单词的行。
- 移除包含单词“Javascript”的任何行。
- 移除包含短语“lorem ipsum”的任何页面。
- 移除包含“terms of use”、“privacy policy”、“cookie policy”、“uses cookies”、“use of cookies”、“use cookies”等短语的页面。
- 移除包含大括号的任何页面。
- 去重:丢弃任何三句跨度在数据集中出现多次的页面,只保留一个。
noisy 子集仅通过文档级LangID进行过滤,而 clean 子集移除所有percent_questionable分数大于20%的文档,并进一步移除少于5个句子的文档。
审计和质量控制
根据Quality at a Glance,作者对数据集中的每个语料库进行了审计。尽管作者不精通大多数语言,但他们能够对整体质量进行高层次的评论。审计包括对每种语言的20个文档样本进行检查。
审计结果显示,决定包含看起来嘈杂的语言,但排除明显以噪声为主或只有20个或更少文档的语言。这一标准较低,但确保了所有发布的语料库至少有潜在的实用价值,避免了“代表性洗涤”的问题。
许可证
该数据集以CC-BY-4.0许可证发布。




