allenai/MADLAD-400

Name: allenai/MADLAD-400
Creator: allenai
Published: 2024-09-09 16:23:42
License: 暂无描述

Hugging Face2024-09-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/MADLAD-400

下载链接

链接失效反馈

官方服务：

资源简介：

MADLAD-400是一个基于Common Crawl的多语言文档级数据集，涵盖419种语言。该数据集有两个版本：一个是未经过滤的noisy版本，另一个是经过多种过滤的clean版本。数据集的主要优势在于其多语言性、审核和高度过滤，以及文档级别的处理。主要缺点是过滤过多可能导致某些应用场景下的召回率不足。数据集还包括了LangID模型的使用、过滤步骤、Virama校正、缅甸字体兼容性处理等特殊处理。最后，数据集经过了详细的审核过程，包括语言的重命名和合并。

MADLAD-400 is a document-level multilingual dataset based on Common Crawl, covering 419 languages. There are two versions of the dataset: a noisy version with no filtering except document-level LangID, and a clean version with various filters applied. The main advantages of this dataset are its multilingual nature, auditing, high filtering, and document-level processing. The main disadvantage is that excessive filtering may result in insufficient recall for some applications. The dataset also includes the use of a LangID model, filtering steps, Virama correction, Myanmar font compatibility, and other special treatments. Finally, the dataset underwent a detailed audit process, including renaming and merging of languages.

提供机构：

allenai

原始信息汇总

MADLAD-400 数据集概述

数据集介绍

MADLAD-400（Multilingual Audited Dataset: Low-resource And Document-level）是一个基于Common Crawl的多语种文档级数据集，涵盖了419种语言。该数据集使用了截至2022年8月1日的所有Common Crawl快照。其主要优势在于高度多语种（419种语言）、经过审计和高度过滤，以及文档级特性。主要缺点是其高度过滤可能导致某些应用所需的召回率不足。

数据集分为两个版本：

noisy 版本：仅通过文档级LangID进行过滤。
clean 版本：应用了多种过滤器，但仍包含一定程度的噪声。

每个版本的数据集都以去重后的文档级形式发布。

数据加载

可以通过指定LangID加载任意语言的clean和noisy版本：

python madlad_abt = load_dataset("allenai/madlad-400", "abt")

也可以通过关键字参数加载多个语言：

python madlad_multilang = load_dataset("allenai/madlad-400", languages=["abt", "ace"])

此外，可以使用split关键字参数分别加载noisy和clean子集：

python madlad_multilang_clean = load_dataset("allenai/madlad-400", languages=["abt", "ace"], split="clean")

LangID模型和爬取

基于Language Id In the Wild，我们训练了一个半监督LangID模型（SSLID），涵盖500种语言。训练数据采样温度为T=3，以减少低资源语言的过度触发，并补充了来自同一论文的网络爬取数据，以增强对网络域文本的鲁棒性。

过滤步骤

在按LangID分离原始CommonCrawl语料库之前，执行以下过滤步骤：

丢弃少于5个句子的页面，并仅保留至少包含3个单词的行。
移除包含单词“Javascript”的任何行。
移除包含短语“lorem ipsum”的任何页面。
移除包含“terms of use”、“privacy policy”、“cookie policy”、“uses cookies”、“use of cookies”、“use cookies”等短语的页面。
移除包含大括号的任何页面。
去重：丢弃任何三句跨度在数据集中出现多次的页面，只保留一个。

noisy 子集仅通过文档级LangID进行过滤，而 clean 子集移除所有percent_questionable分数大于20%的文档，并进一步移除少于5个句子的文档。

审计和质量控制

根据Quality at a Glance，作者对数据集中的每个语料库进行了审计。尽管作者不精通大多数语言，但他们能够对整体质量进行高层次的评论。审计包括对每种语言的20个文档样本进行检查。

审计结果显示，决定包含看起来嘈杂的语言，但排除明显以噪声为主或只有20个或更少文档的语言。这一标准较低，但确保了所有发布的语料库至少有潜在的实用价值，避免了“代表性洗涤”的问题。

许可证

该数据集以CC-BY-4.0许可证发布。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的多语言数据集对于推动跨语言模型的发展至关重要。MADLAD-400数据集基于Common Crawl的多个快照，通过半监督语言识别模型对419种语言进行文档级分类。其构建过程采用了多层次的过滤策略，包括去除短句、删除特定关键词（如“Javascript”、“lorem ipsum”）、消除重复的三句跨度，并针对低资源语言进行了温度采样以平衡数据分布。此外，针对特定语言（如中文）还实施了定制化过滤，例如移除色情内容相关字符串，确保了数据的纯净性与适用性。

特点

该数据集以其广泛的语种覆盖和精细的质量控制而著称。它囊括了419种语言，尤其关注低资源语言，通过审计机制确保每种语言的数据至少具备基本可用性。数据集提供“嘈杂”和“清洁”两个版本，前者仅经过语言识别过滤，后者则应用了包括疑问句比例检测在内的多重过滤规则。特别地，针对婆罗米系文字和缅甸语等特定语言，数据集还进行了字符校正和字体转换处理，以提升文本的一致性与可读性。

使用方法

研究人员可通过Hugging Face的`load_dataset`函数灵活加载该数据集。用户可指定语言代码（如“abt”）来获取单一语种数据，或通过`languages`参数同时加载多种语言。利用`split`参数可选择“clean”或“noisy”子集，以适应不同纯度需求。数据集中还提供了用于训练后分析的“canaries”测试序列，这些序列可按单语、多语或通用类型进行集成，便于评估模型在多语言环境下的性能与鲁棒性。

背景与挑战

背景概述

MADLAD-400数据集由AllenAI于2023年发布，旨在构建一个覆盖419种语言的文档级多语言文本语料库，其核心研究问题聚焦于解决低资源语言在自然语言处理任务中数据稀缺的困境。该数据集基于截至2022年8月的Common Crawl快照，通过半监督语言识别模型与多级过滤机制，显著提升了低资源语言数据的可及性与质量，为跨语言模型训练提供了关键支持，推动了多语言人工智能研究的边界拓展。

当前挑战

该数据集面临的挑战主要体现在两方面：其一，在领域问题层面，多语言文本生成任务需应对低资源语言数据稀疏、语言变体复杂以及跨语言语义对齐困难等核心难题；其二，在构建过程中，数据清洗面临巨大挑战，包括语言识别模型对非标准文本的误判、特定脚本（如婆罗米系文字）的字符编码错误、以及针对色情与低质内容的高效过滤，同时还需平衡过滤强度与数据召回率，确保低资源语言不被过度剔除。

常用场景

经典使用场景

在自然语言处理领域，多语言文本生成模型的训练常面临低资源语言数据稀缺的挑战。MADLAD-400数据集以其覆盖419种语言的广泛性，为大规模多语言模型预训练提供了关键支持。其文档级结构确保了文本的连贯性与上下文完整性，而经过严格过滤的“清洁”版本则显著提升了数据质量，使得研究者能够在统一的框架下探索跨语言表示学习与迁移学习的边界。

解决学术问题

该数据集有效缓解了低资源语言在机器翻译、跨语言信息检索等任务中数据匮乏的困境。通过提供经过人工审核与自动化过滤的多语言文档，它支持了语言模型在词汇、句法及语义层面的跨语言泛化能力研究。其意义在于推动了语言技术民主化，使更多小众语言得以纳入人工智能应用范畴，为语言学多样性保护与数字包容性提供了实证基础。

衍生相关工作

围绕MADLAD-400衍生的经典工作包括多语言大语言模型的架构优化研究，如探索语言间参数共享机制与低资源语言适配策略。该数据集亦催生了针对数据质量评估的新方法，例如基于“诅咒子串”检测的噪声过滤算法改进。此外，其提供的标准化语料库促进了跨机构合作，成为多项国际多语言评测基准的核心数据源，持续推动着全球语言技术生态的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集