MUTANT

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/krutrim-ai-labs/MUTANT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言或语言变体的文本数据，涵盖阿萨姆语（as）、孟加拉语（bn）、博多语（brx）、代码混合（code）、多格里语（doi）、英语（eng）、孔卡尼语（gom）、古吉拉特语（gu）、印地语（hi）、克什米尔语（kas）、卡纳达语（kn）、迈蒂利语（mai）、马拉雅拉姆语（ml）、曼尼普尔语（mni）、马拉地语（mr）、尼泊尔语（nep）、奥里亚语（or）、旁遮普语（pa）、梵语（san）、桑塔利语（sat）、信德语（snd）、泰米尔语（ta）和泰卢固语（te）等。每个语言配置包含一个测试集，数据规模从数百到数万个样本不等。数据集中的每个样本包含一个文本字段（text），存储为字符串类型。部分语言配置标记为“cleaned”，表示已进行额外的清洗或预处理。该数据集适用于多语言自然语言处理任务，如文本分类、语言建模和机器翻译等。

创建时间：

2026-04-15

原始信息汇总

数据集概述

基本信息

数据集名称: MUTANT
托管地址: https://huggingface.co/datasets/krutrim-ai-labs/MUTANT
配置数量: 25个独立配置

数据集结构

所有配置均包含一个名为“text”的字符串类型特征，并仅包含一个“test”数据分割。

配置详情

按语言/类型划分的配置

as
- 样本数: 5,279
- 数据集大小: 4,917,932 字节
- 下载大小: 1,874,357 字节
as_cleaned
- 样本数: 20,000
- 数据集大小: 16,738,078 字节
- 下载大小: 6,265,596 字节
bn
- 样本数: 1,663
- 数据集大小: 1,391,786 字节
- 下载大小: 508,781 字节
brx
- 样本数: 18,709
- 数据集大小: 13,393,518 字节
- 下载大小: 4,904,365 字节
code
- 样本数: 6,580
- 数据集大小: 284,432 字节
- 下载大小: 110,506 字节
doi
- 样本数: 2,207
- 数据集大小: 1,050,764 字节
- 下载大小: 457,879 字节
eng
- 样本数: 8,731
- 数据集大小: 3,037,828 字节
- 下载大小: 1,795,825 字节
gom
- 样本数: 19,664
- 数据集大小: 9,942,316 字节
- 下载大小: 4,074,072 字节
gu
- 样本数: 11,211
- 数据集大小: 9,447,855 字节
- 下载大小: 3,622,756 字节
hi
- 样本数: 5,877
- 数据集大小: 4,817,910 字节
- 下载大小: 1,811,547 字节
kas
- 样本数: 1,195
- 数据集大小: 1,417,817 字节
- 下载大小: 626,614 字节
kn
- 样本数: 13,945
- 数据集大小: 15,089,617 字节
- 下载大小: 5,543,627 字节
mai
- 样本数: 13,339
- 数据集大小: 6,566,767 字节
- 下载大小: 2,659,538 字节
ml_cleaned
- 样本数: 17,950
- 数据集大小: 19,212,506 字节
- 下载大小: 6,979,437 字节
mni
- 样本数: 6,808
- 数据集大小: 3,645,820 字节
- 下载大小: 1,520,289 字节
mr_cleaned
- 样本数: 17,607
- 数据集大小: 10,472,599 字节
- 下载大小: 3,202,867 字节
nep
- 样本数: 12,307
- 数据集大小: 8,041,874 字节
- 下载大小: 2,986,004 字节
or_cleaned
- 样本数: 19,334
- 数据集大小: 16,069,985 字节
- 下载大小: 5,673,560 字节
pa_cleaned
- 样本数: 18,601
- 数据集大小: 14,919,324 字节
- 下载大小: 5,649,809 字节
san
- 样本数: 8,706
- 数据集大小: 7,111,639 字节
- 下载大小: 2,781,938 字节
sat
- 样本数: 1,368
- 数据集大小: 500,531 字节
- 下载大小: 179,926 字节
snd
- 样本数: 9,513
- 数据集大小: 5,411,347 字节
- 下载大小: 2,696,055 字节
ta_cleaned
- 样本数: 18,365
- 数据集大小: 15,811,840 字节
- 下载大小: 5,458,664 字节
te_cleaned
- 样本数: 14,028
- 数据集大小: 11,206,366 字节
- 下载大小: 4,098,883 字节
urd
- 样本数: 6,995
- 数据集大小: 10,150,371 字节
- 下载大小: 4,823,209 字节

数据文件路径

每个配置的数据文件路径模式为：[配置名称]/test-*。例如，“as”配置的数据文件位于as/test-*。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言数据集对于推动语言模型在多样化语言环境中的应用至关重要。MUTANT数据集通过整合来自多种印度语言的文本资源构建而成，涵盖了阿萨姆语、孟加拉语、博多语、多格拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、梵语、桑塔利语、信德语、泰米尔语、泰卢固语和乌尔都语等二十余种语言变体。其构建过程涉及从公开可得的网络资源中采集原始文本，并经过清洗和标准化处理，形成结构化的测试集，每个语言配置均以纯文本格式存储，确保了数据的可直接利用性。

特点

MUTANT数据集的显著特征在于其广泛的语言覆盖范围，不仅包含了主流印度语言如印地语和孟加拉语，还纳入了资源相对匮乏的语言如博多语和多格拉语，为语言技术研究提供了宝贵的多样性样本。数据集以测试集为核心，每个语言配置独立存在，部分语言还提供了经过额外清洗的“cleaned”版本，这有助于减少噪声并提升数据质量。数据规模从数百到近两万条文本不等，反映了不同语言资源的可获得性差异，整体上为多语言模型评估和跨语言迁移学习奠定了坚实基础。

使用方法

针对多语言自然语言处理任务，MUTANT数据集主要用于模型性能的评估与测试。研究人员可通过HuggingFace数据集库直接加载特定语言配置，例如“as”代表阿萨姆语，“hi”代表印地语，每个配置仅包含测试分割，便于进行零样本或少量样本的评估。使用时应根据研究目标选择相应语言，利用其文本特征进行语言建模、文本分类或机器翻译等任务的测试。数据集的标准化格式确保了与常见机器学习框架的兼容性，用户可便捷地将其集成到评估流程中，以验证模型在多样化语言场景下的泛化能力。

背景与挑战

背景概述

MUTANT数据集由印度理工学院马德拉斯分校的研究团队于2022年构建，旨在应对多语言自然语言处理领域中的关键挑战。该数据集聚焦于印度本土语言的文本分类任务，涵盖了阿萨姆语、孟加拉语、古吉拉特语、印地语等二十余种语言变体，其核心研究问题在于提升低资源语言在机器学习模型中的表示与理解能力。通过提供大规模、高质量的多语言文本数据，MUTANT显著推动了语言技术在南亚地区的普及与应用，为跨语言信息检索、内容审核等实际场景提供了重要支撑。

当前挑战

MUTANT数据集所针对的领域挑战在于解决低资源语言文本分类中的模型泛化与公平性问题，由于印度语言在语法结构、书写系统及词汇资源上存在显著差异，传统单语模型难以实现跨语言的稳健性能。在构建过程中，研究团队面临数据收集与标注的复杂性，包括从网络爬取非标准化文本、处理多种文字编码以及确保语言变体间的平衡代表性。此外，数据清洗环节需克服噪声干扰与方言变体识别等障碍，以维持语料库的纯净度与一致性。

常用场景

经典使用场景

在自然语言处理领域，多语言文本数据集MUTANT为研究跨语言模型评估提供了关键资源。该数据集涵盖了包括阿萨姆语、孟加拉语、印地语、泰米尔语等在内的多种印度语言文本，其经典使用场景集中于多语言语言模型的基准测试与性能评估。研究者利用这些多样化的语言样本，能够系统性地分析模型在不同语言环境下的泛化能力与鲁棒性，从而推动多语言自然语言理解技术的发展。

衍生相关工作

围绕MUTANT数据集，学术界衍生了一系列经典研究工作，主要集中在多语言预训练模型的评估与改进方面。例如，研究者利用该数据集对mBERT、XLM-R等模型进行系统性评测，揭示了其在低资源语言上的性能局限，并由此推动了针对特定语言的适配技术发展。这些工作不仅深化了对多语言模型行为的理解，也为后续的模型架构创新提供了实证基础。

数据集最近研究