mteb/amazon_massive_intent

Name: mteb/amazon_massive_intent
Creator: mteb
Published: 2025-05-04 16:08:03
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/amazon_massive_intent

下载链接

链接失效反馈

官方服务：

资源简介：

MASSIVE是一个包含1M个示例的多语言自然语言理解数据集，包含51种在类型学上多样化的语言。该数据集由人类标注，用于文本分类任务，并具有Apache-2.0许可证。数据集被分为每个语言配置的训练、测试和验证集。该数据集旨在大规模评估文本嵌入模型。

MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages

提供机构：

mteb

原始信息汇总

数据集概述

支持的语言

数据集支持以下语言：

数据文件配置

数据集包含多个配置，每个配置对应不同的语言，并包含训练、测试和验证数据集。以下是部分配置示例：

默认配置

路径: train/*.json.gz, test/*.json.gz, validation/*.json.gz
分割: train, test, validation

特定语言配置

泰米尔语 (ta):
- 路径: train/ta.json.gz, test/ta.json.gz, validation/ta.json.gz
- 分割: train, test, validation
冰岛语 (is):
- 路径: train/is.json.gz, test/is.json.gz, validation/is.json.gz
- 分割: train, test, validation
波兰语 (pl):
- 路径: train/pl.json.gz, test/pl.json.gz, validation/pl.json.gz
- 分割: train, test, validation
简体中文 (zh-CN):
- 路径: train/zh-CN.json.gz, test/zh-CN.json.gz, validation/zh-CN.json.gz
- 分割: train, test, validation
希腊语 (el):
- 路径: train/el.json.gz, test/el.json.gz, validation/el.json.gz
- 分割: train, test, validation
俄语 (ru):
- 路径: train/ru.json.gz, test/ru.json.gz, validation/ru.json.gz
- 分割: train, test, validation
泰卢固语 (te):
- 路径: train/te.json.gz, test/te.json.gz, validation/te.json.gz
- 分割: train, test, validation
威尔士语 (cy):
- 路径: train/cy.json.gz, test/cy.json.gz, validation/cy.json.gz
- 分割: train, test, validation
希伯来语 (he):
- 路径: train/he.json.gz, test/he.json.gz, validation/he.json.gz
- 分割: train, test, validation
德语 (de):
- 路径: train/de.json.gz, test/de.json.gz, validation/de.json.gz
- 分割: train, test, validation
南非荷兰语 (af):
- 路径: train/af.json.gz, test/af.json.gz, validation/af.json.gz
- 分割: train, test, validation
马拉雅拉姆语 (ml):
- 路径: train/ml.json.gz, test/ml.json.gz, validation/ml.json.gz
- 分割: train, test, validation
斯洛文尼亚语 (sl):
- 路径: train/sl.json.gz, test/sl.json.gz, validation/sl.json.gz
- 分割: train, test, validation
越南语 (vi):
- 路径: train/vi.json.gz, test/vi.json.gz, validation/vi.json.gz
- 分割: train, test, validation
蒙古语 (mn):
- 路径: train/mn.json.gz, test/mn.json.gz, validation/mn.json.gz
- 分割: train, test, validation
他加禄语 (tl):
- 路径: train/tl.json.gz, test/tl.json.gz, validation/tl.json.gz
- 分割: train, test, validation
意大利语 (it):
- 路径: train/it.json.gz, test/it.json.gz, validation/it.json.gz
- 分割: train, test, validation
爪哇语 (jv):
- 路径: train/jv.json.gz, test/jv.json.gz, validation/jv.json.gz
- 分割: train, test, validation
阿尔巴尼亚语 (sq):
- 路径: train/sq.json.gz, test/sq.json.gz, validation/sq.json.gz
- 分割: train, test, validation
波斯语 (fa):
- 路径: train/fa.json.gz, test/fa.json.gz, validation/fa.json.gz
- 分割: train, test, validation
挪威博克马尔语 (nb):
- 路径: train/nb.json.gz, test/nb.json.gz, validation/nb.json.gz
- 分割: train, test, validation
高棉语 (km):
- 路径: train/km.json.gz, test/km.json.gz, validation/km.json.gz
- 分割: train, test, validation
泰语 (th):
- 路径: train/th.json.gz, test/th.json.gz, validation/th.json.gz
- 分割: train, test, validation
日语 (ja):
- 路径: train/ja.json.gz, test/ja.json.gz, validation/ja.json.gz
- 分割: train, test, validation
印地语 (hi):
- 路径: train/hi.json.gz, test/hi.json.gz, validation/hi.json.gz
- 分割: train, test, validation
印度尼西亚语 (id):
- 路径: train/id.json.gz, test/id.json.gz, validation/id.json.gz
- 分割: train, test, validation
卡纳达语 (kn):
- 路径: train/kn.json.gz, test/kn.json.gz, validation/kn.json.gz
- 分割: train, test, validation
芬兰语 (fi):
- 路径: train/fi.json.gz, test/fi.json.gz, validation/fi.json.gz
- 分割: train, test, validation
乌尔都语 (ur):
- 路径: train/ur.json.gz, test/ur.json.gz, validation/ur.json.gz
- 分割: train, test, validation
缅甸语 (my):
- 路径: train/my.json.gz, test/my.json.gz, validation/my.json.gz
- 分割: train, test, validation
拉脱维亚语 (lv):
- 路径: train/lv.json.gz, test/lv.json.gz, validation/lv.json.gz
- 分割: train, test, validation
法语 (fr):
- 路径: train/fr.json.gz, test/fr.json.gz, validation/fr.json.gz
- 分割: train, test, validation
韩语 (ko):
- 路径: train/ko.json.gz, test/ko.json.gz, validation/ko.json.gz
- 分割: train, test, validation
斯瓦希里语 (sw):
- 路径: train/sw.json.gz, test/sw.json.gz, validation/sw.json.gz
- 分割: train, test, validation
瑞典语 (sv):
- 路径: train/sv.json.gz, test/sv.json.gz, validation/sv.json.gz
- 分割: train, test, validation
荷兰语 (nl):
- 路径: train/nl.json.gz, test/nl.json.gz, validation/nl.json.gz
- 分割: train, test, validation
丹麦语 (da):
- 路径: train/da.json.gz, test/da.json.gz, validation/da.json.gz
- 分割: train, test, validation
阿拉伯语 (ar):
- 路径: train/ar.json.gz, test/ar.json.gz, validation/ar.json.gz
- 分割: train, test, validation
马来语 (ms):
- 路径: train/ms.json.gz, test/ms.json.gz, validation/ms.json.gz
- 分割: train, test, validation
英语 (en):
- 路径: train/en.json.gz, test/en.json.gz, validation/en.json.gz
- 分割: train, test, validation
阿姆哈拉语 (am):
- 路径: train/am.json.gz, test/am.json.gz, validation/am.json.gz
- 分割: train, test, validation
葡萄牙语 (pt):
- 路径: train/pt.json.gz, test/pt.json.gz, validation/pt.json.gz
- 分割: train, test, validation
格鲁吉亚语 (ka):
- 路径: train/ka.json.gz, test/ka.json.gz, validation/ka.json.gz
- 分割: train, test, validation
罗马尼亚语 (ro):
- 路径: train/ro.json.gz, test/ro.json.gz, validation/ro.json.gz
- 分割: train, test, validation
土耳其语 (tr):
- 路径: train/tr.json.gz, test/tr.json.gz, validation/tr.json.gz
- 分割: train, test, validation
匈牙利语 (hu):
- 路径: train/hu.json.gz, test/hu.json.gz, validation/hu.json.gz
- 分割: train, test, validation
繁体中文 (zh-TW):
- 路径: train/zh-TW.json.gz, test/zh-TW.json.gz, validation/zh-TW.json.gz
- 分割: train, test, validation
孟加拉语 (bn):
- 路径: train/bn.json.gz, test/bn.json.gz, validation/bn.json.gz
- 分割: train, test, validation
亚美尼亚语 (hy):
- 路径: train/hy.json.gz, test/hy.json.gz, validation/hy.json.gz
- 分割: train, test, validation
西班牙语 (es):
- 路径: train/es.json.gz, test/es.json.gz, validation/es.json.gz
- 分割: train, test, validation
阿塞拜疆语 (az):
- 路径: train/az.json.gz, test/az.json.gz, validation/az.json.gz
- 分割: train, test, validation

搜集汇总

数据集介绍

构建方式

在自然语言理解领域，构建大规模、多语言数据集对于推动智能对话系统的发展至关重要。MASSIVE数据集通过精心设计的数据收集与标注流程，汇集了涵盖51种类型学多样语言的100万条示例。其构建过程依赖于专业的人工标注团队，确保每条语句的意图分类准确无误。原始语料经过系统性的翻译与本地化处理，形成了覆盖训练集、验证集与测试集的完整数据划分，为多语言意图识别任务提供了坚实的语料基础。

使用方法

在文本嵌入模型的评估实践中，该数据集可通过MTEB框架便捷调用。研究人员只需导入mteb库并指定MassiveIntentClassification任务，即可加载对应语言配置下的训练、验证与测试数据。模型评估过程自动化完成，系统将根据意图分类准确率等指标输出性能报告。数据集支持按语言代码独立加载，便于开展特定语言的模型微调或跨语言迁移学习实验，为多语言自然语言理解研究提供了标准化评测平台。

背景与挑战

背景概述

在自然语言处理领域，多语言意图识别作为对话系统的核心任务，长期面临数据稀缺与语言覆盖不足的挑战。亚马逊大规模意图分类数据集（MASSIVE）由亚马逊研究团队于2022年发布，旨在构建一个涵盖51种类型多样语言的百万级示例数据集，以推动多语言自然语言理解的研究。该数据集通过人工标注，覆盖了从非洲语到亚洲语的广泛语系，其核心研究问题在于如何实现跨语言的意图分类泛化能力，为全球范围内的智能助手和对话系统提供了重要的评估基准，显著促进了多语言嵌入模型的发展。

当前挑战

该数据集旨在解决多语言意图分类中的领域挑战，包括处理低资源语言的语义歧义、应对文化语境差异导致的意图表达变异，以及确保模型在高度不平衡的类别分布下的鲁棒性。在构建过程中，研究团队面临了跨语言数据收集与标注的复杂性，需要协调多语种标注者以保证标注一致性，同时克服机器翻译可能引入的语义失真问题，确保翻译文本在保持原意的基础上符合各语言的自然表达习惯。

常用场景

经典使用场景

在自然语言理解领域，多语言意图分类任务常面临数据稀缺的挑战。该数据集以其涵盖51种类型多样语言的百万级规模，为跨语言意图识别研究提供了经典基准。其典型应用场景在于评估和比较各类文本嵌入模型在多语言环境下的分类性能，尤其在口语化指令理解方面展现出显著价值。研究者通过该数据集能够系统考察模型对多样化语言结构和文化语境中用户意图的捕捉能力。

解决学术问题

该数据集有效解决了多语言自然语言理解中意图分类任务的标准化评估难题。通过提供大规模、高质量的多语言平行语料，它使得跨语言模型泛化能力的量化比较成为可能。其意义在于推动了低资源语言处理技术的发展，为语言类型学视角下的模型鲁棒性研究提供了实证基础。该数据集的出现促进了多语言嵌入表示学习领域的理论深化与方法创新。

实际应用

在实际应用层面，该数据集为构建全球化智能语音助手提供了关键训练资源。其涵盖的丰富意图类别和语言变体，能够支撑多语言对话系统在智能家居控制、日程管理、信息查询等场景的精准意图理解。企业可基于此数据集开发适应不同地域语言习惯的客户服务机器人，提升跨文化人机交互体验。同时，该数据集也为跨境电子商务平台的智能客服系统提供了语言适配解决方案。

数据集最近研究