five

mteb/amazon_massive_intent

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/amazon_massive_intent
下载链接
链接失效反馈
官方服务:
资源简介:
MASSIVE是一个包含1M个示例的多语言自然语言理解数据集,包含51种在类型学上多样化的语言。该数据集由人类标注,用于文本分类任务,并具有Apache-2.0许可证。数据集被分为每个语言配置的训练、测试和验证集。该数据集旨在大规模评估文本嵌入模型。

MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages
提供机构:
mteb
原始信息汇总

数据集概述

支持的语言

数据集支持以下语言:

  • af
  • am
  • ar
  • az
  • bn
  • cy
  • da
  • de
  • el
  • en
  • es
  • fa
  • fr
  • he
  • hi
  • hu
  • hy
  • id
  • is
  • it
  • ja
  • jv
  • ka
  • km
  • kn
  • ko
  • lv
  • ml
  • mn
  • ms
  • my
  • nb
  • nl
  • pl
  • pt
  • ro
  • ru
  • sl
  • sq
  • sv
  • sw
  • ta
  • te
  • th
  • tl
  • tr
  • ur
  • vi
  • zh

数据文件配置

数据集包含多个配置,每个配置对应不同的语言,并包含训练、测试和验证数据集。以下是部分配置示例:

默认配置

  • 路径: train/*.json.gz, test/*.json.gz, validation/*.json.gz
  • 分割: train, test, validation

特定语言配置

  • 泰米尔语 (ta):

    • 路径: train/ta.json.gz, test/ta.json.gz, validation/ta.json.gz
    • 分割: train, test, validation
  • 冰岛语 (is):

    • 路径: train/is.json.gz, test/is.json.gz, validation/is.json.gz
    • 分割: train, test, validation
  • 波兰语 (pl):

    • 路径: train/pl.json.gz, test/pl.json.gz, validation/pl.json.gz
    • 分割: train, test, validation
  • 简体中文 (zh-CN):

    • 路径: train/zh-CN.json.gz, test/zh-CN.json.gz, validation/zh-CN.json.gz
    • 分割: train, test, validation
  • 希腊语 (el):

    • 路径: train/el.json.gz, test/el.json.gz, validation/el.json.gz
    • 分割: train, test, validation
  • 俄语 (ru):

    • 路径: train/ru.json.gz, test/ru.json.gz, validation/ru.json.gz
    • 分割: train, test, validation
  • 泰卢固语 (te):

    • 路径: train/te.json.gz, test/te.json.gz, validation/te.json.gz
    • 分割: train, test, validation
  • 威尔士语 (cy):

    • 路径: train/cy.json.gz, test/cy.json.gz, validation/cy.json.gz
    • 分割: train, test, validation
  • 希伯来语 (he):

    • 路径: train/he.json.gz, test/he.json.gz, validation/he.json.gz
    • 分割: train, test, validation
  • 德语 (de):

    • 路径: train/de.json.gz, test/de.json.gz, validation/de.json.gz
    • 分割: train, test, validation
  • 南非荷兰语 (af):

    • 路径: train/af.json.gz, test/af.json.gz, validation/af.json.gz
    • 分割: train, test, validation
  • 马拉雅拉姆语 (ml):

    • 路径: train/ml.json.gz, test/ml.json.gz, validation/ml.json.gz
    • 分割: train, test, validation
  • 斯洛文尼亚语 (sl):

    • 路径: train/sl.json.gz, test/sl.json.gz, validation/sl.json.gz
    • 分割: train, test, validation
  • 越南语 (vi):

    • 路径: train/vi.json.gz, test/vi.json.gz, validation/vi.json.gz
    • 分割: train, test, validation
  • 蒙古语 (mn):

    • 路径: train/mn.json.gz, test/mn.json.gz, validation/mn.json.gz
    • 分割: train, test, validation
  • 他加禄语 (tl):

    • 路径: train/tl.json.gz, test/tl.json.gz, validation/tl.json.gz
    • 分割: train, test, validation
  • 意大利语 (it):

    • 路径: train/it.json.gz, test/it.json.gz, validation/it.json.gz
    • 分割: train, test, validation
  • 爪哇语 (jv):

    • 路径: train/jv.json.gz, test/jv.json.gz, validation/jv.json.gz
    • 分割: train, test, validation
  • 阿尔巴尼亚语 (sq):

    • 路径: train/sq.json.gz, test/sq.json.gz, validation/sq.json.gz
    • 分割: train, test, validation
  • 波斯语 (fa):

    • 路径: train/fa.json.gz, test/fa.json.gz, validation/fa.json.gz
    • 分割: train, test, validation
  • 挪威博克马尔语 (nb):

    • 路径: train/nb.json.gz, test/nb.json.gz, validation/nb.json.gz
    • 分割: train, test, validation
  • 高棉语 (km):

    • 路径: train/km.json.gz, test/km.json.gz, validation/km.json.gz
    • 分割: train, test, validation
  • 泰语 (th):

    • 路径: train/th.json.gz, test/th.json.gz, validation/th.json.gz
    • 分割: train, test, validation
  • 日语 (ja):

    • 路径: train/ja.json.gz, test/ja.json.gz, validation/ja.json.gz
    • 分割: train, test, validation
  • 印地语 (hi):

    • 路径: train/hi.json.gz, test/hi.json.gz, validation/hi.json.gz
    • 分割: train, test, validation
  • 印度尼西亚语 (id):

    • 路径: train/id.json.gz, test/id.json.gz, validation/id.json.gz
    • 分割: train, test, validation
  • 卡纳达语 (kn):

    • 路径: train/kn.json.gz, test/kn.json.gz, validation/kn.json.gz
    • 分割: train, test, validation
  • 芬兰语 (fi):

    • 路径: train/fi.json.gz, test/fi.json.gz, validation/fi.json.gz
    • 分割: train, test, validation
  • 乌尔都语 (ur):

    • 路径: train/ur.json.gz, test/ur.json.gz, validation/ur.json.gz
    • 分割: train, test, validation
  • 缅甸语 (my):

    • 路径: train/my.json.gz, test/my.json.gz, validation/my.json.gz
    • 分割: train, test, validation
  • 拉脱维亚语 (lv):

    • 路径: train/lv.json.gz, test/lv.json.gz, validation/lv.json.gz
    • 分割: train, test, validation
  • 法语 (fr):

    • 路径: train/fr.json.gz, test/fr.json.gz, validation/fr.json.gz
    • 分割: train, test, validation
  • 韩语 (ko):

    • 路径: train/ko.json.gz, test/ko.json.gz, validation/ko.json.gz
    • 分割: train, test, validation
  • 斯瓦希里语 (sw):

    • 路径: train/sw.json.gz, test/sw.json.gz, validation/sw.json.gz
    • 分割: train, test, validation
  • 瑞典语 (sv):

    • 路径: train/sv.json.gz, test/sv.json.gz, validation/sv.json.gz
    • 分割: train, test, validation
  • 荷兰语 (nl):

    • 路径: train/nl.json.gz, test/nl.json.gz, validation/nl.json.gz
    • 分割: train, test, validation
  • 丹麦语 (da):

    • 路径: train/da.json.gz, test/da.json.gz, validation/da.json.gz
    • 分割: train, test, validation
  • 阿拉伯语 (ar):

    • 路径: train/ar.json.gz, test/ar.json.gz, validation/ar.json.gz
    • 分割: train, test, validation
  • 马来语 (ms):

    • 路径: train/ms.json.gz, test/ms.json.gz, validation/ms.json.gz
    • 分割: train, test, validation
  • 英语 (en):

    • 路径: train/en.json.gz, test/en.json.gz, validation/en.json.gz
    • 分割: train, test, validation
  • 阿姆哈拉语 (am):

    • 路径: train/am.json.gz, test/am.json.gz, validation/am.json.gz
    • 分割: train, test, validation
  • 葡萄牙语 (pt):

    • 路径: train/pt.json.gz, test/pt.json.gz, validation/pt.json.gz
    • 分割: train, test, validation
  • 格鲁吉亚语 (ka):

    • 路径: train/ka.json.gz, test/ka.json.gz, validation/ka.json.gz
    • 分割: train, test, validation
  • 罗马尼亚语 (ro):

    • 路径: train/ro.json.gz, test/ro.json.gz, validation/ro.json.gz
    • 分割: train, test, validation
  • 土耳其语 (tr):

    • 路径: train/tr.json.gz, test/tr.json.gz, validation/tr.json.gz
    • 分割: train, test, validation
  • 匈牙利语 (hu):

    • 路径: train/hu.json.gz, test/hu.json.gz, validation/hu.json.gz
    • 分割: train, test, validation
  • 繁体中文 (zh-TW):

    • 路径: train/zh-TW.json.gz, test/zh-TW.json.gz, validation/zh-TW.json.gz
    • 分割: train, test, validation
  • 孟加拉语 (bn):

    • 路径: train/bn.json.gz, test/bn.json.gz, validation/bn.json.gz
    • 分割: train, test, validation
  • 亚美尼亚语 (hy):

    • 路径: train/hy.json.gz, test/hy.json.gz, validation/hy.json.gz
    • 分割: train, test, validation
  • 西班牙语 (es):

    • 路径: train/es.json.gz, test/es.json.gz, validation/es.json.gz
    • 分割: train, test, validation
  • 阿塞拜疆语 (az):

    • 路径: train/az.json.gz, test/az.json.gz, validation/az.json.gz
    • 分割: train, test, validation
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言理解领域,构建大规模、多语言数据集对于推动智能对话系统的发展至关重要。MASSIVE数据集通过精心设计的数据收集与标注流程,汇集了涵盖51种类型学多样语言的100万条示例。其构建过程依赖于专业的人工标注团队,确保每条语句的意图分类准确无误。原始语料经过系统性的翻译与本地化处理,形成了覆盖训练集、验证集与测试集的完整数据划分,为多语言意图识别任务提供了坚实的语料基础。
使用方法
在文本嵌入模型的评估实践中,该数据集可通过MTEB框架便捷调用。研究人员只需导入mteb库并指定MassiveIntentClassification任务,即可加载对应语言配置下的训练、验证与测试数据。模型评估过程自动化完成,系统将根据意图分类准确率等指标输出性能报告。数据集支持按语言代码独立加载,便于开展特定语言的模型微调或跨语言迁移学习实验,为多语言自然语言理解研究提供了标准化评测平台。
背景与挑战
背景概述
在自然语言处理领域,多语言意图识别作为对话系统的核心任务,长期面临数据稀缺与语言覆盖不足的挑战。亚马逊大规模意图分类数据集(MASSIVE)由亚马逊研究团队于2022年发布,旨在构建一个涵盖51种类型多样语言的百万级示例数据集,以推动多语言自然语言理解的研究。该数据集通过人工标注,覆盖了从非洲语到亚洲语的广泛语系,其核心研究问题在于如何实现跨语言的意图分类泛化能力,为全球范围内的智能助手和对话系统提供了重要的评估基准,显著促进了多语言嵌入模型的发展。
当前挑战
该数据集旨在解决多语言意图分类中的领域挑战,包括处理低资源语言的语义歧义、应对文化语境差异导致的意图表达变异,以及确保模型在高度不平衡的类别分布下的鲁棒性。在构建过程中,研究团队面临了跨语言数据收集与标注的复杂性,需要协调多语种标注者以保证标注一致性,同时克服机器翻译可能引入的语义失真问题,确保翻译文本在保持原意的基础上符合各语言的自然表达习惯。
常用场景
经典使用场景
在自然语言理解领域,多语言意图分类任务常面临数据稀缺的挑战。该数据集以其涵盖51种类型多样语言的百万级规模,为跨语言意图识别研究提供了经典基准。其典型应用场景在于评估和比较各类文本嵌入模型在多语言环境下的分类性能,尤其在口语化指令理解方面展现出显著价值。研究者通过该数据集能够系统考察模型对多样化语言结构和文化语境中用户意图的捕捉能力。
解决学术问题
该数据集有效解决了多语言自然语言理解中意图分类任务的标准化评估难题。通过提供大规模、高质量的多语言平行语料,它使得跨语言模型泛化能力的量化比较成为可能。其意义在于推动了低资源语言处理技术的发展,为语言类型学视角下的模型鲁棒性研究提供了实证基础。该数据集的出现促进了多语言嵌入表示学习领域的理论深化与方法创新。
实际应用
在实际应用层面,该数据集为构建全球化智能语音助手提供了关键训练资源。其涵盖的丰富意图类别和语言变体,能够支撑多语言对话系统在智能家居控制、日程管理、信息查询等场景的精准意图理解。企业可基于此数据集开发适应不同地域语言习惯的客户服务机器人,提升跨文化人机交互体验。同时,该数据集也为跨境电子商务平台的智能客服系统提供了语言适配解决方案。
数据集最近研究
最新研究方向
在自然语言理解领域,多语言意图分类正成为智能助手与对话系统研究的核心议题。MTEB框架下的MASSIVE数据集以其涵盖51种类型多样语言的庞大规模,为探索低资源语言场景下的模型泛化能力提供了宝贵资源。当前研究聚焦于跨语言迁移学习与零样本意图识别,借助多语言预训练模型如XLM-R和mT5,旨在解决语言间数据分布不均衡与语义鸿沟问题。随着全球数字服务普及,该数据集推动了多语言对话系统在智能家居、客户服务等场景的公平性评估,其影响延伸至消除语言技术鸿沟,促进包容性人工智能发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作