MASSIVE

github2022-11-29 更新2024-05-31 收录

下载链接：

https://github.com/alexa/massive

下载链接

链接失效反馈

官方服务：

资源简介：

MASSIVE是一个包含超过100万条跨52种语言的平行数据集，用于自然语言理解任务，包括意图预测和槽位标注。数据集涵盖60种意图和55种槽位类型，由本地化[SLURP](https://github.com/pswietojanski/slurp)数据集创建，包含通用智能语音助手的单次交互。

MASSIVE is a parallel dataset comprising over 1 million entries across 52 languages, designed for natural language understanding tasks such as intent prediction and slot filling. The dataset encompasses 60 intents and 55 slot types, derived from the localized [SLURP](https://github.com/pswietojanski/slurp) dataset, and includes single-turn interactions typical of general-purpose intelligent voice assistants.

创建时间：

2022-04-15

原始信息汇总

数据集概述

数据集名称

MASSIVE

数据集版本

MASSIVE 1.0
MASSIVE 1.1 (新增加泰罗尼亚语数据)

数据集内容

MASSIVE是一个包含超过100万条跨52种语言的平行语料库，用于自然语言理解任务，包括意图预测和槽位标注。语料库涵盖60个意图和55个槽位类型。

数据集结构

数据集组织为JSON行文件，每个语言环境（根据ISO-639-1和ISO-3166惯例）有自己的文件，包含所有数据集分区。

数据集下载

MASSIVE 1.0: 下载链接
MASSIVE 1.1: 下载链接

数据集使用

数据集可用于训练意图分类和槽位填充模型，支持的模型包括基于预训练的XLM-R Base或mT5编码器与JointBERT风格的分类头。

数据集评估

评估可通过eval.ai上的MASSIVE Leaderboard进行，使用MASSIVE 1.0数据集。

数据集更新

Nov 28: 发布MASSIVE 1.1，包含加泰罗尼亚语数据。

数据集引用

引用MASSIVE时，应同时引用MASSIVE论文和SLURP论文。

数据集组织

MASSIVE数据集由本地化的SLURP数据集创建，SLURP数据集由通用智能语音助手单次交互组成。

搜集汇总

数据集介绍

构建方式

MASSIVE数据集的构建基于对SLURP数据集的本地化处理，涵盖了52种语言的超过100万条语句。每条语句均标注了意图预测和槽位填充任务，涉及60种意图和55种槽位类型。通过将SLURP数据集中的英语语句翻译并本地化为多种语言，确保了数据集的多样性和广泛性。数据集的构建过程中，使用了众包平台Amazon Mechanical Turk进行语句的翻译和标注，确保了数据的质量和一致性。

特点

MASSIVE数据集的特点在于其大规模、多语言覆盖以及丰富的任务标注。数据集涵盖了52种语言，每种语言的数据均经过本地化处理，确保了语言的自然性和文化适应性。此外，数据集中的每条语句都标注了意图和槽位信息，适用于自然语言理解任务的研究和开发。数据集还提供了详细的元数据，如语句的分区、场景、意图、槽位标注方法等，为研究者提供了丰富的信息支持。

使用方法

MASSIVE数据集的使用方法包括数据下载、预处理和模型训练。用户可以通过提供的链接下载数据集，并使用提供的脚本将数据转换为Apache Arrow格式，以便于在Hugging Face的`datasets`库中使用。数据集支持意图分类和槽位填充任务的训练，用户可以使用预训练的XLM-R或mT5模型进行训练，并通过提供的训练脚本进行分布式训练。此外，数据集还支持序列到序列模型的训练，适用于更复杂的自然语言理解任务。

背景与挑战

背景概述

MASSIVE数据集由亚马逊科学团队于2022年发布，旨在为多语言自然语言理解（NLU）任务提供大规模、多样化的语料支持。该数据集基于SLURP数据集进行本地化扩展，涵盖了52种语言，包含超过100万条标注数据，涉及60种意图和55种槽位类型。MASSIVE的发布为多语言意图识别和槽位填充任务提供了重要的基准数据，推动了多语言NLU领域的研究进展。其核心研究问题在于如何通过大规模多语言数据提升智能语音助手的跨语言理解能力，尤其是在低资源语言上的表现。该数据集已在学术界和工业界产生了广泛影响，成为多语言NLU研究的重要资源之一。

当前挑战

MASSIVE数据集在构建和应用过程中面临多重挑战。首先，多语言数据的收集与标注需要克服语言多样性带来的复杂性，尤其是在低资源语言上，确保数据的质量和一致性尤为困难。其次，意图识别和槽位填充任务本身具有较高的语义复杂性，尤其是在跨语言场景下，如何准确捕捉语言间的细微差异成为一大难题。此外，数据集的构建过程中，本地化任务需要处理不同语言的文化和表达习惯差异，这对标注人员的语言能力和领域知识提出了极高要求。最后，如何在多语言模型中平衡高资源语言和低资源语言的性能，避免模型偏向高资源语言，也是该数据集应用中的关键挑战。

常用场景

经典使用场景

MASSIVE数据集在自然语言理解（NLU）领域中被广泛用于意图预测和槽位标注任务。该数据集包含了52种语言的超过100万条平行语料，涵盖了60种意图和55种槽位类型。研究人员通常利用MASSIVE数据集来训练和评估多语言NLU模型，尤其是在跨语言迁移学习和低资源语言处理方面，该数据集提供了丰富的实验基础。

实际应用

MASSIVE数据集在实际应用中具有广泛的潜力，尤其是在智能语音助手和跨语言对话系统的开发中。通过利用该数据集，开发者可以训练出支持多种语言的语音助手，使其能够理解并响应用户的多样化需求。此外，该数据集还可用于构建多语言客服系统，帮助企业更好地服务全球客户，提升用户体验。

衍生相关工作

MASSIVE数据集的发布催生了一系列相关研究工作，尤其是在多语言NLU模型的训练和评估方面。基于该数据集，研究人员提出了多种跨语言迁移学习方法和低资源语言处理技术。例如，一些研究团队利用MASSIVE数据集开发了基于XLM-R和mT5的预训练模型，显著提升了多语言意图识别和槽位填充的性能。此外，该数据集还推动了多语言NLU竞赛的举办，吸引了全球研究者的广泛参与。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集