AmazonScience/massive

Name: AmazonScience/massive
Creator: AmazonScience
Published: 2022-11-16 15:44:51
License: 暂无描述

Hugging Face2022-11-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AmazonScience/massive

下载链接

链接失效反馈

官方服务：

资源简介：

MASSIVE 1.1是一个包含超过100万条话语的并行数据集，涵盖了52种语言，用于自然语言理解任务，如意图预测和槽位标注。话语涵盖了60种意图和55种槽位类型。MASSIVE是通过本地化SLURP数据集创建的，SLURP数据集由通用智能语音助手的单次交互组成。

MASSIVE 1.1 is a parallel dataset containing over 1 million utterances across 52 languages, designed for natural language understanding (NLU) tasks such as intent prediction and slot tagging. The utterances included in the dataset cover 60 intent categories and 55 slot types. MASSIVE was developed by localizing the SLURP dataset, which is composed of single-turn interactions from general-purpose intelligent voice assistants.

提供机构：

AmazonScience

原始信息汇总

MASSIVE 1.1 数据集概述

数据集描述

数据集摘要

MASSIVE 1.1 是一个包含超过100万个话语的平行数据集，涵盖52种语言，用于自然语言理解任务，包括意图预测和槽位标注。该数据集包含60种意图和55种槽位类型，由本地化的SLURP数据集创建，该数据集由一般智能语音助手的单次交互组成。

支持的任务和排行榜

该数据集可用于训练模型进行自然语言理解（NLU）任务，包括：

意图分类
多类别分类
自然语言理解

语言

MASSIVE 1.1 数据集包含52种语言的平行句子，包括但不限于：

南非荷兰语 (af-ZA)
阿姆哈拉语 (am-ET)
阿拉伯语 (ar-SA)
阿塞拜疆语 (az-AZ)
孟加拉语 (bn-BD)
中文 (zh-CN)
中文 (zh-TW)
丹麦语 (da-DK)
德语 (de-DE)
英语 (en-US)
西班牙语 (es-ES)
法语 (fr-FR)
意大利语 (it-IT)
日语 (ja-JP)
韩语 (ko-KR)
俄语 (ru-RU)
土耳其语 (tr-TR)
越南语 (vi-VN)

数据集结构

数据实例

数据集中的每个实例包含以下字段：

id: 原始ID
locale: 语言和国家代码
partition: 数据分割（训练、开发或测试）
scenario: 话语的一般领域
intent: 特定意图
utt: 未经标注的话语文本
annot_utt: 带槽位标注的话语文本
worker_id: 完成本地化话语的工人的MTurk ID
slot_method: 槽位处理方法
judgments: 对本地化话语的评价

数据字段

id: 映射到原始SLURP集合中的ID
locale: 根据ISO-639-1和ISO-3166的语言和国家代码
partition: 根据SLURP的原始分割
scenario: 话语的通用领域
intent: 话语的特定意图
utt: 未经标注的话语文本
annot_utt: 带槽位标注的话语文本
worker_id: 完成本地化话语的工人的MTurk ID
slot_method: 槽位处理方法
judgments: 对本地化话语的评价

数据分割

数据集在不同语言中的分割如下：

语言	训练	开发	测试
af-ZA	11514	2033	2974
...	...	...	...
zh-TW	11514	2033	2974

数据集创建

来源数据

初始数据收集和规范化: 数据集由本地化的SLURP数据集创建。
源语言生产者: 数据由专家生成。

个人和敏感信息

数据集不含个人或敏感信息。

许可证信息

数据集根据Creative Commons Attribution 4.0 International Public License授权。

搜集汇总

数据集介绍

构建方式

在自然语言理解领域，构建多语言数据集对于推动智能语音助手技术的全球化应用至关重要。MASSIVE数据集的构建以SLURP数据集为基础，通过专业翻译与本地化流程，将原始英语语料精准转化为52种语言的平行语料。该过程依托专家生成与人工标注相结合的方式，确保每种语言版本的语义一致性与文化适应性，最终形成涵盖超过一百万条语句的大规模语料库，为多语言意图识别与槽位标注研究提供了坚实的数据基础。

使用方法

利用MASSIVE数据集进行自然语言理解研究时，可通过HuggingFace平台便捷加载特定语言子集，例如使用`load_dataset("AmazonScience/massive", "en-US", split='train')`指令获取英语训练数据。数据集中每个实例均包含原始语句、标注语句及详细的意图与槽位信息，支持意图分类与多类别分类任务的模型训练与评估。研究者可依据数据分割表划分训练集、验证集与测试集，结合提供的质量评分元数据，深入分析模型在不同语言与文化背景下的性能表现。

背景与挑战

背景概述

在自然语言理解领域，多语言智能语音助手的发展对跨语言语义解析提出了迫切需求。MASSIVE数据集由亚马逊科学团队于2022年创建，旨在通过涵盖52种类型学多样语言的百万级平行语料库，解决多语言意图识别与槽位标注的核心研究问题。该数据集基于SLURP数据集进行本地化构建，覆盖18个领域和60种意图，为低资源语言的自然语言理解模型训练提供了重要基准，显著推动了多语言对话系统的研究进程。

当前挑战

MASSIVE数据集致力于应对多语言自然语言理解中意图分类与槽位标注的复杂挑战，其核心难点在于处理语言间的语法结构差异、文化特定表达以及低资源语言的标注稀疏性问题。在构建过程中，团队面临跨语言本地化的质量把控难题，需通过人工翻译与本地化策略平衡语义一致性与语言自然度，同时确保52种语言在18个领域中的标注准确性与并行性，这对众包流程设计与多轮质量评估机制提出了极高要求。

常用场景

经典使用场景

在自然语言理解领域，MASSIVE数据集为多语言意图分类与槽位标注任务提供了经典范例。该数据集覆盖52种语言，包含超过一百万条平行语料，广泛用于训练和评估跨语言对话系统模型。研究者常利用其丰富的标注信息，探索多语言环境下意图识别与语义解析的通用性，为智能语音助手等应用奠定基础。

解决学术问题

MASSIVE数据集有效解决了多语言自然语言理解研究中数据稀缺与语言多样性不足的难题。通过提供大规模平行语料，该数据集支持跨语言迁移学习、低资源语言模型优化等前沿研究，显著提升了模型在非英语语言上的泛化能力。其标注体系为意图与槽位联合建模提供了统一框架，推动了语义解析技术的标准化发展。

实际应用

在实际应用中，MASSIVE数据集为全球化智能语音助手的本地化部署提供了关键支持。企业可基于该数据集训练多语言对话系统，实现跨地域的用户意图理解，覆盖从闹钟设置到信息查询等日常场景。其涵盖的52种语言包括诸多低资源语种，有助于科技公司拓展新兴市场，提升语音交互服务的包容性与可及性。

数据集最近研究