Speech-MASSIVE
收藏github2024-06-11 更新2024-06-12 收录
下载链接:
https://github.com/hlt-mt/Speech-MASSIVE
下载链接
链接失效反馈官方服务:
资源简介:
Speech-MASSIVE是一个多语言口语理解数据集,包含12种语言的语音数据,用于意图预测和槽填充任务。该数据集覆盖18个领域,包含60种意图和55个槽位,旨在评估基础模型在多语言和多任务环境下的性能。
Speech-MASSIVE is a multilingual spoken language understanding dataset that encompasses speech data in 12 languages, designed for intent prediction and slot filling tasks. The dataset spans 18 domains, featuring 60 intents and 55 slots, and aims to evaluate the performance of foundational models in multilingual and multitask environments.
创建时间:
2024-06-11
原始信息汇总
数据集概述
名称: Speech-MASSIVE
类型: 多语言口语语言理解(SLU)数据集
语言覆盖: 12种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、欧洲葡萄牙语、俄语、土耳其语和越南语。
任务: 意图预测和槽填充
数据集结构:
- 全训练集: 提供法语和德语的全训练集。
- 少样本训练集: 为所有12种语言提供少样本训练集(115个样本),覆盖18个领域、60个意图和55个槽(包括空槽)。
- 开发集和测试集: 为所有12种语言提供。
许可: CC-BY-SA-4.0
数据统计
| 语言 | 分割 | 样本数 | 小时数 | 总发言人数 (男/女/未识别) |
|---|---|---|---|---|
| ar-SA | few-shot train | 115 | 0.14 | 8 (4/4/0) |
| dev | 2033 | 2.12 | 36 (22/14/0) | |
| test | 2974 | 3.23 | 37 (15/17/5) | |
| de-DE | train-full | 11514 | 12.61 | 117 (50/63/4) |
| few-shot train | 115 | 0.15 | 7 (3/4/0) | |
| dev | 2033 | 2.33 | 68 (35/32/1) | |
| test | 2974 | 3.41 | 82 (36/36/10) | |
| es-ES | few-shot train | 115 | 0.13 | 7 (3/4/0) |
| dev | 2033 | 2.53 | 109 (51/53/5) | |
| test | 2974 | 3.61 | 85 (37/33/15) | |
| fr-FR | train-full | 11514 | 12.42 | 103 (50/52/1) |
| few-shot train | 115 | 0.12 | 103 (50/52/1) | |
| dev | 2033 | 2.20 | 55 (26/26/3) | |
| test | 2974 | 2.65 | 75 (31/35/9) | |
| hu-HU | few-shot train | 115 | 0.12 | 8 (3/4/1) |
| dev | 2033 | 2.27 | 69 (33/33/3) | |
| test | 2974 | 3.30 | 55 (25/24/6) | |
| ko-KR | few-shot train | 115 | 0.14 | 8 (4/4/0) |
| dev | 2033 | 2.12 | 21 (8/13/0) | |
| test | 2974 | 2.66 | 31 (10/18/3) | |
| nl-NL | few-shot train | 115 | 0.12 | 7 (3/4/0) |
| dev | 2033 | 2.14 | 37 (17/19/1) | |
| test | 2974 | 3.30 | 100 (48/49/3) | |
| pl-PL | few-shot train | 115 | 0.10 | 7 (3/4/0) |
| dev | 2033 | 2.24 | 105 (50/52/3) | |
| test | 2974 | 3.21 | 151 (73/71/7) | |
| pt-PT | few-shot train | 115 | 0.12 | 8 (4/4/0) |
| dev | 2033 | 2.20 | 107 (51/53/3) | |
| test | 2974 | 3.25 | 102 (48/50/4) | |
| ru-RU | few-shot train | 115 | 0.12 | 7 (3/4/0) |
| dev | 2033 | 2.25 | 40 (7/31/2) | |
| test | 2974 | 3.44 | 51 (25/23/3) | |
| tr-TR | few-shot train | 115 | 0.11 | 6 (3/3/0) |
| dev | 2033 | 2.17 | 71 (36/34/1) | |
| test | 2974 | 3.00 | 42 (17/18/7) | |
| vi-VN | few-shot train | 115 | 0.11 | 7 (2/4/1) |
| dev | 2033 | 2.10 | 28 (13/14/1) | |
| test | 2974 | 3.23 | 30 (11/14/5) |
引用信息
MASSIVE论文:
@misc{fitzgerald2022massive, title={MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages}, author={Jack FitzGerald and Christopher Hench and Charith Peris and Scott Mackie and Kay Rottmann and Ana Sanchez and Aaron Nash and Liam Urbach and Vishesh Kakarala and Richa Singh and Swetha Ranganath and Laurie Crist and Misha Britan and Wouter Leeuwis and Gokhan Tur and Prem Natarajan}, year={2022}, eprint={2204.08582}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
Speech-MASSIVE数据集的构建基于MASSIVE文本语料库的一部分,涵盖了12种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。该数据集继承了MASSIVE的意图预测和槽填充任务的标注,涉及18个领域、60个意图和55个槽位。数据集提供了法语和德语的完整训练集,以及所有12种语言的少量样本训练、开发和测试集。少量样本训练集包含115个示例,覆盖所有18个领域、60个意图和55个槽位,包括空槽位。
特点
Speech-MASSIVE数据集的主要特点在于其多语言覆盖和任务多样性。该数据集不仅涵盖了12种不同语言,还继承了MASSIVE的意图预测和槽填充任务的标注,适用于评估基础模型(如大型语言模型和语音编码器)在多语言环境下的表现。此外,数据集提供了少量样本训练集,便于在资源有限的情况下进行模型训练和评估。
使用方法
使用Speech-MASSIVE数据集进行训练和评估时,用户首先需要克隆GitHub仓库并设置虚拟环境。接着,用户可以通过修改超参数文件来配置训练参数,并运行训练脚本。数据集支持零样本和少量样本训练设置,用户可以根据需求选择合适的超参数文件进行训练。训练完成后,用户可以使用测试集对模型进行评估。
背景与挑战
背景概述
Speech-MASSIVE数据集是一个多语言的口语理解(SLU)数据集,涵盖了12种语言,包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、葡萄牙语、俄语、土耳其语和越南语。该数据集继承了MASSIVE文本语料库的意图预测和槽填充任务的注释,涉及18个领域、60个意图和55个槽位。Speech-MASSIVE的创建旨在解决多语言SLU数据集的稀缺问题,并满足评估基础模型(如大型语言模型和语音编码器)在多样语言和任务中的需求。该数据集于2024年由Beomseok Lee等人创建,并被INTERSPEECH 2024会议接受。
当前挑战
Speech-MASSIVE数据集面临的主要挑战包括多语言数据收集和处理的复杂性,不同语言之间的语音特征差异,以及在有限资源下实现高质量语音识别和理解的技术难题。此外,数据集的构建过程中还需克服语言多样性和数据不平衡的问题,确保每个语言子集的训练、验证和测试集的合理分布。这些挑战对于推动多语言语音技术的发展至关重要。
常用场景
经典使用场景
Speech-MASSIVE数据集在多语言语音理解(SLU)领域中具有经典应用场景。该数据集涵盖了12种不同语言,为意图预测和槽填充任务提供了丰富的标注数据。研究者可以利用这些数据训练端到端的SLU模型,特别是在零样本和少样本学习环境中,评估和提升模型的跨语言泛化能力。
解决学术问题
Speech-MASSIVE数据集解决了多语言SLU研究中数据稀缺的问题,为学术界提供了宝贵的资源。通过覆盖多种语言和任务,该数据集有助于评估和改进基础模型(如大型语言模型和语音编码器)在不同语言和任务中的表现,推动了语音技术的发展。
衍生相关工作
基于Speech-MASSIVE数据集,研究者们已经开展了多项相关工作,包括多语言语音识别模型的训练、跨语言语音理解的零样本学习方法研究,以及多语言语音数据的预处理和增强技术。这些工作不仅丰富了语音技术的研究领域,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



