Speech-MASSIVE

Name: Speech-MASSIVE
Creator: 特伦托大学, 法国NAVER LABS欧洲, 意大利布鲁诺凯斯勒基金会
Published: 2024-08-08 00:55:28
License: 暂无描述

arXiv2024-08-08 更新2024-08-09 收录

下载链接：

https://github.com/hlt-mt/Speech-MASSIVE

下载链接

链接失效反馈

官方服务：

资源简介：

Speech-MASSIVE是一个多语言语音理解数据集，由特伦托大学、NAVER LABS欧洲和布鲁诺凯斯勒基金会共同开发。该数据集涵盖12种不同语系的语言，继承了MASSIVE文本数据集的意图预测和槽填充任务标注。数据集的创建过程包括通过Proliﬁc平台招募母语者进行语音录制和验证，确保了数据的高质量。Speech-MASSIVE不仅适用于语音理解任务，还可用于语音识别、语言识别和语音翻译等多种语音相关任务的基准测试。

Speech-MASSIVE is a multilingual speech understanding dataset jointly developed by the University of Trento, NAVER LABS Europe, and the Bruno Kessler Foundation. It covers languages from 12 distinct language families, and inherits the intent prediction and slot filling task annotations from the MASSIVE text dataset. The dataset creation process recruited native speakers via the Prolific platform for speech recording and validation, ensuring high data quality. Beyond speech understanding tasks, Speech-MASSIVE can also serve as a benchmark for various speech-related tasks including speech recognition, language identification, and speech translation.

提供机构：

特伦托大学, 法国NAVER LABS欧洲, 意大利布鲁诺凯斯勒基金会

创建时间：

2024-08-08

原始信息汇总

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond

简介

Speech-MASSIVE 是一个多语言的口语理解（SLU）数据集，包含 MASSIVE 文本语料库的一部分语音对应数据。该数据集涵盖 12 种语言（阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、欧洲葡萄牙语、俄语、土耳其语和越南语），继承了 MASSIVE 的意图预测和槽填充任务的标注。MASSIVE 语句标签涵盖 18 个领域，包含 60 个意图和 55 个槽位。法语和德语提供完整的训练集，所有 12 种语言（包括法语和德语）提供少样本训练、开发和测试集。少样本训练集（115 个样本）涵盖所有 18 个领域、60 个意图和 55 个槽位（包括空槽）。

数据统计

语言	分割类型	样本数量	时长（小时）	总说话人数 </br>(男/女/未识别)
ar-SA	few-shot train	115	0.14	8 (4/4/0)
	dev	2033	2.12	36 (22/14/0)
	test	2974	3.23	37 (15/17/5)
de-DE	train-full	11514	12.61	117 (50/63/4)
	few-shot train	115	0.15	7 (3/4/0)
	dev	2033	2.33	68 (35/32/1)
	test	2974	3.41	82 (36/36/10)
es-ES	few-shot train	115	0.13	7 (3/4/0)
	dev	2033	2.53	109 (51/53/5)
	test	2974	3.61	85 (37/33/15)
fr-FR	train-full	11514	12.42	103 (50/52/1)
	few-shot train	115	0.12	103 (50/52/1)
	dev	2033	2.20	55 (26/26/3)
	test	2974	2.65	75 (31/35/9)
hu-HU	few-shot train	115	0.12	8 (3/4/1)
	dev	2033	2.27	69 (33/33/3)
	test	2974	3.30	55 (25/24/6)
ko-KR	few-shot train	115	0.14	8 (4/4/0)
	dev	2033	2.12	21 (8/13/0)
	test	2974	2.66	31 (10/18/3)
nl-NL	few-shot train	115	0.12	7 (3/4/0)
	dev	2033	2.14	37 (17/19/1)
	test	2974	3.30	100 (48/49/3)
pl-PL	few-shot train	115	0.10	7 (3/4/0)
	dev	2033	2.24	105 (50/52/3)
	test	2974	3.21	151 (73/71/7)
pt-PT	few-shot train	115	0.12	8 (4/4/0)
	dev	2033	2.20	107 (51/53/3)
	test	2974	3.25	102 (48/50/4)
ru-RU	few-shot train	115	0.12	7 (3/4/0)
	dev	2033	2.25	40 (7/31/2)
	test	2974	3.44	51 (25/23/3)
tr-TR	few-shot train	115	0.11	6 (3/3/0)
	dev	2033	2.17	71 (36/34/1)
	test	2974	3.00	42 (17/18/7)
vi-VN	few-shot train	115	0.11	7 (2/4/1)
	dev	2033	2.10	28 (13/14/1)
	test	2974	3.23	30 (11/14/5)

许可证

Speech-MASSIVE 数据集采用 CC-BY-SA-4.0 许可证发布。

本仓库中的所有代码采用 Apache License 2.0 许可证发布。

引用

请引用我们的 Speech-MASSIVE 论文和 MASSIVE 论文，因为 Speech-MASSIVE 使用了 MASSIVE 的文本数据作为种子数据。

MASSIVE 论文:

@misc{fitzgerald2022massive, title={MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages}, author={Jack FitzGerald and Christopher Hench and Charith Peris and Scott Mackie and Kay Rottmann and Ana Sanchez and Aaron Nash and Liam Urbach and Vishesh Kakarala and Richa Singh and Swetha Ranganath and Laurie Crist and Misha Britan and Wouter Leeuwis and Gokhan Tur and Prem Natarajan}, year={2022}, eprint={2204.08582}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

Speech-MASSIVE数据集的构建基于MASSIVE文本语料库的一部分，通过招募母语者使用Prolific众包平台进行语音录制。首先，一组工作者被指导按照准确和自然的阅读方式录制MASSIVE句子，随后另一组母语者对录制的语音进行验证，标记为有效或无效。对于被标记为无效的录音，会进行第二轮录制和验证。此外，为了确保数据集的可靠性，参与者在录制过程中被要求审查自己的录音，并在验证步骤中插入来自Common Voice的语音样本进行质量控制。

特点

Speech-MASSIVE数据集涵盖了12种来自不同语系的语言，包括阿拉伯语、德语、西班牙语、法语、匈牙利语、韩语、荷兰语、波兰语、欧洲葡萄牙语、俄语、土耳其语和越南语。该数据集不仅继承了MASSIVE的意图预测和槽填充任务的注释，还扩展到包括自动语音识别（ASR）、语音翻译（ST）和语言识别（LID）等任务。此外，数据集的多样性和广泛的语言覆盖使其成为评估基础模型（如大型语言模型和语音编码器）在多语言和多任务环境下的理想选择。

使用方法

Speech-MASSIVE数据集可用于多种语音和语言理解任务的基准测试，包括意图预测、槽填充、自动语音识别、语音翻译和语言识别。研究者可以使用该数据集来训练和评估基于级联和端到端架构的模型，特别是在零样本、少样本和全微调训练场景下。此外，数据集的公开可用性及其详细的文档和代码支持，使得研究者能够轻松地进行跨语言和跨任务的比较研究，推动多语言语音理解技术的发展。

背景与挑战

背景概述

Speech-MASSIVE数据集由意大利特伦托大学、法国NAVER LABS Europe和意大利Fondazione Bruno Kessler的研究人员共同创建，旨在填补多语言语音理解（SLU）领域的数据稀缺问题。该数据集于2024年发布，涵盖了12种不同语系的语言，继承了MASSIVE文本语料库的意图预测和槽填充任务注释。Speech-MASSIVE的推出，不仅为多语言SLU研究提供了丰富的资源，还为评估基础模型（如大型语言模型和语音编码器）在多语言和多任务环境中的表现提供了平台。此外，该数据集还适用于语音转录、语言识别和语音翻译等其他任务的基准测试。

当前挑战

Speech-MASSIVE数据集在构建过程中面临多项挑战。首先，多语言语音数据的收集和验证需要确保录音的自然性和准确性，这通过众包平台招募母语者进行录音和验证来实现。其次，数据集的多样性和质量控制要求高，特别是在处理无效录音和文本错误时。此外，多语言SLU任务的复杂性要求模型在零样本、少样本和全微调等多种训练场景下表现出色。最后，数据集的广泛应用性要求其在自动语音识别（ASR）、语言识别（LID）和语音翻译（ST）等任务中提供可靠的基准结果。

常用场景

经典使用场景

Speech-MASSIVE数据集的经典使用场景主要集中在多语言语音理解（SLU）任务中，特别是意图预测和槽填充。该数据集通过提供12种不同语言的语音数据，填补了多语言SLU数据集的稀缺性，为评估基础模型（如大型语言模型和语音编码器）在多语言和多任务环境中的表现提供了宝贵的资源。

衍生相关工作

基于Speech-MASSIVE数据集，研究人员已经开展了一系列相关工作，包括多语言语音识别（ASR）、语音翻译（ST）和语言识别（LID）等任务的基准测试。此外，该数据集还激发了对零样本学习和少样本学习在多语言SLU中应用的研究，以及对端到端（E2E）SLU模型的探索，这些研究为多语言语音技术的进一步发展奠定了基础。

数据集最近研究