VoxPopuli

github2023-04-02 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/voxpopuli

下载链接

链接失效反馈

官方服务：

资源简介：

VoxPopuli提供了一个大规模的多语言语音数据集，用于表示学习、半监督学习和解释。数据集包括400,000小时的未标记语音数据，涵盖23种语言；1,800小时的已转录语音数据，涵盖16种语言；以及17,300小时的语音到语音解释数据，涵盖15x15方向。此外，还包括29小时的非英语母语者的英语转录数据，用于口音语音的自动语音识别研究。

VoxPopuli offers a large-scale multilingual speech dataset designed for representation learning, semi-supervised learning, and interpretation. The dataset comprises 400,000 hours of unlabeled speech data across 23 languages; 1,800 hours of transcribed speech data across 16 languages; and 17,300 hours of speech-to-speech interpretation data covering 15x15 directions. Additionally, it includes 29 hours of transcribed English data from non-native speakers, aimed at research in automatic speech recognition for accented speech.

创建时间：

2021-01-09

原始信息汇总

数据集概述

VoxPopuli 是一个大规模的多语言语音数据集，主要用于表示学习、半监督学习和解释。该数据集包含以下内容：

400,000小时 的无标签语音数据，涵盖23种语言。
1,800小时 的转录语音数据，涉及16种语言。
17,300小时 的语音到语音解释数据，覆盖15x15方向。
29小时 的非母语英语转录语音数据，专门用于研究带有口音的自动语音识别（ASR），包含15种第二语言（L2）口音。

详细统计

无标签和转录数据

语言	代码	无标签小时数 (v1/v2)	转录小时数	转录发言人	转录令牌	LM令牌
英语	En	4.5K/24.1K	543	1313	4.8M	60.1M
德语	De	4.5K/23.2K	282	531	2.3M	50.0M
法语	Fr	4.5K/22.8K	211	534	2.1M	58.6M
西班牙语	Es	4.4K/21.4K	166	305	1.6M	57.4M
波兰语	Pl	4.5K/21.2K	111	282	802K	13.6M
意大利语	It	4.6K/21.9K	91	306	757K	52.1M
罗马尼亚语	Ro	4.5K/17.9K	89	164	739K	10.3M
匈牙利语	Hu	4.4K/17.7K	63	143	431K	13.0M
捷克语	Cs	4.5K/18.7K	62	138	461K	13.5M
荷兰语	Nl	4.5K/19.0K	53	221	488K	54.6M
芬兰语	Fi	4.4K/14.2K	27	84	160K	34.5M
克罗地亚语	Hr	2.7K/8.1K	43	83	337K	285K
斯洛伐克语	Sk	4.4K/12.1K	35	96	270K	13.3M
斯洛文尼亚语	Sl	4.4K/11.3K	10	45	76K	12.6M
爱沙尼亚语	Et	4.3K/10.6K	3	29	18K	11.3M
立陶宛语	Lt	4.3K/14.4K	2	21	10K	11.5M
葡萄牙语	Pt	4.4K/17.5K	-	-	-	-
保加利亚语	Bg	4.3K/17.6K	-	-	-	-
希腊语	El	4.4K/17.7K	-	-	-	-
拉脱维亚语	Lv	4.4K/13.1K	-	-	-	-
马耳他语	Mt	4.4K/9.1K	-	-	-	-
瑞典语	Sv	4.5K/16.3K	-	-	-	-
丹麦语	Da	4.3K/13.6K	-	-	-	-
总计		100K/384K	1791	4295	15M	467M

语音到语音解释数据

源/目标	En	De	Fr	Es	Pl	It	Ro	Hu	Cs	Nl	Fi	Sk	Sl	Lt	Da	总计
En	-	463	427	441	432	461	457	382	427	400	442	433	434	398	370	6.0K
De	187	-	196	204	214	217	198	205	214	196	217	208	218	164	179	2.8K
Fr	169	187	-	187	172	197	195	144	170	158	168	168	156	139	134	2.3K
Es	130	138	135	-	118	148	128	93	118	115	124	114	108	83	86	1.6K
Pl	68	66	54	55	-	67	55	43	67	42	55	62	57	50	34	775
It	69	77	76	79	72	-	75	61	68	64	71	66	70	53	60	961
Ro	60	59	59	58	49	61	-	38	50	43	48	50	46	38	29	688
Hu	30	38	25	27	29	30	27	-	27	20	31	29	26	21	18	378
Cs	39	35	29	30	36	32	31	23	-	23	29	55	29	25	18	434
Nl	31	43	35	29	27	38	24	25	25	-	32	25	23	19	25	401
Fi	15	18	15	13	13	13	13	12	13	11	-	14	12	11	9	182
Hr	31	27	27	24	27	28	24	22	24	22	24	26	37	21	20	384
Sk	21	22	14	16	19	16	16	14	32	13	16	-	17	13	10	239
Sl	6	6	4	5	5	6	5	4	5	4	5	6	-	4	3	68
Lt	1	1	1	1	1	1	1	1	1	1	1	1	1	-	0	13
总计	857	1.2K	1.1K	1.2K	1.2K	1.3K	1.2K	1.1K	1.2K	1.1K	1.3K	1.3K	1.2K	1.0K	995	17.3K

带口音的转录数据

口音	代码	转录小时数	转录发言人
荷兰语	en_nl	3.52	45
德语	en_de	3.52	84
捷克语	en_cs	3.30	26
波兰语	en_pl	3.23	33
法语	en_fr	2.56	27
匈牙利语	en_hu	2.33	23
芬兰语	en_fi	2.18	20
罗马尼亚语	en_ro	1.85	27
斯洛伐克语	en_sk	1.46	17
西班牙语	en_es	1.42	18
意大利语	en_it	1.11	15
爱沙尼亚语	en_et	1.08	6
立陶宛语	en_lt	0.65	7
克罗地亚语	en_hr	0.42	9
斯洛文尼亚语	en_sl	0.25	7

数据获取

数据集提供了原始音频以及用于分割和与转录/解释对齐的脚本。输出格式为Ogg Vorbis（16000Hz，16位，单声道），支持常见的库如libsndfile和libsox。

预训练模型

wav2vec 2.0

提供了预训练的wav2vec 2.0模型，每个语言都有一个单语的_Base_模型和一个多语的_Large_模型，这些模型结合了同一家族或所有语言。

搜集汇总

数据集介绍

构建方式

VoxPopuli数据集的构建基于2009年至2020年欧洲议会事件的录音，涵盖了23种语言的未标注语音数据、16种语言的转录语音数据以及15种语言间的语音到语音翻译数据。数据集的构建过程包括从原始录音中提取语音片段，并与相应的转录或翻译文本进行对齐。此外，数据集还特别包含了非母语英语的转录语音数据，旨在支持带有口音的语音识别研究。

特点

VoxPopuli数据集的特点在于其大规模和多语言性，提供了400,000小时的未标注语音数据、1,800小时的转录语音数据以及17,300小时的语音到语音翻译数据。数据集涵盖了多种语言和方言，特别是包含了15种非母语英语口音的转录数据，为语音识别和翻译研究提供了丰富的资源。此外，数据集还提供了详细的统计信息，如每种语言的语音时长、转录文本的词汇量等，便于研究者进行深入分析。

使用方法

使用VoxPopuli数据集时，首先需要从GitHub仓库中克隆处理脚本，并安装所需的Python依赖包。数据集提供了多种数据子集，用户可以通过命令行工具下载原始音频文件，并使用提供的脚本对音频进行分段和对齐。对于转录数据，用户可以选择特定语言进行下载和处理，生成包含音频片段和转录文本的清单文件。对于语音到语音翻译数据，用户需要分别下载源语言和目标语言的音频文件，并通过脚本进行对齐和匹配。此外，数据集还提供了语言模型训练所需的文本数据，用户可以通过命令行工具生成词汇表和句子文件，用于训练n-gram语言模型。

背景与挑战

背景概述

VoxPopuli数据集由Facebook Research团队于2021年发布，旨在为多语言语音表示学习、半监督学习及语音翻译研究提供大规模数据支持。该数据集基于2009年至2020年欧洲议会活动的录音，涵盖了23种语言的未标注语音数据、16种语言的转录语音数据以及15种语言对的语音翻译数据。VoxPopuli的发布为语音识别、语音合成及多语言语音处理领域的研究提供了丰富的资源，推动了相关技术的进步。其数据规模和多样性使其成为多语言语音研究的重要基准。

当前挑战

VoxPopuli数据集在构建和应用中面临多重挑战。首先，多语言语音数据的标注和转录需要大量人力物力，尤其是低资源语言的标注难度较大。其次，语音翻译任务中，源语言和目标语言的语音对齐问题复杂，尤其是在多语言环境下，语音质量和口音的差异增加了对齐的难度。此外，数据集的规模庞大，存储和处理这些数据对计算资源提出了较高要求。最后，如何利用未标注数据进行有效的半监督学习，仍是当前研究中的一大挑战。

常用场景

经典使用场景

VoxPopuli数据集在语音识别和自然语言处理领域具有广泛的应用。其多语言特性使其成为跨语言语音识别、语音翻译和语音合成等任务的理想选择。通过提供大量未标注和已标注的语音数据，VoxPopuli为研究人员提供了丰富的资源，用于训练和评估各种语音处理模型。特别是在欧洲议会多语言环境下的语音数据，为研究多语言语音识别和翻译提供了独特的机会。

衍生相关工作

VoxPopuli数据集催生了许多经典的研究工作，特别是在自监督学习和多语言语音识别领域。基于该数据集，研究人员开发了多种预训练模型，如wav2vec 2.0和XLS-R，这些模型在多语言语音识别任务中表现出色。此外，该数据集还推动了多语言语音翻译和跨语言语音合成技术的发展，为语音处理领域的研究提供了新的方向。

数据集最近研究