VoxPopuli
收藏github2023-04-02 更新2024-05-31 收录
下载链接:
https://github.com/facebookresearch/voxpopuli
下载链接
链接失效反馈官方服务:
资源简介:
VoxPopuli提供了一个大规模的多语言语音数据集,用于表示学习、半监督学习和解释。数据集包括400,000小时的未标记语音数据,涵盖23种语言;1,800小时的已转录语音数据,涵盖16种语言;以及17,300小时的语音到语音解释数据,涵盖15x15方向。此外,还包括29小时的非英语母语者的英语转录数据,用于口音语音的自动语音识别研究。
VoxPopuli offers a large-scale multilingual speech dataset designed for representation learning, semi-supervised learning, and interpretation. The dataset comprises 400,000 hours of unlabeled speech data across 23 languages; 1,800 hours of transcribed speech data across 16 languages; and 17,300 hours of speech-to-speech interpretation data covering 15x15 directions. Additionally, it includes 29 hours of transcribed English data from non-native speakers, aimed at research in automatic speech recognition for accented speech.
创建时间:
2021-01-09
原始信息汇总
数据集概述
VoxPopuli 是一个大规模的多语言语音数据集,主要用于表示学习、半监督学习和解释。该数据集包含以下内容:
- 400,000小时 的无标签语音数据,涵盖23种语言。
- 1,800小时 的转录语音数据,涉及16种语言。
- 17,300小时 的语音到语音解释数据,覆盖15x15方向。
- 29小时 的非母语英语转录语音数据,专门用于研究带有口音的自动语音识别(ASR),包含15种第二语言(L2)口音。
详细统计
无标签和转录数据
| 语言 | 代码 | 无标签小时数 (v1/v2) | 转录小时数 | 转录发言人 | 转录令牌 | LM令牌 |
|---|---|---|---|---|---|---|
| 英语 | En | 4.5K/24.1K | 543 | 1313 | 4.8M | 60.1M |
| 德语 | De | 4.5K/23.2K | 282 | 531 | 2.3M | 50.0M |
| 法语 | Fr | 4.5K/22.8K | 211 | 534 | 2.1M | 58.6M |
| 西班牙语 | Es | 4.4K/21.4K | 166 | 305 | 1.6M | 57.4M |
| 波兰语 | Pl | 4.5K/21.2K | 111 | 282 | 802K | 13.6M |
| 意大利语 | It | 4.6K/21.9K | 91 | 306 | 757K | 52.1M |
| 罗马尼亚语 | Ro | 4.5K/17.9K | 89 | 164 | 739K | 10.3M |
| 匈牙利语 | Hu | 4.4K/17.7K | 63 | 143 | 431K | 13.0M |
| 捷克语 | Cs | 4.5K/18.7K | 62 | 138 | 461K | 13.5M |
| 荷兰语 | Nl | 4.5K/19.0K | 53 | 221 | 488K | 54.6M |
| 芬兰语 | Fi | 4.4K/14.2K | 27 | 84 | 160K | 34.5M |
| 克罗地亚语 | Hr | 2.7K/8.1K | 43 | 83 | 337K | 285K |
| 斯洛伐克语 | Sk | 4.4K/12.1K | 35 | 96 | 270K | 13.3M |
| 斯洛文尼亚语 | Sl | 4.4K/11.3K | 10 | 45 | 76K | 12.6M |
| 爱沙尼亚语 | Et | 4.3K/10.6K | 3 | 29 | 18K | 11.3M |
| 立陶宛语 | Lt | 4.3K/14.4K | 2 | 21 | 10K | 11.5M |
| 葡萄牙语 | Pt | 4.4K/17.5K | - | - | - | - |
| 保加利亚语 | Bg | 4.3K/17.6K | - | - | - | - |
| 希腊语 | El | 4.4K/17.7K | - | - | - | - |
| 拉脱维亚语 | Lv | 4.4K/13.1K | - | - | - | - |
| 马耳他语 | Mt | 4.4K/9.1K | - | - | - | - |
| 瑞典语 | Sv | 4.5K/16.3K | - | - | - | - |
| 丹麦语 | Da | 4.3K/13.6K | - | - | - | - |
| 总计 | 100K/384K | 1791 | 4295 | 15M | 467M |
语音到语音解释数据
| 源/目标 | En | De | Fr | Es | Pl | It | Ro | Hu | Cs | Nl | Fi | Sk | Sl | Lt | Da | 总计 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| En | - | 463 | 427 | 441 | 432 | 461 | 457 | 382 | 427 | 400 | 442 | 433 | 434 | 398 | 370 | 6.0K |
| De | 187 | - | 196 | 204 | 214 | 217 | 198 | 205 | 214 | 196 | 217 | 208 | 218 | 164 | 179 | 2.8K |
| Fr | 169 | 187 | - | 187 | 172 | 197 | 195 | 144 | 170 | 158 | 168 | 168 | 156 | 139 | 134 | 2.3K |
| Es | 130 | 138 | 135 | - | 118 | 148 | 128 | 93 | 118 | 115 | 124 | 114 | 108 | 83 | 86 | 1.6K |
| Pl | 68 | 66 | 54 | 55 | - | 67 | 55 | 43 | 67 | 42 | 55 | 62 | 57 | 50 | 34 | 775 |
| It | 69 | 77 | 76 | 79 | 72 | - | 75 | 61 | 68 | 64 | 71 | 66 | 70 | 53 | 60 | 961 |
| Ro | 60 | 59 | 59 | 58 | 49 | 61 | - | 38 | 50 | 43 | 48 | 50 | 46 | 38 | 29 | 688 |
| Hu | 30 | 38 | 25 | 27 | 29 | 30 | 27 | - | 27 | 20 | 31 | 29 | 26 | 21 | 18 | 378 |
| Cs | 39 | 35 | 29 | 30 | 36 | 32 | 31 | 23 | - | 23 | 29 | 55 | 29 | 25 | 18 | 434 |
| Nl | 31 | 43 | 35 | 29 | 27 | 38 | 24 | 25 | 25 | - | 32 | 25 | 23 | 19 | 25 | 401 |
| Fi | 15 | 18 | 15 | 13 | 13 | 13 | 13 | 12 | 13 | 11 | - | 14 | 12 | 11 | 9 | 182 |
| Hr | 31 | 27 | 27 | 24 | 27 | 28 | 24 | 22 | 24 | 22 | 24 | 26 | 37 | 21 | 20 | 384 |
| Sk | 21 | 22 | 14 | 16 | 19 | 16 | 16 | 14 | 32 | 13 | 16 | - | 17 | 13 | 10 | 239 |
| Sl | 6 | 6 | 4 | 5 | 5 | 6 | 5 | 4 | 5 | 4 | 5 | 6 | - | 4 | 3 | 68 |
| Lt | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | - | 0 | 13 |
| 总计 | 857 | 1.2K | 1.1K | 1.2K | 1.2K | 1.3K | 1.2K | 1.1K | 1.2K | 1.1K | 1.3K | 1.3K | 1.2K | 1.0K | 995 | 17.3K |
带口音的转录数据
| 口音 | 代码 | 转录小时数 | 转录发言人 |
|---|---|---|---|
| 荷兰语 | en_nl | 3.52 | 45 |
| 德语 | en_de | 3.52 | 84 |
| 捷克语 | en_cs | 3.30 | 26 |
| 波兰语 | en_pl | 3.23 | 33 |
| 法语 | en_fr | 2.56 | 27 |
| 匈牙利语 | en_hu | 2.33 | 23 |
| 芬兰语 | en_fi | 2.18 | 20 |
| 罗马尼亚语 | en_ro | 1.85 | 27 |
| 斯洛伐克语 | en_sk | 1.46 | 17 |
| 西班牙语 | en_es | 1.42 | 18 |
| 意大利语 | en_it | 1.11 | 15 |
| 爱沙尼亚语 | en_et | 1.08 | 6 |
| 立陶宛语 | en_lt | 0.65 | 7 |
| 克罗地亚语 | en_hr | 0.42 | 9 |
| 斯洛文尼亚语 | en_sl | 0.25 | 7 |
数据获取
数据集提供了原始音频以及用于分割和与转录/解释对齐的脚本。输出格式为Ogg Vorbis(16000Hz,16位,单声道),支持常见的库如libsndfile和libsox。
预训练模型
wav2vec 2.0
提供了预训练的wav2vec 2.0模型,每个语言都有一个单语的_Base_模型和一个多语的_Large_模型,这些模型结合了同一家族或所有语言。
搜集汇总
数据集介绍

构建方式
VoxPopuli数据集的构建基于2009年至2020年欧洲议会事件的录音,涵盖了23种语言的未标注语音数据、16种语言的转录语音数据以及15种语言间的语音到语音翻译数据。数据集的构建过程包括从原始录音中提取语音片段,并与相应的转录或翻译文本进行对齐。此外,数据集还特别包含了非母语英语的转录语音数据,旨在支持带有口音的语音识别研究。
特点
VoxPopuli数据集的特点在于其大规模和多语言性,提供了400,000小时的未标注语音数据、1,800小时的转录语音数据以及17,300小时的语音到语音翻译数据。数据集涵盖了多种语言和方言,特别是包含了15种非母语英语口音的转录数据,为语音识别和翻译研究提供了丰富的资源。此外,数据集还提供了详细的统计信息,如每种语言的语音时长、转录文本的词汇量等,便于研究者进行深入分析。
使用方法
使用VoxPopuli数据集时,首先需要从GitHub仓库中克隆处理脚本,并安装所需的Python依赖包。数据集提供了多种数据子集,用户可以通过命令行工具下载原始音频文件,并使用提供的脚本对音频进行分段和对齐。对于转录数据,用户可以选择特定语言进行下载和处理,生成包含音频片段和转录文本的清单文件。对于语音到语音翻译数据,用户需要分别下载源语言和目标语言的音频文件,并通过脚本进行对齐和匹配。此外,数据集还提供了语言模型训练所需的文本数据,用户可以通过命令行工具生成词汇表和句子文件,用于训练n-gram语言模型。
背景与挑战
背景概述
VoxPopuli数据集由Facebook Research团队于2021年发布,旨在为多语言语音表示学习、半监督学习及语音翻译研究提供大规模数据支持。该数据集基于2009年至2020年欧洲议会活动的录音,涵盖了23种语言的未标注语音数据、16种语言的转录语音数据以及15种语言对的语音翻译数据。VoxPopuli的发布为语音识别、语音合成及多语言语音处理领域的研究提供了丰富的资源,推动了相关技术的进步。其数据规模和多样性使其成为多语言语音研究的重要基准。
当前挑战
VoxPopuli数据集在构建和应用中面临多重挑战。首先,多语言语音数据的标注和转录需要大量人力物力,尤其是低资源语言的标注难度较大。其次,语音翻译任务中,源语言和目标语言的语音对齐问题复杂,尤其是在多语言环境下,语音质量和口音的差异增加了对齐的难度。此外,数据集的规模庞大,存储和处理这些数据对计算资源提出了较高要求。最后,如何利用未标注数据进行有效的半监督学习,仍是当前研究中的一大挑战。
常用场景
经典使用场景
VoxPopuli数据集在语音识别和自然语言处理领域具有广泛的应用。其多语言特性使其成为跨语言语音识别、语音翻译和语音合成等任务的理想选择。通过提供大量未标注和已标注的语音数据,VoxPopuli为研究人员提供了丰富的资源,用于训练和评估各种语音处理模型。特别是在欧洲议会多语言环境下的语音数据,为研究多语言语音识别和翻译提供了独特的机会。
衍生相关工作
VoxPopuli数据集催生了许多经典的研究工作,特别是在自监督学习和多语言语音识别领域。基于该数据集,研究人员开发了多种预训练模型,如wav2vec 2.0和XLS-R,这些模型在多语言语音识别任务中表现出色。此外,该数据集还推动了多语言语音翻译和跨语言语音合成技术的发展,为语音处理领域的研究提供了新的方向。
数据集最近研究
最新研究方向
VoxPopuli数据集作为多语言语音研究的重要资源,近年来在语音表示学习、半监督学习和语音翻译等领域取得了显著进展。该数据集提供了超过400K小时的无标签语音数据和1.8K小时的转录语音数据,涵盖了23种语言,为多语言语音识别和翻译任务提供了丰富的训练素材。特别是在语音翻译方面,VoxPopuli提供了17.3K小时的语音到语音翻译数据,支持15种语言的互译,极大地推动了跨语言语音翻译技术的发展。此外,VoxPopuli还发布了带有口音的英语语音数据,为非母语英语的自动语音识别研究提供了新的挑战和机遇。随着wav2vec 2.0等预训练模型的发布,VoxPopuli在语音表示学习中的应用进一步扩展,推动了多语言语音处理技术的创新和突破。
以上内容由遇见数据集搜集并总结生成



