five

VoxPopuli

收藏
github2023-04-02 更新2024-05-31 收录
下载链接:
https://github.com/facebookresearch/voxpopuli
下载链接
链接失效反馈
官方服务:
资源简介:
VoxPopuli提供了一个大规模的多语言语音数据集,用于表示学习、半监督学习和解释。数据集包括400,000小时的未标记语音数据,涵盖23种语言;1,800小时的已转录语音数据,涵盖16种语言;以及17,300小时的语音到语音解释数据,涵盖15x15方向。此外,还包括29小时的非英语母语者的英语转录数据,用于口音语音的自动语音识别研究。

VoxPopuli offers a large-scale multilingual speech dataset designed for representation learning, semi-supervised learning, and interpretation. The dataset comprises 400,000 hours of unlabeled speech data across 23 languages; 1,800 hours of transcribed speech data across 16 languages; and 17,300 hours of speech-to-speech interpretation data covering 15x15 directions. Additionally, it includes 29 hours of transcribed English data from non-native speakers, aimed at research in automatic speech recognition for accented speech.
创建时间:
2021-01-09
原始信息汇总

数据集概述

VoxPopuli 是一个大规模的多语言语音数据集,主要用于表示学习、半监督学习和解释。该数据集包含以下内容:

  • 400,000小时 的无标签语音数据,涵盖23种语言。
  • 1,800小时 的转录语音数据,涉及16种语言。
  • 17,300小时 的语音到语音解释数据,覆盖15x15方向。
  • 29小时 的非母语英语转录语音数据,专门用于研究带有口音的自动语音识别(ASR),包含15种第二语言(L2)口音。

详细统计

无标签和转录数据

语言 代码 无标签小时数 (v1/v2) 转录小时数 转录发言人 转录令牌 LM令牌
英语 En 4.5K/24.1K 543 1313 4.8M 60.1M
德语 De 4.5K/23.2K 282 531 2.3M 50.0M
法语 Fr 4.5K/22.8K 211 534 2.1M 58.6M
西班牙语 Es 4.4K/21.4K 166 305 1.6M 57.4M
波兰语 Pl 4.5K/21.2K 111 282 802K 13.6M
意大利语 It 4.6K/21.9K 91 306 757K 52.1M
罗马尼亚语 Ro 4.5K/17.9K 89 164 739K 10.3M
匈牙利语 Hu 4.4K/17.7K 63 143 431K 13.0M
捷克语 Cs 4.5K/18.7K 62 138 461K 13.5M
荷兰语 Nl 4.5K/19.0K 53 221 488K 54.6M
芬兰语 Fi 4.4K/14.2K 27 84 160K 34.5M
克罗地亚语 Hr 2.7K/8.1K 43 83 337K 285K
斯洛伐克语 Sk 4.4K/12.1K 35 96 270K 13.3M
斯洛文尼亚语 Sl 4.4K/11.3K 10 45 76K 12.6M
爱沙尼亚语 Et 4.3K/10.6K 3 29 18K 11.3M
立陶宛语 Lt 4.3K/14.4K 2 21 10K 11.5M
葡萄牙语 Pt 4.4K/17.5K - - - -
保加利亚语 Bg 4.3K/17.6K - - - -
希腊语 El 4.4K/17.7K - - - -
拉脱维亚语 Lv 4.4K/13.1K - - - -
马耳他语 Mt 4.4K/9.1K - - - -
瑞典语 Sv 4.5K/16.3K - - - -
丹麦语 Da 4.3K/13.6K - - - -
总计 100K/384K 1791 4295 15M 467M

语音到语音解释数据

源/目标 En De Fr Es Pl It Ro Hu Cs Nl Fi Sk Sl Lt Da 总计
En - 463 427 441 432 461 457 382 427 400 442 433 434 398 370 6.0K
De 187 - 196 204 214 217 198 205 214 196 217 208 218 164 179 2.8K
Fr 169 187 - 187 172 197 195 144 170 158 168 168 156 139 134 2.3K
Es 130 138 135 - 118 148 128 93 118 115 124 114 108 83 86 1.6K
Pl 68 66 54 55 - 67 55 43 67 42 55 62 57 50 34 775
It 69 77 76 79 72 - 75 61 68 64 71 66 70 53 60 961
Ro 60 59 59 58 49 61 - 38 50 43 48 50 46 38 29 688
Hu 30 38 25 27 29 30 27 - 27 20 31 29 26 21 18 378
Cs 39 35 29 30 36 32 31 23 - 23 29 55 29 25 18 434
Nl 31 43 35 29 27 38 24 25 25 - 32 25 23 19 25 401
Fi 15 18 15 13 13 13 13 12 13 11 - 14 12 11 9 182
Hr 31 27 27 24 27 28 24 22 24 22 24 26 37 21 20 384
Sk 21 22 14 16 19 16 16 14 32 13 16 - 17 13 10 239
Sl 6 6 4 5 5 6 5 4 5 4 5 6 - 4 3 68
Lt 1 1 1 1 1 1 1 1 1 1 1 1 1 - 0 13
总计 857 1.2K 1.1K 1.2K 1.2K 1.3K 1.2K 1.1K 1.2K 1.1K 1.3K 1.3K 1.2K 1.0K 995 17.3K

带口音的转录数据

口音 代码 转录小时数 转录发言人
荷兰语 en_nl 3.52 45
德语 en_de 3.52 84
捷克语 en_cs 3.30 26
波兰语 en_pl 3.23 33
法语 en_fr 2.56 27
匈牙利语 en_hu 2.33 23
芬兰语 en_fi 2.18 20
罗马尼亚语 en_ro 1.85 27
斯洛伐克语 en_sk 1.46 17
西班牙语 en_es 1.42 18
意大利语 en_it 1.11 15
爱沙尼亚语 en_et 1.08 6
立陶宛语 en_lt 0.65 7
克罗地亚语 en_hr 0.42 9
斯洛文尼亚语 en_sl 0.25 7

数据获取

数据集提供了原始音频以及用于分割和与转录/解释对齐的脚本。输出格式为Ogg Vorbis(16000Hz,16位,单声道),支持常见的库如libsndfilelibsox

预训练模型

wav2vec 2.0

提供了预训练的wav2vec 2.0模型,每个语言都有一个单语的_Base_模型和一个多语的_Large_模型,这些模型结合了同一家族或所有语言。

搜集汇总
数据集介绍
main_image_url
构建方式
VoxPopuli数据集的构建基于2009年至2020年欧洲议会事件的录音,涵盖了23种语言的未标注语音数据、16种语言的转录语音数据以及15种语言间的语音到语音翻译数据。数据集的构建过程包括从原始录音中提取语音片段,并与相应的转录或翻译文本进行对齐。此外,数据集还特别包含了非母语英语的转录语音数据,旨在支持带有口音的语音识别研究。
特点
VoxPopuli数据集的特点在于其大规模和多语言性,提供了400,000小时的未标注语音数据、1,800小时的转录语音数据以及17,300小时的语音到语音翻译数据。数据集涵盖了多种语言和方言,特别是包含了15种非母语英语口音的转录数据,为语音识别和翻译研究提供了丰富的资源。此外,数据集还提供了详细的统计信息,如每种语言的语音时长、转录文本的词汇量等,便于研究者进行深入分析。
使用方法
使用VoxPopuli数据集时,首先需要从GitHub仓库中克隆处理脚本,并安装所需的Python依赖包。数据集提供了多种数据子集,用户可以通过命令行工具下载原始音频文件,并使用提供的脚本对音频进行分段和对齐。对于转录数据,用户可以选择特定语言进行下载和处理,生成包含音频片段和转录文本的清单文件。对于语音到语音翻译数据,用户需要分别下载源语言和目标语言的音频文件,并通过脚本进行对齐和匹配。此外,数据集还提供了语言模型训练所需的文本数据,用户可以通过命令行工具生成词汇表和句子文件,用于训练n-gram语言模型。
背景与挑战
背景概述
VoxPopuli数据集由Facebook Research团队于2021年发布,旨在为多语言语音表示学习、半监督学习及语音翻译研究提供大规模数据支持。该数据集基于2009年至2020年欧洲议会活动的录音,涵盖了23种语言的未标注语音数据、16种语言的转录语音数据以及15种语言对的语音翻译数据。VoxPopuli的发布为语音识别、语音合成及多语言语音处理领域的研究提供了丰富的资源,推动了相关技术的进步。其数据规模和多样性使其成为多语言语音研究的重要基准。
当前挑战
VoxPopuli数据集在构建和应用中面临多重挑战。首先,多语言语音数据的标注和转录需要大量人力物力,尤其是低资源语言的标注难度较大。其次,语音翻译任务中,源语言和目标语言的语音对齐问题复杂,尤其是在多语言环境下,语音质量和口音的差异增加了对齐的难度。此外,数据集的规模庞大,存储和处理这些数据对计算资源提出了较高要求。最后,如何利用未标注数据进行有效的半监督学习,仍是当前研究中的一大挑战。
常用场景
经典使用场景
VoxPopuli数据集在语音识别和自然语言处理领域具有广泛的应用。其多语言特性使其成为跨语言语音识别、语音翻译和语音合成等任务的理想选择。通过提供大量未标注和已标注的语音数据,VoxPopuli为研究人员提供了丰富的资源,用于训练和评估各种语音处理模型。特别是在欧洲议会多语言环境下的语音数据,为研究多语言语音识别和翻译提供了独特的机会。
衍生相关工作
VoxPopuli数据集催生了许多经典的研究工作,特别是在自监督学习和多语言语音识别领域。基于该数据集,研究人员开发了多种预训练模型,如wav2vec 2.0和XLS-R,这些模型在多语言语音识别任务中表现出色。此外,该数据集还推动了多语言语音翻译和跨语言语音合成技术的发展,为语音处理领域的研究提供了新的方向。
数据集最近研究
最新研究方向
VoxPopuli数据集作为多语言语音研究的重要资源,近年来在语音表示学习、半监督学习和语音翻译等领域取得了显著进展。该数据集提供了超过400K小时的无标签语音数据和1.8K小时的转录语音数据,涵盖了23种语言,为多语言语音识别和翻译任务提供了丰富的训练素材。特别是在语音翻译方面,VoxPopuli提供了17.3K小时的语音到语音翻译数据,支持15种语言的互译,极大地推动了跨语言语音翻译技术的发展。此外,VoxPopuli还发布了带有口音的英语语音数据,为非母语英语的自动语音识别研究提供了新的挑战和机遇。随着wav2vec 2.0等预训练模型的发布,VoxPopuli在语音表示学习中的应用进一步扩展,推动了多语言语音处理技术的创新和突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作