five

voxpopolo_2

收藏
Hugging Face2025-02-21 更新2025-02-22 收录
下载链接:
https://huggingface.co/datasets/mcapozi/voxpopolo_2
下载链接
链接失效反馈
官方服务:
资源简介:
VoxPopuli是一个大规模多语种语音语料库,包含2009年至2020年欧洲议会活动录音的转录数据。该语料库支持18种语言的语音转录,并提供了29小时非母语英语的转录语音数据,适用于自动语音识别研究。数据集分为训练集、验证集和测试集,带有口音的英语数据集则只有测试集。

VoxPopuli is a large-scale multilingual speech corpus comprising transcribed data from recordings of European Parliament proceedings spanning from 2009 to 2020. This corpus supports speech transcription across 18 languages, and provides 29 hours of transcribed non-native English speech data, which is suitable for automatic speech recognition research. The overall dataset is divided into training, validation and test sets, whereas the accented English subset only has a test set.
创建时间:
2025-02-20
搜集汇总
数据集介绍
main_image_url
构建方式
VoxPopuli数据集的构建基于对2009-2020年欧洲议会事件录音的采集,这些录音涵盖了18种语言的转录文本。数据集旨在为表征学习、半监督学习和解释提供大规模的多语种语音语料库。构建过程中,特别针对非母语英语的发音特点,提供了29小时转录语音数据,以供自动语音识别研究使用。
特点
该数据集的主要特点在于其多语种覆盖范围,包含18种语言的转录数据,以及针对带有15种不同L2口音的非母语英语的转录数据。数据集的所有配置(语言)除了带口音的英语外,都包含了训练、验证和测试三个数据集分割。带口音的英语配置仅包含测试分割。数据集采用CC0-1.0和其他类型的许可证进行授权。
使用方法
使用VoxPopuli数据集时,用户可以根据需要加载特定语言的数据,也可以一次性加载所有语言的数据。对于特定语言的数据加载,用户需传递语言名称作为配置名称;对于加载所有语言,则使用'multilang'配置名称。若需加载具有特定口音的英语数据,则使用'en_accented'配置名称。加载时,可以指定所需的语言列表。
背景与挑战
背景概述
VoxPopuli数据集是一项大规模的多语种语音语料库,旨在用于表征学习、半监督学习及解释。该数据集的原始数据收集自2009年至2020年的欧洲议会活动录音,得到了欧洲议会的创建与共享支持。VoxPopuli包含了18种语言的转录语音数据,以及为研究英语自动语音识别(ASR)中带有口音的语音而准备的29小时非母语英语的转录语音数据。该数据集的研究背景主要涉及多语种语音识别和处理,为相关领域的研究提供了丰富的资源,对推动多语种语音技术的发展具有重要意义。
当前挑战
在构建VoxPopuli数据集的过程中,研究人员面临了多方面的挑战。首先,多语种数据的收集和整理工作复杂度高,需要克服语言差异带来的困难。其次,保证数据的质量和准确性,特别是在转录和标注过程中,确保语音与文本的一致性是一项艰巨的任务。此外,数据集中的口音多样性为自动语音识别带来了额外的挑战,需要研究者在模型训练和评估中考虑更多变量。在研究领域问题上,VoxPopuli数据集解决了多语种环境下的语音识别难题,但同时也面临着如何提高对不同口音识别准确性的挑战。
常用场景
经典使用场景
VoxPopuli语音语料库作为大规模多语言语音数据集,其经典使用场景主要集中在自动语音识别(ASR)领域,助力研究者开展表征学习、半监督学习及解释性学习。该数据集支持18种语言的标注语音数据,为构建和优化跨语言的ASR模型提供了丰富资源。
实际应用
在实际应用中,VoxPopuli数据集可用于开发多语言语音助手、语音翻译服务以及语音分析工具等。它为构建能够处理多种语言和口音的语音识别系统提供了坚实基础,广泛应用于语言技术领域。
衍生相关工作
VoxPopuli数据集的开放和共享,促进了相关领域的研究进展,衍生出了一系列经典工作。这些工作涉及跨语言语音识别模型的构建、多语言语音数据的处理方法以及口音识别技术的改进等,对语音识别技术的发展产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作