five

RitchieP/VerbaLex_voice

收藏
Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/RitchieP/VerbaLex_voice
下载链接
链接失效反馈
官方服务:
资源简介:
VerbaLex Voice数据集是一个包含非母语英语使用者语音的集合,源自L2-Arctic数据集。目前,数据集仅包含少数几种口音的语音语料库,如阿拉伯语、中文和印度语。数据集的结构按口音分类,每个口音都有对应的音频和转录文件夹,并且这些文件夹内部分为训练集和测试集。

VerbaLex Voice数据集是一个包含非母语英语使用者语音的集合,源自L2-Arctic数据集。目前,数据集仅包含少数几种口音的语音语料库,如阿拉伯语、中文和印度语。数据集的结构按口音分类,每个口音都有对应的音频和转录文件夹,并且这些文件夹内部分为训练集和测试集。
提供机构:
RitchieP
原始信息汇总

VerbaLex Voice 数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 自动语音识别
  • 语言: 英语
  • 数据集名称: VerbaLex Voice

数据集内容

  • 来源: 该数据集是从L2-Arctic数据集导入的,包含非母语英语使用者的语音数据。
  • 口音: 目前数据集包含的口音有阿拉伯语、汉语和印地语。

数据集结构

  • 组织方式: 数据集根据不同口音配置在各自的音频和转录文件夹中。例如,audio/ar/ 包含阿拉伯口音的音频文件,transcript/zh/ 包含汉语口音的转录文件。
  • 文件分割: 每个口音文件夹内包含训练和测试分割的音频和转录文件。

引用信息

@inproceedings{zhao2018l2arctic, author={Guanlong {Zhao} and Sinem {Sonsaat} and Alif {Silpachai} and Ivana {Lucic} and Evgeny {Chukharev-Hudilainen} and John {Levis} and Ricardo {Gutierrez-Osuna}}, title={L2-ARCTIC: A Non-native English Speech Corpus}, year=2018, booktitle={Proc. Interspeech}, pages={2783–2787}, doi={10.21437/Interspeech.2018-1110}, url={http://dx.doi.org/10.21437/Interspeech.2018-1110} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作