mbarnig/lb-de-fr-en-pt-12800-TTS-CORPUS
收藏Hugging Face2022-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mbarnig/lb-de-fr-en-pt-12800-TTS-CORPUS
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言多说话者的TTS语音语料库,包含12,800个平衡样本,每个样本都有音频文件(wav格式,采样率为16000 Hz)和相关的转录文本(csv格式,包含两列)。数据集由18个说话者的语音数据组成,来源包括VCTK、LJSpeech、m-ailabs、SIWIS、Rhasspy、Thorsten、TTS-Portuguese-Corpus、Marylux、uni.lu、rtl.lu以及个人贡献的样本。数据集经过手动检查,转录文本已扩展和修正以符合音频文件。数据结构的组织方式类似于mailabs格式,按语言、性别和说话者进行嵌套。
提供机构:
mbarnig
原始信息汇总
数据集概述
数据集名称
custom multilingual-multispeaker TTS speech corpus
数据集内容
- 样本数量: 12,800个平衡样本
- 音频格式: wav,采样率为16000 Hz
- 转录格式: csv,包含两个列
- 发言人数量: 18位
语言支持
- lb (卢森堡语)
- de (德语)
- fr (法语)
- en (英语)
- pt (葡萄牙语)
数据来源
- VCTK: 英语男性样本,共1280个(CC BY 4.0)
- LJSpeech: 英语女性样本,共1280个(公共领域)
- m-ailabs: 法语男性样本,共1280个(公共免费许可)
- SIWIS: 法语女性样本,共1024个(CC BY 4.0)
- Rhasspy: 德语女性样本,共1082个(CC0 1.0)
- Thorsten: 德语男性样本,共1280个(CC0)
- TTS-Portuguese-Corpus: 葡萄牙语男性样本,共2560个(CC BY 4.0)
- Marylux: 卢森堡语和德语女性样本,共663+198+256个(CC BY-NC-SA 4.0)
- uni.lu: 卢森堡语女性和男性样本,共409+231个(© uni.lu)
- rtl.lu: 卢森堡语男性样本,共1257个(© RTL-CLT-UFA)
- Charel: 卢森堡语男孩样本,共11个
数据结构
- 遵循mailabs格式,包含语言、性别和发言人三个层级结构,每个发言人包含wav文件夹和多个metadata csv文件。
许可证
- CC BY-NC-SA 4.0



