five

mbarnig/lb-de-fr-en-pt-12800-TTS-CORPUS

收藏
Hugging Face2022-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mbarnig/lb-de-fr-en-pt-12800-TTS-CORPUS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言多说话者的TTS语音语料库,包含12,800个平衡样本,每个样本都有音频文件(wav格式,采样率为16000 Hz)和相关的转录文本(csv格式,包含两列)。数据集由18个说话者的语音数据组成,来源包括VCTK、LJSpeech、m-ailabs、SIWIS、Rhasspy、Thorsten、TTS-Portuguese-Corpus、Marylux、uni.lu、rtl.lu以及个人贡献的样本。数据集经过手动检查,转录文本已扩展和修正以符合音频文件。数据结构的组织方式类似于mailabs格式,按语言、性别和说话者进行嵌套。
提供机构:
mbarnig
原始信息汇总

数据集概述

数据集名称

custom multilingual-multispeaker TTS speech corpus

数据集内容

  • 样本数量: 12,800个平衡样本
  • 音频格式: wav,采样率为16000 Hz
  • 转录格式: csv,包含两个列
  • 发言人数量: 18位

语言支持

  • lb (卢森堡语)
  • de (德语)
  • fr (法语)
  • en (英语)
  • pt (葡萄牙语)

数据来源

  • VCTK: 英语男性样本,共1280个(CC BY 4.0)
  • LJSpeech: 英语女性样本,共1280个(公共领域)
  • m-ailabs: 法语男性样本,共1280个(公共免费许可)
  • SIWIS: 法语女性样本,共1024个(CC BY 4.0)
  • Rhasspy: 德语女性样本,共1082个(CC0 1.0)
  • Thorsten: 德语男性样本,共1280个(CC0)
  • TTS-Portuguese-Corpus: 葡萄牙语男性样本,共2560个(CC BY 4.0)
  • Marylux: 卢森堡语和德语女性样本,共663+198+256个(CC BY-NC-SA 4.0)
  • uni.lu: 卢森堡语女性和男性样本,共409+231个(© uni.lu)
  • rtl.lu: 卢森堡语男性样本,共1257个(© RTL-CLT-UFA)
  • Charel: 卢森堡语男孩样本,共11个

数据结构

  • 遵循mailabs格式,包含语言、性别和发言人三个层级结构,每个发言人包含wav文件夹和多个metadata csv文件。

许可证

  • CC BY-NC-SA 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作