five

MushanW/GLOBE

收藏
Hugging Face2024-06-24 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/MushanW/GLOBE
下载链接
链接失效反馈
官方服务:
资源简介:
GLOBE是一个高质量的英语语料库,包含了全球各地的口音,旨在解决当前零样本说话人自适应文本到语音(TTS)系统在适应带口音的说话人时泛化能力差的问题。该数据集包含了来自23,519位说话者的语音,覆盖了全球164种口音,并且包含了详细的说话者元数据。与原始数据集Common Voice相比,GLOBE通过严格的筛选和增强过程显著提高了语音数据的质量,并填补了所有缺失的说话者元数据。最终整理的GLOBE语料库包含了535小时的语音数据,采样率为24 kHz。基准测试结果表明,使用GLOBE语料库训练的说话人自适应TTS模型在合成语音时,能够比其他流行的语料库训练的模型具有更好的说话人相似性和可比的自然度。

GLOBE是一个高质量的英语语料库,包含了全球各地的口音,旨在解决当前零样本说话人自适应文本到语音(TTS)系统在适应带口音的说话人时泛化能力差的问题。该数据集包含了来自23,519位说话者的语音,覆盖了全球164种口音,并且包含了详细的说话者元数据。与原始数据集Common Voice相比,GLOBE通过严格的筛选和增强过程显著提高了语音数据的质量,并填补了所有缺失的说话者元数据。最终整理的GLOBE语料库包含了535小时的语音数据,采样率为24 kHz。基准测试结果表明,使用GLOBE语料库训练的说话人自适应TTS模型在合成语音时,能够比其他流行的语料库训练的模型具有更好的说话人相似性和可比的自然度。
提供机构:
MushanW
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: CC0-1.0
  • 源数据集: mozilla-foundation/common_voice_14_0
  • 任务类别:
    • 文本到音频
    • 自动语音识别
    • 音频到音频
    • 音频分类

数据集特征

  • 音频: 音频数据
  • 说话者ID: 字符串
  • 转录文本: 字符串
  • 口音: 字符串
  • 持续时间: 浮点数
  • 年龄: 字符串
  • 性别: 字符串

数据集分割

  • 测试集:
    • 字节数: 496943021.995
    • 样本数: 5455
  • 验证集:
    • 字节数: 373541300.088
    • 样本数: 4111
  • 训练集:
    • 字节数: 53758082721.361
    • 样本数: 572159

数据集大小

  • 下载大小: 47602304610
  • 数据集大小: 54628567043.444

配置

  • 默认配置:
    • 测试集: data/test-*
    • 验证集: data/val-*
    • 训练集: data/train-*
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作