five

MikhailT/hifi-tts

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MikhailT/hifi-tts
下载链接
链接失效反馈
官方服务:
资源简介:
Hi-Fi多说话者英语TTS数据集(Hi-Fi TTS)基于LibriVox的公共领域有声书和Gutenberg Project的文本。该数据集主要用于文本到语音(TTS)和文本到音频的任务,包含clean、other和all三种配置,每种配置都有train、dev和test分割。数据集的特征包括说话者、文件、时长、文本、未预处理的文本、标准化文本和音频等。

Hi-Fi multi-speaker English TTS dataset (Hi-Fi TTS) is built upon public-domain audiobooks from LibriVox and text resources from the Gutenberg Project. This dataset is primarily intended for text-to-speech (TTS) and text-to-audio tasks, and includes three configurations: clean, other, and all. Each configuration has train, dev, and test splits. The features of the dataset include speaker, file, duration, text, raw text, normalized text, and audio.
提供机构:
MikhailT
原始信息汇总

数据集概述

数据集名称

  • 名称: HiFi TTS

数据集描述

  • 描述: Hi-Fi Multi-Speaker English TTS Dataset (Hi-Fi TTS) 基于LibriVox的公共领域有声书和Gutenberg项目文本。

数据集配置

  • 配置名称: clean, other, all
  • 版本: 1.0.0

数据文件路径

  • clean配置:
    • train: data/train.clean-*
    • test: data/test.clean-*
    • dev: data/dev.clean-*
  • other配置:
    • train: data/train.other-*
    • test: data/test.other-*
    • dev: data/dev.other-*
  • all配置:
    • train.clean: data/train.clean-*
    • train.other: data/train.other-*
    • dev.clean: data/dev.clean-*
    • dev.other: data/dev.other-*
    • test.clean: data/test.clean-*
    • test.other: data/test.other-*

数据集特征

  • 通用特征:
    • speaker: string
    • file: string
    • duration: float32
    • text: string
    • text_no_preprocessing: string
    • text_normalized: string
    • audio:
      • sampling_rate: 44100

数据集分割

  • clean配置:
    • train: 125989 examples, 17023899243 bytes
    • dev: 150 examples, 24204633 bytes
    • test: 300 examples, 52040552 bytes
  • other配置:
    • train: 196489 examples, 26755286687 bytes
    • dev: 350 examples, 65601521 bytes
    • test: 700 examples, 129348882 bytes
  • all配置:
    • train.clean: 125989 examples, 17023899243 bytes
    • train.other: 196489 examples, 26755286687 bytes
    • dev.clean: 150 examples, 24204633 bytes
    • dev.other: 350 examples, 65601521 bytes
    • test.clean: 300 examples, 52040552 bytes
    • test.other: 700 examples, 129348882 bytes

数据集大小

  • clean配置: 17104553676 bytes
  • other配置: 26957939607 bytes
  • all配置: 44050381518 bytes

下载大小

  • clean配置: 16271001158 bytes
  • other配置: 25655017468 bytes
  • all配置: 7040649041 bytes

语言

  • 语言: en (英语)

许可证

  • 许可证: cc-by-4.0

引用信息

  • 引用:

    @article{bakhturina2021hi, title={{Hi-Fi Multi-Speaker English TTS Dataset}}, author={Bakhturina, Evelina and Lavrukhin, Vitaly and Ginsburg, Boris and Zhang, Yang}, journal={arXiv preprint arXiv:2104.01497}, year={2021} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集HiFi TTS的构建,是基于LibriVox的公共领域有声书籍和Gutenberg项目文本,通过精心挑选和预处理,形成了包含多种语言特征的多说话人英语文本到语音转换的数据集。数据集分为clean和other两种配置,clean配置侧重于高质量的语音数据,而other配置则包含了更多样化的语音变体。数据集的构建过程中,每个音频样本均包含了说话人信息、文件路径、持续时间、文本内容以及预处理后的文本等特征。
使用方法
用户在使用HiFi TTS数据集时,可以根据具体的需求选择clean或other配置。数据集以HuggingFace的格式组织,可以直接通过HuggingFace的库加载使用。每个数据样本包含了音频文件、文本内容以及相关的元数据,用户可以依据这些信息进行文本到语音的模型训练、性能评估以及语音合成等研究工作。数据集的下载和加载过程均遵循相应的使用规范,确保数据的正确性和完整性。
背景与挑战
背景概述
在文本转语音(Text-to-Speech, TTS)研究领域,高质量的多语者语音合成数据集对于模型的训练与评估至关重要。HiFi TTS数据集,全称为Hi-Fi多语者英语TTS数据集,是由Evelina Bakhturina、Vitaly Lavrukhin、Boris Ginsburg和Yang Zhang等研究人员于2021年基于LibriVox公共领域有声读物和Gutenberg项目文本构建而成。该数据集旨在为TTS研究提供高质量的英语语音样本,推动语音合成技术的发展。HiFi TTS的发布对于提升多语者TTS系统的自然度和真实感产生了显著影响,成为相关领域研究的重要资源。
当前挑战
HiFi TTS数据集在构建过程中面临了多项挑战。首先,数据集的多样性和质量是核心挑战之一,需确保各语者的语音样本具有足够的代表性和一致性。其次,数据清洗和处理过程中,如何去除噪声和异常数据,保证音频与文本的准确对应,也是一项技术难题。此外,大规模数据集的存储和分发也提出了对数据管理和网络资源的挑战。在研究领域问题方面,HiFi TTS数据集需解决如何通过深度学习模型准确捕捉语者特性、实现高质量的语音合成等挑战。
常用场景
经典使用场景
在语音合成领域,HiFi TTS数据集以其高质量的音频采样和多说话人特性,成为文本到语音合成(TTS)任务中的经典资源。该数据集提供了经过预处理的文本和对应的纯净语音波形,使得研究人员可以专注于模型的训练和优化,以实现自然流畅的语音输出。
解决学术问题
HiFi TTS数据集解决了语音合成研究中存在的音质不佳、说话人单一等问题。它为学术研究提供了丰富的多说话人语音数据,有助于提升TTS系统的表现力,增强语音的自然度和可懂度,进而推动相关领域的学术探索和技术进步。
实际应用
实际应用中,HiFi TTS数据集被广泛用于开发商业级语音合成系统,如智能助手、有声书阅读器等。其高质量的音频能够满足用户对语音自然度和真实感的高标准要求,为人工智能产品提供出色的语音交互体验。
数据集最近研究
最新研究方向
在文本转语音(TTS)领域,HiFi TTS数据集以其高质量的多发音人英语语音库而备受关注。近期研究集中于探索深度学习模型在语音合成中的性能,特别是如何利用HiFi TTS数据集实现更加自然的语音输出。学者们正致力于研究声学模型和声码器的优化策略,以及通过数据增强和模型正则化提升语音质量。此外,对于语音风格转换、情感表达等高级特征的建模也成为了研究的热点,这些研究对于提升TTS系统的真实感和适用性具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作