MikhailT/hifi-tts

Name: MikhailT/hifi-tts
Creator: MikhailT
Published: 2023-11-30 07:17:30
License: 暂无描述

Hugging Face2023-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MikhailT/hifi-tts

下载链接

链接失效反馈

官方服务：

资源简介：

Hi-Fi多说话者英语TTS数据集（Hi-Fi TTS）基于LibriVox的公共领域有声书和Gutenberg Project的文本。该数据集主要用于文本到语音（TTS）和文本到音频的任务，包含clean、other和all三种配置，每种配置都有train、dev和test分割。数据集的特征包括说话者、文件、时长、文本、未预处理的文本、标准化文本和音频等。

Hi-Fi multi-speaker English TTS dataset (Hi-Fi TTS) is built upon public-domain audiobooks from LibriVox and text resources from the Gutenberg Project. This dataset is primarily intended for text-to-speech (TTS) and text-to-audio tasks, and includes three configurations: clean, other, and all. Each configuration has train, dev, and test splits. The features of the dataset include speaker, file, duration, text, raw text, normalized text, and audio.

提供机构：

MikhailT

原始信息汇总

数据集概述

数据集名称

名称: HiFi TTS

数据集描述

描述: Hi-Fi Multi-Speaker English TTS Dataset (Hi-Fi TTS) 基于LibriVox的公共领域有声书和Gutenberg项目文本。

数据集配置

配置名称: clean, other, all
版本: 1.0.0

数据文件路径

clean配置:
- train: data/train.clean-*
- test: data/test.clean-*
- dev: data/dev.clean-*
other配置:
- train: data/train.other-*
- test: data/test.other-*
- dev: data/dev.other-*
all配置:
- train.clean: data/train.clean-*
- train.other: data/train.other-*
- dev.clean: data/dev.clean-*
- dev.other: data/dev.other-*
- test.clean: data/test.clean-*
- test.other: data/test.other-*

数据集特征

通用特征:
- speaker: string
- file: string
- duration: float32
- text: string
- text_no_preprocessing: string
- text_normalized: string
- audio:
  - sampling_rate: 44100

数据集分割

clean配置:
- train: 125989 examples, 17023899243 bytes
- dev: 150 examples, 24204633 bytes
- test: 300 examples, 52040552 bytes
other配置:
- train: 196489 examples, 26755286687 bytes
- dev: 350 examples, 65601521 bytes
- test: 700 examples, 129348882 bytes
all配置:
- train.clean: 125989 examples, 17023899243 bytes
- train.other: 196489 examples, 26755286687 bytes
- dev.clean: 150 examples, 24204633 bytes
- dev.other: 350 examples, 65601521 bytes
- test.clean: 300 examples, 52040552 bytes
- test.other: 700 examples, 129348882 bytes

数据集大小

clean配置: 17104553676 bytes
other配置: 26957939607 bytes
all配置: 44050381518 bytes

下载大小

clean配置: 16271001158 bytes
other配置: 25655017468 bytes
all配置: 7040649041 bytes

语言

语言: en (英语)

许可证

许可证: cc-by-4.0

引用信息

引用:

@article{bakhturina2021hi, title={{Hi-Fi Multi-Speaker English TTS Dataset}}, author={Bakhturina, Evelina and Lavrukhin, Vitaly and Ginsburg, Boris and Zhang, Yang}, journal={arXiv preprint arXiv:2104.01497}, year={2021} }

搜集汇总

数据集介绍

构建方式

该数据集HiFi TTS的构建，是基于LibriVox的公共领域有声书籍和Gutenberg项目文本，通过精心挑选和预处理，形成了包含多种语言特征的多说话人英语文本到语音转换的数据集。数据集分为clean和other两种配置，clean配置侧重于高质量的语音数据，而other配置则包含了更多样化的语音变体。数据集的构建过程中，每个音频样本均包含了说话人信息、文件路径、持续时间、文本内容以及预处理后的文本等特征。

使用方法

用户在使用HiFi TTS数据集时，可以根据具体的需求选择clean或other配置。数据集以HuggingFace的格式组织，可以直接通过HuggingFace的库加载使用。每个数据样本包含了音频文件、文本内容以及相关的元数据，用户可以依据这些信息进行文本到语音的模型训练、性能评估以及语音合成等研究工作。数据集的下载和加载过程均遵循相应的使用规范，确保数据的正确性和完整性。

背景与挑战

背景概述

在文本转语音（Text-to-Speech, TTS）研究领域，高质量的多语者语音合成数据集对于模型的训练与评估至关重要。HiFi TTS数据集，全称为Hi-Fi多语者英语TTS数据集，是由Evelina Bakhturina、Vitaly Lavrukhin、Boris Ginsburg和Yang Zhang等研究人员于2021年基于LibriVox公共领域有声读物和Gutenberg项目文本构建而成。该数据集旨在为TTS研究提供高质量的英语语音样本，推动语音合成技术的发展。HiFi TTS的发布对于提升多语者TTS系统的自然度和真实感产生了显著影响，成为相关领域研究的重要资源。

当前挑战

HiFi TTS数据集在构建过程中面临了多项挑战。首先，数据集的多样性和质量是核心挑战之一，需确保各语者的语音样本具有足够的代表性和一致性。其次，数据清洗和处理过程中，如何去除噪声和异常数据，保证音频与文本的准确对应，也是一项技术难题。此外，大规模数据集的存储和分发也提出了对数据管理和网络资源的挑战。在研究领域问题方面，HiFi TTS数据集需解决如何通过深度学习模型准确捕捉语者特性、实现高质量的语音合成等挑战。

常用场景

经典使用场景

在语音合成领域，HiFi TTS数据集以其高质量的音频采样和多说话人特性，成为文本到语音合成（TTS）任务中的经典资源。该数据集提供了经过预处理的文本和对应的纯净语音波形，使得研究人员可以专注于模型的训练和优化，以实现自然流畅的语音输出。

解决学术问题

HiFi TTS数据集解决了语音合成研究中存在的音质不佳、说话人单一等问题。它为学术研究提供了丰富的多说话人语音数据，有助于提升TTS系统的表现力，增强语音的自然度和可懂度，进而推动相关领域的学术探索和技术进步。

实际应用

实际应用中，HiFi TTS数据集被广泛用于开发商业级语音合成系统，如智能助手、有声书阅读器等。其高质量的音频能够满足用户对语音自然度和真实感的高标准要求，为人工智能产品提供出色的语音交互体验。

数据集最近研究