Hi-Fi Multi-Speaker English TTS Dataset

arXiv2021-06-15 更新2024-06-21 收录

下载链接：

http://www.openslr.org/109/

下载链接

链接失效反馈

官方服务：

资源简介：

Hi-Fi Multi-Speaker English TTS Dataset是由英伟达公司创建的高质量多演讲者英语语音数据集，旨在训练文本到语音模型。该数据集包含来自10位演讲者的约292小时语音数据，每位演讲者至少有17小时的数据，采样率为44.1 kHz。数据集基于LibriVox有声书和Project Gutenberg文本，通过严格的音频质量分析和文本-音频匹配验证确保数据质量。此数据集特别适用于研究高质量、多变声音的文本到语音合成技术，以解决现有数据集在音频质量和多样性方面的不足。

The Hi-Fi Multi-Speaker English TTS Dataset is a high-quality multi-speaker English speech dataset created by NVIDIA Corporation for training text-to-speech models. It contains approximately 292 hours of speech data from 10 distinct speakers, with each speaker contributing a minimum of 17 hours of audio, and the sampling rate is set to 44.1 kHz. The dataset is built upon audiobooks from LibriVox and texts from Project Gutenberg, with data quality guaranteed through rigorous audio quality analysis and text-audio alignment verification. This dataset is particularly suitable for researching high-quality, diverse-voice text-to-speech synthesis technologies to address the shortcomings of existing datasets in terms of audio quality and diversity.

提供机构：

英伟达

创建时间：

2021-04-04

搜集汇总

数据集介绍

构建方式

在语音合成领域，高质量多说话人数据集的构建对于推动神经语音合成模型的发展至关重要。Hi-Fi多说话人英语TTS数据集的构建过程体现了严谨的工程化流程，其核心在于从LibriVox公开领域的有声读物中筛选高质量语音样本。构建团队首先通过元数据分析，筛选出拥有至少50小时录音的朗读者，随后下载44.1 kHz采样率的高保真音频文件。通过带宽分析和信噪比评估，对朗读者进行严格筛选，确保信号带宽不低于13 kHz，且在300 Hz至4 kHz频段内信噪比至少达到32 dB。文本处理方面，采用光学字符识别技术获取参考文本，并利用QuartzNet自动语音识别模型进行文本-音频对齐，辅以CTC分割算法确保对齐精度。最终，通过词错误率验证，仅保留完全匹配的样本，从而构建出包含10位说话人、总计约292小时的高质量语音语料库。

使用方法

在语音合成模型的训练与应用中，该数据集提供了灵活且规范的使用途径。研究人员可直接从公开存储库下载数据集，其中包含以WAV格式存储的音频文件及对应的原始文本与标准化文本。数据集已预先划分为开发集和测试集，便于进行模型性能的客观评估与比较。在模型训练阶段，建议利用纯净子集进行高保真语音合成模型的训练，而其他子集则可作为补充数据，用于提升模型的泛化能力或进行数据增强研究。由于数据集采用知识共享许可协议，允许商业与非商业用途，因此可广泛用于多说话人语音合成、语音克隆、声音适配等前沿研究。同时，配套发布的NeMo工具包提供了文本标准化与音频分割的代码，进一步降低了数据处理的技术门槛，助力研究社区高效利用这一优质资源。

背景与挑战

背景概述

随着神经网络技术在语音合成领域的深入应用，高质量多说话人文本转语音数据集的构建成为推动该领域发展的关键。2021年，NVIDIA的研究团队Evelina Bakhturina等人基于LibriVox有声读物和古登堡计划文本，创建了Hi-Fi多说话人英语TTS数据集。该数据集旨在解决现有公开数据集中音频质量参差不齐、采样率偏低以及单说话人数据量不足等问题，通过严格的信号带宽与信噪比筛选，汇集了10位说话人总计292小时的高保真语音，采样率达44.1 kHz，为训练具有更广音高范围和更少发音错误的高质量多说话人TTS模型提供了重要资源。

当前挑战

在语音合成领域，构建能够广泛覆盖不同音色、韵律且具备高自然度的多说话人系统面临核心挑战，包括如何在有限数据下实现声音的多样性与表现力，以及如何减少合成语音中的噪声与伪影。具体到Hi-Fi数据集的构建过程，挑战主要体现在从海量公开音频中筛选高质量语音，需克服原始录音信号带宽狭窄、信噪比波动以及文本与音频对齐误差等问题；同时，确保参考文本的准确性并实现零词错误率的对齐验证，亦需依赖先进的自动语音识别技术与精细的后处理流程。

常用场景

经典使用场景

在语音合成领域，高质量多说话人数据集对于推动神经TTS模型的发展至关重要。Hi-Fi Multi-Speaker English TTS Dataset凭借其44.1 kHz高采样率、严格的信噪比筛选以及每位说话人超过17小时的音频时长，成为训练高保真度多说话人合成系统的理想选择。该数据集常被用于探索说话人风格迁移、韵律建模以及跨说话人泛化能力的研究，为学术界提供了接近专业录音质量的基准数据。

解决学术问题

该数据集有效解决了多说话人语音合成中数据质量参差不齐的瓶颈问题。通过设定13 kHz以上带宽与32 dB以上信噪比的硬性标准，显著降低了音频噪声与频谱失真对模型训练的干扰。其严格的文本-音频对齐验证机制，为零词错误率的样本筛选提供了可靠保障，使得研究者能够专注于声学建模的本质问题，从而在音色自然度、发音准确性和韵律丰富性等方面取得突破性进展。

实际应用

在实际应用层面，该数据集为智能语音助手、有声读物自动生成及个性化虚拟人语音定制等场景提供了核心数据支撑。其多说话人特性支持开发具备多样化音色选择的商用TTS系统，而高采样率与宽频带特性则能满足广播级音频产品的质量需求。在辅助技术领域，该数据集还可用于构建适应不同用户偏好的语音交互界面，提升无障碍服务的自然度与包容性。

数据集最近研究