blabble-io/libritts_r

Name: blabble-io/libritts_r
Creator: blabble-io
Published: 2024-02-09 21:20:19
License: 暂无描述

Hugging Face2024-02-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/blabble-io/libritts_r

下载链接

链接失效反馈

官方服务：

资源简介：

LibriTTS-R是LibriTTS语料库的音质改进版本，包含约585小时的24kHz采样率的英语朗读语音，适用于文本到语音（TTS）任务。该数据集包含多个配置和分割，支持流式加载，并提供了详细的列信息和示例行。

LibriTTS-R is a speech quality-enhanced variant of the LibriTTS corpus, containing approximately 585 hours of English read speech at a 24 kHz sampling rate, and is tailored for text-to-speech (TTS) tasks. This dataset includes multiple configurations and splits, supports streaming loading, and provides detailed column information and sample rows.

提供机构：

blabble-io

原始信息汇总

数据集概述

数据集名称： LibriTTS-R

数据集类型： 文本到语音（Text-to-Speech）

语言： 英语（en）

数据集大小： 10,000 < n < 100,000

许可协议： CC BY 4.0

数据集配置

配置名称： dev
- 数据文件：
  - 分割： dev.clean
  - 路径： "data/dev.clean/dev.clean*.parquet"
配置名称： clean
- 数据文件：
  - 分割： dev.clean
  - 路径： "data/dev.clean/dev.clean*.parquet"
  - 分割： test.clean
  - 路径： "data/test.clean/test.clean*.parquet"
  - 分割： train.clean.100
  - 路径： "data/train.clean.100/train.clean.100*.parquet"
  - 分割： train.clean.360
  - 路径： "data/train.clean.360/train.clean.360*.parquet"
配置名称： other
- 数据文件：
  - 分割： dev.other
  - 路径： "data/dev.other/dev.other*.parquet"
  - 分割： test.other
  - 路径： "data/test.other/test.other*.parquet"
  - 分割： train.other.500
  - 路径： "data/train.other.500/train.other.500*.parquet"
配置名称： all
- 数据文件：
  - 分割： dev.clean
  - 路径： "data/dev.clean/dev.clean*.parquet"
  - 分割： dev.other
  - 路径： "data/dev.other/dev.other*.parquet"
  - 分割： test.clean
  - 路径： "data/test.clean/test.clean*.parquet"
  - 分割： test.other
  - 路径： "data/test.other/test.other*.parquet"
  - 分割： train.clean.100
  - 路径： "data/train.clean.100/train.clean.100*.parquet"
  - 分割： train.clean.360
  - 路径： "data/train.clean.360/train.clean.360*.parquet"
  - 分割： train.other.500
  - 路径： "data/train.other.500/train.other.500*.parquet"

数据集分割

分割名称：
- dev.clean
- dev.other
- test.clean
- test.other
- train.clean.100
- train.clean.360
- train.other.500

搜集汇总

数据集介绍

构建方式

LibriTTS-R数据集是基于LibriTTS语料库通过语音修复技术构建的增强版本。原始LibriTTS包含约585小时、24kHz采样率的多说话人英文朗读语音数据，覆盖2456位说话人。研究团队对LibriTTS中的每条语音样本应用了先进的语音恢复算法，在保持原有语音内容和说话人身份不变的前提下，显著提升了音频的清晰度与自然度。最终生成的数据集保留了与LibriTTS完全一致的样本划分结构，包括dev.clean、dev.other、test.clean、test.other、train.clean.100、train.clean.360和train.other.500七个子集，并按照语音质量分为clean和other两大类别。

使用方法

用户可通过HuggingFace datasets库便捷加载LibriTTS-R数据集。默认配置为'all'，将下载全部7个子集。为适应不同需求，数据集提供了三种预定义配置：'dev'仅包含dev.clean子集用于快速测试，'clean'聚合所有clean类子集，'other'则包含other类子集。加载时支持按子集划分，例如使用load_dataset('blabble-io/libritts_r', 'clean', split='train.clean.100')仅获取特定训练数据。数据集完全兼容流式加载模式，通过设置streaming=True可实现大规模数据的高效处理。每条数据包含音频波形、文本、说话人标识等字段，可直接用于TTS模型的训练与评估。

背景与挑战

背景概述

LibriTTS-R数据集由Yuma Koizumi、Heiga Zen等研究人员于2023年发布，旨在为文本转语音（TTS）领域提供高质量的多说话人语音语料库。该数据集基于2019年发布的LibriTTS语料库，通过语音修复技术提升了原始录音的音质，保留了原有的585小时、24kHz采样率、涵盖2456位说话人的英文朗读语音及其对应文本。数据集采用CC BY 4.0许可协议，其核心研究问题在于验证语音修复方法能否有效改善TTS训练数据的声学质量，从而提升合成语音的自然度。LibriTTS-R的推出显著推动了TTS领域的进展，实验表明其真实样本与基于该数据训练的端到端TTS系统在语音自然度上均达到了与人类录音相当的水平，成为多说话人TTS研究的重要基准资源。

当前挑战

LibriTTS-R所面临的挑战首先体现在领域问题层面：语音修复技术需在去除噪声、失真等劣化因素的同时，保持说话人身份、情感和韵律等声学特征的完整性，避免引入人工痕迹，这对模型的设计与泛化能力提出了极高要求。其次，在构建过程中，由于原始LibriTTS语料源自有声读物，存在录音环境不一致、背景噪声多样以及部分样本音质退化严重等问题，导致修复算法需针对不同噪声类型和退化程度进行精细化处理，且需确保大规模数据（585小时）的处理效率与一致性。此外，如何平衡修复后的音质提升与数据保真度，避免过度平滑或丢失原始语音的细微特征，也是构建过程中的核心难点。

常用场景

经典使用场景

LibriTTS-R作为LibriTTS的声学质量增强版本，最经典的应用场景在于文本到语音合成系统的训练与评估。该数据集包含约585小时、24kHz采样率的多说话人英文语音数据，覆盖2456位说话人，并提供了原始文本与规范化文本两种标注。研究者常利用其“clean”与“other”配置分别模拟干净与复杂声学环境下的训练条件，从而系统性地探究语音合成模型在不同信噪比条件下的鲁棒性与自然度。此外，由于该数据集保留了与LibriTTS完全一致的语料结构，它也广泛用于对比实验，以量化语音修复技术对合成系统性能的提升效果。

解决学术问题

该数据集有效解决了早期语音合成研究中高质量多说话人语料稀缺且声学噪声干扰严重的核心问题。通过引入先进的语音修复技术，LibriTTS-R在保持原始语料结构不变的前提下，显著降低了背景噪声、失真与录音伪影，从而为端到端TTS模型提供了更纯净的训练信号。这直接推动了合成语音的自然度逼近真实人声水平，使得基于该数据训练的模型在主观评测中可达到与真实录音无显著差异的听感质量。其意义在于为语音合成领域树立了新的基准语料标准，并为后续研究提供了可复现的公平比较平台。

实际应用

在实际应用中，LibriTTS-R被广泛用于构建高保真度的语音助手、有声读物生成系统和个性化语音克隆服务。例如，科技公司可基于该数据集训练多说话人TTS引擎，以生成具有不同音色、语调和情感表达的合成语音，从而提升人机交互的自然体验。此外，该数据集还支撑了低资源语音合成场景的迁移学习研究，通过预训练在LibriTTS-R上的模型，可快速适配到特定说话人或方言的少量样本上，显著降低定制化语音应用的开发成本。其24kHz的高采样率也使其适用于对音质要求严苛的专业音频制作领域。

数据集最近研究