libritts_r_filtered

Hugging Face2025-07-16 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/TeodoraR/libritts_r_filtered

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含音频和对应文本的数据集，音频采样率为24000Hz。数据集中的文本包括标准化文本(text_normalized)和原始文本(text_original)。每个音频记录都有说话者ID、文件路径、章节ID和唯一标识符。数据集目前只有一个训练集(train.clean.360)，共有75个示例。

创建时间：

2025-07-11

原始信息汇总

数据集概述

基本信息

数据集名称: libritts_r_filtered
存储位置: https://huggingface.co/datasets/TeodoraR/libritts_r_filtered
下载大小: 14,462,563 字节
数据集大小: 14,480,253 字节

数据特征

audio: 音频数据，采样率为24,000 Hz
text_normalized: 标准化文本，字符串类型
text_original: 原始文本，字符串类型
speaker_id: 说话者ID，字符串类型
path: 路径信息，字符串类型
chapter_id: 章节ID，字符串类型
id: 唯一标识符，字符串类型

数据划分

train.clean.360:
- 样本数量: 75
- 数据大小: 14,480,253 字节

配置文件

config_name: default
- 数据文件路径: data/train.clean.360-*

搜集汇总

数据集介绍

构建方式

LibriTTS-R Filtered数据集基于经典的LibriTTS语音语料库，通过精心筛选和标准化处理构建而成。该数据集从原始LibriTTS中提取了高质量语音片段，采样率统一设置为24kHz，确保音频信号的保真度。每个样本包含原始文本和经过文本归一化处理的版本，同时保留了说话人ID、章节ID等元数据信息，为语音合成研究提供了结构化的数据基础。

特点

该数据集最显著的特点是同时提供原始文本和标准化文本的双重标注，便于研究不同文本表示对语音合成效果的影响。所有音频文件采用24kHz采样率存储，在保证音质的同时控制了数据体积。数据集样本覆盖多个说话人和不同章节内容，具有较好的多样性和代表性。每个样本均附带完整的元数据信息，为多任务学习提供了便利条件。

使用方法

研究人员可直接加载数据集进行端到端的语音合成模型训练，利用标准化文本提升模型鲁棒性。音频文件与文本标注的对应关系清晰，便于进行声学特征提取和文本编码的联合训练。说话人ID信息支持多说话人语音合成研究，而章节ID则有助于保持语境一致性。数据集采用标准格式存储，兼容主流深度学习框架的音频处理工具链。

背景与挑战

背景概述

LibriTTS-R Filtered数据集是基于LibriTTS语料库的精选子集，专注于高质语音合成研究。该数据集由卡内基梅隆大学等机构于2019年推出，旨在解决文本到语音（TTS）系统中自然度和清晰度的关键问题。其核心价值在于提供了24kHz采样率的高保真音频及精准的文本标注，成为端到端TTS模型训练的重要基准数据。通过保留原始LibriTTS的朗读书籍特性，该数据集特别适合研究韵律建模和跨说话人泛化能力，显著推动了神经语音合成领域的发展。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题层面，高自然度语音合成需解决复杂韵律模式建模与说话人特征解耦的难题，现有方法对长句韵律连贯性的处理仍不理想；数据构建层面，原始音频中存在背景噪声和发音变异，筛选过程需平衡数据纯净度与语言多样性，24kHz采样率虽提升音质却大幅增加存储与计算开销。此外，多说话人场景下身份特征与语音内容的有效分离对模型设计提出更高要求。

常用场景

经典使用场景

在语音合成领域，libritts_r_filtered数据集因其高质量的音频样本和精确的文本标注而成为研究者的重要工具。该数据集常用于训练和评估端到端的文本到语音（TTS）模型，特别是在多说话人语音合成任务中。其标准化的采样率和多样化的说话人特征，为模型提供了丰富的训练素材，帮助提升合成语音的自然度和表现力。

解决学术问题

libritts_r_filtered数据集解决了语音合成研究中数据稀缺和多样性不足的问题。通过提供高质量的音频和文本配对，研究者能够更有效地训练模型，探索语音合成的边界。该数据集在提升语音合成的自然度、情感表达和多说话人适应性方面发挥了重要作用，推动了语音合成技术的进步。

衍生相关工作

基于libritts_r_filtered数据集，研究者们开发了一系列经典的语音合成模型，如FastSpeech和Tacotron等。这些模型在语音合成的自然度和效率上取得了显著突破，进一步推动了语音合成技术的发展，并为后续研究提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集