blabble-io/libritts

Name: blabble-io/libritts
Creator: blabble-io
Published: 2024-02-09 21:19:32
License: 暂无描述

Hugging Face2024-02-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/blabble-io/libritts

下载链接

链接失效反馈

官方服务：

资源简介：

LibriTTS是一个多说话者的英语语料库，包含约585小时的24kHz采样率的英语朗读语音，专为文本到语音（TTS）研究设计。该语料库来源于LibriSpeech语料库的原始材料，包括LibriVox的mp3音频文件和Project Gutenberg的文本文件。

提供机构：

blabble-io

原始信息汇总

数据集卡片 for LibriTTS

概述

LibriTTS 是一个多说话者的英语语料库，大约包含 585 小时的 24kHz 采样率的英语朗读语音，由 Heiga Zen 准备，并得到 Google Speech 和 Google Brain 团队成员的协助。LibriTTS 语料库旨在用于 TTS 研究。它源自 LibriSpeech 语料库的原始材料（来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件）。

使用

分割

数据集包含 7 个分割：

dev.clean
dev.other
test.clean
test.other
train.clean.100
train.clean.360
train.other.500

配置

数据集有 3 个配置，每个配置限制了 load_dataset() 函数将下载的分割。

默认配置是 "all"。

"dev": 仅包含 "dev.clean" 分割（适用于快速测试数据集）
"clean": 仅包含 "clean" 分割
"other": 仅包含 "other" 分割
"all": 包含所有分割

示例

加载 clean 配置，仅包含 train.clean.100 分割：

python load_dataset("blabble-io/libritts", "clean", split="train.clean.100")

支持流式加载：

python load_dataset("blabble-io/libritts", streaming=True)

列

数据集包含以下列：

json { "audio": datasets.Audio(sampling_rate=24_000), "text_normalized": datasets.Value("string"), "text_original": datasets.Value("string"), "speaker_id": datasets.Value("string"), "path": datasets.Value("string"), "chapter_id": datasets.Value("string"), "id": datasets.Value("string"), }

示例行

json { audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/5551a515e85b9e463062524539c2e1cb52ba32affe128dffd866db0205248bdd/LibriTTS/dev-clean/3081/166546/3081_166546_000028_000002.wav, array: ..., sampling_rate: 24000 }, text_normalized: How quickly he disappeared!", text_original: How quickly he disappeared!", speaker_id: 3081, path: /home/user/.cache/huggingface/datasets/downloads/extracted/5551a515e85b9e463062524539c2e1cb52ba32affe128dffd866db0205248bdd/LibriTTS/dev-clean/3081/166546/3081_166546_000028_000002.wav, chapter_id: 166546, id: 3081_166546_000028_000002 }

数据集详情

数据集描述

许可证: CC BY 4.0

搜集汇总

数据集介绍

构建方式

在语音合成研究领域，高质量语音数据的构建至关重要。LibriTTS数据集源自LibriSpeech语料库的原始音频与文本材料，由Heiga Zen与谷歌团队合作精心设计。该数据集通过对LibriVox的MP3音频文件及古腾堡计划的文本文件进行系统化处理，转化为采样率为24kHz的语音波形，并依据发音清晰度划分为“clean”与“other”两类，最终形成包含585小时、2456名说话人语音的多说话人英语语料库，专为文本到语音研究优化。

特点

LibriTTS数据集在语音合成领域展现出显著特性。其核心在于提供了高保真的24kHz采样音频，确保了语音信号的丰富细节。数据集依据发音质量细致划分为“clean”与“other”子集，并进一步按数据量细分为如train.clean.100等多个分割，为模型训练与评估提供了灵活选择。每条数据均包含归一化与原始文本、说话人及章节标识，支持对说话人风格与上下文的研究，其多说话人覆盖与清晰的结构设计，为合成语音的自然度与多样性研究奠定了坚实基础。

使用方法

为高效利用LibriTTS数据集，研究者可通过Hugging Face的datasets库进行加载。数据集提供“dev”、“clean”、“other”及“all”四种配置，分别对应不同的分割组合，默认配置为“all”以包含全部数据。使用load_dataset函数并指定配置与分割，即可加载目标数据，例如加载clean配置下的train.clean.100分割。数据集支持流式读取以处理大规模数据，其列结构包含音频、文本及元数据，便于直接用于模型训练与评估，推动语音合成技术的进步。

背景与挑战

背景概述

LibriTTS数据集于2019年由谷歌语音与谷歌大脑团队的核心成员Heiga Zen等人共同创建，旨在为文本到语音合成领域提供高质量的研究资源。该数据集源自LibriSpeech语料库，通过精心处理原始音频与文本材料，构建了包含585小时、2456名说话者的英文朗读语音库，采样率为24kHz。其核心研究问题聚焦于提升神经端到端TTS模型的自然度与表现力，通过提供大规模、多说话者的语音-文本对齐数据，显著推动了语音合成技术的进步，成为该领域广泛采用的基准数据集之一。

当前挑战

LibriTTS数据集致力于解决文本到语音合成中语音自然度与多样性的挑战，尤其在多说话者场景下，模型需准确捕捉不同说话者的音色、韵律与情感特征。构建过程中的挑战包括从LibriSpeech原始材料中筛选适合TTS任务的语音片段，确保音频质量与文本对齐的精确性，同时处理语音中的噪声与变异问题。此外，数据集的划分需平衡说话者分布与语音内容，以支持模型泛化能力的评估，这些因素共同增加了数据清洗与标注的复杂性。

常用场景

经典使用场景

在语音合成领域，LibriTTS数据集常被用于训练和评估端到端神经文本转语音模型。其高质量、多说话人的英语朗读语音数据，为研究者提供了丰富的声学特征和韵律模式，使得模型能够学习到自然流畅的语音生成能力。该数据集的标准划分便于进行模型性能的客观比较，已成为该领域基准测试的重要组成部分。

解决学术问题

LibriTTS解决了文本转语音研究中数据稀缺和质量不均的难题。它提供了大规模、高采样率的语音文本对齐数据，支持多说话人建模和韵律控制等前沿研究方向。该数据集的出现促进了神经语音合成技术的进步，使得合成语音的自然度和表现力显著提升，为语音生成领域的算法创新奠定了坚实基础。

衍生相关工作

基于LibriTTS数据集，研究者们开发了众多经典的语音合成模型，如Tacotron 2、FastSpeech等系列工作。这些模型在韵律建模、多说话人适配和高效合成等方面取得了突破。后续研究进一步探索了少样本学习、情感语音合成等方向，持续推动着语音合成技术向更智能、更自然的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集