five

blabble-io/libritts

收藏
Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blabble-io/libritts
下载链接
链接失效反馈
官方服务:
资源简介:
LibriTTS是一个多说话者的英语语料库,包含约585小时的24kHz采样率的英语朗读语音,专为文本到语音(TTS)研究设计。该语料库来源于LibriSpeech语料库的原始材料,包括LibriVox的mp3音频文件和Project Gutenberg的文本文件。

LibriTTS是一个多说话者的英语语料库,包含约585小时的24kHz采样率的英语朗读语音,专为文本到语音(TTS)研究设计。该语料库来源于LibriSpeech语料库的原始材料,包括LibriVox的mp3音频文件和Project Gutenberg的文本文件。
提供机构:
blabble-io
原始信息汇总

数据集卡片 for LibriTTS

概述

LibriTTS 是一个多说话者的英语语料库,大约包含 585 小时的 24kHz 采样率的英语朗读语音,由 Heiga Zen 准备,并得到 Google Speech 和 Google Brain 团队成员的协助。LibriTTS 语料库旨在用于 TTS 研究。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。

使用

分割

数据集包含 7 个分割:

  • dev.clean
  • dev.other
  • test.clean
  • test.other
  • train.clean.100
  • train.clean.360
  • train.other.500

配置

数据集有 3 个配置,每个配置限制了 load_dataset() 函数将下载的分割。

默认配置是 "all"。

  • "dev": 仅包含 "dev.clean" 分割(适用于快速测试数据集)
  • "clean": 仅包含 "clean" 分割
  • "other": 仅包含 "other" 分割
  • "all": 包含所有分割

示例

加载 clean 配置,仅包含 train.clean.100 分割:

python load_dataset("blabble-io/libritts", "clean", split="train.clean.100")

支持流式加载:

python load_dataset("blabble-io/libritts", streaming=True)

数据集包含以下列:

json { "audio": datasets.Audio(sampling_rate=24_000), "text_normalized": datasets.Value("string"), "text_original": datasets.Value("string"), "speaker_id": datasets.Value("string"), "path": datasets.Value("string"), "chapter_id": datasets.Value("string"), "id": datasets.Value("string"), }

示例行

json { audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/5551a515e85b9e463062524539c2e1cb52ba32affe128dffd866db0205248bdd/LibriTTS/dev-clean/3081/166546/3081_166546_000028_000002.wav, array: ..., sampling_rate: 24000 }, text_normalized: How quickly he disappeared!", text_original: How quickly he disappeared!", speaker_id: 3081, path: /home/user/.cache/huggingface/datasets/downloads/extracted/5551a515e85b9e463062524539c2e1cb52ba32affe128dffd866db0205248bdd/LibriTTS/dev-clean/3081/166546/3081_166546_000028_000002.wav, chapter_id: 166546, id: 3081_166546_000028_000002 }

数据集详情

数据集描述

  • 许可证: CC BY 4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成研究领域,高质量语音数据的构建至关重要。LibriTTS数据集源自LibriSpeech语料库的原始音频与文本材料,由Heiga Zen与谷歌团队合作精心设计。该数据集通过对LibriVox的MP3音频文件及古腾堡计划的文本文件进行系统化处理,转化为采样率为24kHz的语音波形,并依据发音清晰度划分为“clean”与“other”两类,最终形成包含585小时、2456名说话人语音的多说话人英语语料库,专为文本到语音研究优化。
特点
LibriTTS数据集在语音合成领域展现出显著特性。其核心在于提供了高保真的24kHz采样音频,确保了语音信号的丰富细节。数据集依据发音质量细致划分为“clean”与“other”子集,并进一步按数据量细分为如train.clean.100等多个分割,为模型训练与评估提供了灵活选择。每条数据均包含归一化与原始文本、说话人及章节标识,支持对说话人风格与上下文的研究,其多说话人覆盖与清晰的结构设计,为合成语音的自然度与多样性研究奠定了坚实基础。
使用方法
为高效利用LibriTTS数据集,研究者可通过Hugging Face的datasets库进行加载。数据集提供“dev”、“clean”、“other”及“all”四种配置,分别对应不同的分割组合,默认配置为“all”以包含全部数据。使用load_dataset函数并指定配置与分割,即可加载目标数据,例如加载clean配置下的train.clean.100分割。数据集支持流式读取以处理大规模数据,其列结构包含音频、文本及元数据,便于直接用于模型训练与评估,推动语音合成技术的进步。
背景与挑战
背景概述
LibriTTS数据集于2019年由谷歌语音与谷歌大脑团队的核心成员Heiga Zen等人共同创建,旨在为文本到语音合成领域提供高质量的研究资源。该数据集源自LibriSpeech语料库,通过精心处理原始音频与文本材料,构建了包含585小时、2456名说话者的英文朗读语音库,采样率为24kHz。其核心研究问题聚焦于提升神经端到端TTS模型的自然度与表现力,通过提供大规模、多说话者的语音-文本对齐数据,显著推动了语音合成技术的进步,成为该领域广泛采用的基准数据集之一。
当前挑战
LibriTTS数据集致力于解决文本到语音合成中语音自然度与多样性的挑战,尤其在多说话者场景下,模型需准确捕捉不同说话者的音色、韵律与情感特征。构建过程中的挑战包括从LibriSpeech原始材料中筛选适合TTS任务的语音片段,确保音频质量与文本对齐的精确性,同时处理语音中的噪声与变异问题。此外,数据集的划分需平衡说话者分布与语音内容,以支持模型泛化能力的评估,这些因素共同增加了数据清洗与标注的复杂性。
常用场景
经典使用场景
在语音合成领域,LibriTTS数据集常被用于训练和评估端到端神经文本转语音模型。其高质量、多说话人的英语朗读语音数据,为研究者提供了丰富的声学特征和韵律模式,使得模型能够学习到自然流畅的语音生成能力。该数据集的标准划分便于进行模型性能的客观比较,已成为该领域基准测试的重要组成部分。
解决学术问题
LibriTTS解决了文本转语音研究中数据稀缺和质量不均的难题。它提供了大规模、高采样率的语音文本对齐数据,支持多说话人建模和韵律控制等前沿研究方向。该数据集的出现促进了神经语音合成技术的进步,使得合成语音的自然度和表现力显著提升,为语音生成领域的算法创新奠定了坚实基础。
衍生相关工作
基于LibriTTS数据集,研究者们开发了众多经典的语音合成模型,如Tacotron 2、FastSpeech等系列工作。这些模型在韵律建模、多说话人适配和高效合成等方面取得了突破。后续研究进一步探索了少样本学习、情感语音合成等方向,持续推动着语音合成技术向更智能、更自然的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作