five

pharaouk/libritts_r

收藏
Hugging Face2024-04-11 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/libritts_r
下载链接
链接失效反馈
官方服务:
资源简介:
LibriTTS-R数据集是LibriTTS语料库的音质改进版本,适用于文本到语音(TTS)任务。该数据集包含约585小时的24kHz采样率的英语朗读语音,来自2,456名不同的说话者。LibriTTS-R的样本与LibriTTS相同,但音质得到了显著提升。实验结果表明,使用LibriTTS-R训练的神经端到端TTS系统生成的语音自然度与真实样本相当。数据集可从http://www.openslr.org/141/免费下载。

LibriTTS-R is an audio quality-enhanced version of the LibriTTS corpus, tailored for text-to-speech (TTS) tasks. It contains approximately 585 hours of English read speech at a 24 kHz sampling rate, sourced from 2,456 distinct speakers. The samples included in LibriTTS-R are identical to those in LibriTTS, but with significantly improved audio quality. Experimental results demonstrate that neural end-to-end TTS systems trained on LibriTTS-R generate speech with naturalness comparable to real human speech samples. The dataset is freely downloadable at http://www.openslr.org/141/.
提供机构:
pharaouk
原始信息汇总

数据集卡片 for LibriTTS-R

概述

LibriTTS-R 是 LibriTTS 语料库的音质改进版本,这是一个大约 585 小时的多说话者英语阅读语音语料库,采样率为 24kHz,于 2019 年发布。

使用

分割

数据集包含以下 7 个分割:

  • dev.clean
  • dev.other
  • test.clean
  • test.other
  • train.clean.100
  • train.clean.360
  • train.other.500

配置

数据集提供以下 4 种配置,每种配置限制了 load_dataset() 函数将下载的分割:

  • "dev": 仅包含 "dev.clean" 分割
  • "clean": 仅包含 "clean" 分割
  • "other": 仅包含 "other" 分割
  • "all": 包含所有分割

示例

加载 clean 配置,仅包含 train.clean.100 分割: python load_dataset("blabble-io/libritts_r", "clean", split="train.clean.100")

支持流式加载: python load_dataset("blabble-io/libritts_r", streaming=True)

数据集包含以下列: json { "audio": datasets.Audio(sampling_rate=24_000), "text_normalized": datasets.Value("string"), "text_original": datasets.Value("string"), "speaker_id": datasets.Value("string"), "path": datasets.Value("string"), "chapter_id": datasets.Value("string"), "id": datasets.Value("string") }

示例行

json { audio: { path: /home/user/.cache/huggingface/datasets/downloads/extracted/5551a515e85b9e463062524539c2e1cb52ba32affe128dffd866db0205248bdd/LibriTTS_R/dev-clean/3081/166546/3081_166546_000028_000002.wav, array: ..., sampling_rate: 24000 }, text_normalized: How quickly he disappeared!", text_original: How quickly he disappeared!", speaker_id: 3081, path: /home/user/.cache/huggingface/datasets/downloads/extracted/5551a515e85b9e463062524539c2e1cb52ba32affe128dffd866db0205248bdd/LibriTTS_R/dev-clean/3081/166546/3081_166546_000028_000002.wav, chapter_id: 166546, id: 3081_166546_000028_000002 }

数据集详情

数据集描述

  • 许可证: CC BY 4.0
搜集汇总
数据集介绍
main_image_url
构建方式
LibriTTS-R数据集是基于LibriTTS语料库构建的,通过对原始语音数据进行音质修复,显著提升了语音质量。该数据集包含585小时的24kHz采样率的英语语音数据,涵盖了2456名不同说话者的朗读内容。数据集的构建过程严格遵循语音修复技术,确保每一段语音在保持原始文本内容的同时,音质得到显著提升。
特点
LibriTTS-R数据集的主要特点在于其高质量的语音修复效果,显著提升了语音的自然度和清晰度。数据集包含多个分割版本,如clean和other,分别对应不同质量的语音数据。此外,数据集提供了标准化的文本和原始文本对照,便于研究者在语音合成任务中进行对比分析。数据集还包含说话者ID、章节ID等元信息,为多说话者语音合成研究提供了丰富的上下文信息。
使用方法
LibriTTS-R数据集可通过Hugging Face的`datasets`库加载,支持多种配置和分割方式。用户可以选择加载特定配置(如clean或other)或全部数据,并通过指定分割(如train.clean.360)来获取所需数据。数据集支持流式加载,适用于大规模数据处理。加载后的数据包含音频文件路径、标准化文本、原始文本、说话者ID等字段,便于直接用于语音合成模型的训练和评估。
背景与挑战
背景概述
LibriTTS-R数据集是LibriTTS语料库的改进版本,专注于提升语音质量。该数据集由Yuma Koizumi等研究人员于2023年发布,旨在为文本到语音(TTS)任务提供高质量的语音数据。LibriTTS-R基于LibriTTS语料库构建,后者包含585小时的24kHz采样率的英语朗读语音,涵盖2456名说话者。通过语音修复技术,LibriTTS-R显著提升了语音质量,为TTS模型的训练和评估提供了更高质量的基准数据。该数据集的发布推动了语音合成领域的研究,尤其是在自然语音生成方面。
当前挑战
LibriTTS-R数据集在解决文本到语音任务中的挑战主要体现在两个方面。首先,语音质量的提升对TTS模型的训练提出了更高要求,模型需要能够生成与高质量语音数据相匹配的自然语音。其次,数据集的构建过程中,语音修复技术的应用面临技术复杂性,包括噪声消除、语音清晰度提升等,这些技术需要在保持语音自然性的同时避免引入失真。此外,数据集的规模和多说话者特性也对模型的泛化能力提出了挑战,要求模型能够适应不同说话者的语音特征。
常用场景
经典使用场景
LibriTTS-R数据集在文本到语音(TTS)领域中被广泛用于训练和评估语音合成模型。其高质量的音频数据和多样化的语音样本使其成为研究多说话人语音合成的理想选择。通过该数据集,研究人员能够开发出更加自然和流畅的语音合成系统。
实际应用
在实际应用中,LibriTTS-R数据集被广泛用于开发智能语音助手、有声读物生成以及语音翻译系统。其高质量的语音数据能够显著提升这些应用的语音输出质量,从而改善用户体验。此外,该数据集还被用于语音识别和语音增强等领域的研究。
衍生相关工作
基于LibriTTS-R数据集,研究人员已经开发出多种先进的TTS模型,如基于神经网络的端到端语音合成系统。这些模型在语音自然度和音质方面取得了显著进展,进一步推动了语音合成技术的发展。此外,该数据集还催生了许多关于语音修复和语音增强的研究工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作