five

sanchit-gandhi/libritts_r_test

收藏
Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sanchit-gandhi/libritts_r_test
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: clean features: - name: audio dtype: audio: sampling_rate: 24000 - name: text_normalized dtype: string - name: text_original dtype: string - name: speaker_id dtype: string - name: path dtype: string - name: chapter_id dtype: string - name: id dtype: string splits: - name: test.clean num_bytes: 1477301067.628 num_examples: 4837 download_size: 1472342932 dataset_size: 1477301067.628 - config_name: other features: - name: audio dtype: audio: sampling_rate: 24000 - name: text_normalized dtype: string - name: text_original dtype: string - name: speaker_id dtype: string - name: path dtype: string - name: chapter_id dtype: string - name: id dtype: string splits: - name: test.other num_bytes: 1152422906.32 num_examples: 5120 download_size: 1145824764 dataset_size: 1152422906.32 configs: - config_name: clean data_files: - split: test.clean path: clean/test.clean-* - config_name: other data_files: - split: test.other path: other/test.other-* ---

数据集信息: - 配置名称:clean 特征: - 字段名:音频(audio),数据类型: 音频(audio):采样率(sampling_rate)为24000 - 字段名:归一化文本(text_normalized),数据类型:字符串 - 字段名:原始文本(text_original),数据类型:字符串 - 字段名:说话人ID(speaker_id),数据类型:字符串 - 字段名:路径(path),数据类型:字符串 - 字段名:章节ID(chapter_id),数据类型:字符串 - 字段名:ID(id),数据类型:字符串 数据拆分: - 拆分名称:test.clean,总字节数:1477301067.628,样本数量:4837 下载大小:1472342932,数据集总大小:1477301067.628 - 配置名称:other 特征: - 字段名:音频(audio),数据类型: 音频(audio):采样率(sampling_rate)为24000 - 字段名:归一化文本(text_normalized),数据类型:字符串 - 字段名:原始文本(text_original),数据类型:字符串 - 字段名:说话人ID(speaker_id),数据类型:字符串 - 字段名:路径(path),数据类型:字符串 - 字段名:章节ID(chapter_id),数据类型:字符串 - 字段名:ID(id),数据类型:字符串 数据拆分: - 拆分名称:test.other,总字节数:1152422906.32,样本数量:5120 下载大小:1145824764,数据集总大小:1152422906.32 配置项: - 配置名称:clean,数据文件: - 数据拆分:test.clean,文件路径:clean/test.clean-* - 配置名称:other,数据文件: - 数据拆分:test.other,文件路径:other/test.other-*
提供机构:
sanchit-gandhi
原始信息汇总

数据集概述

配置名称:clean

  • 特征信息:

    • audio: 采样率为24000的音频数据
    • text_normalized: 字符串类型
    • text_original: 字符串类型
    • speaker_id: 字符串类型
    • path: 字符串类型
    • chapter_id: 字符串类型
    • id: 字符串类型
  • 数据分割:

    • 名称:test.clean
    • 大小:1477301067.628字节
    • 示例数量:4837
    • 下载大小:1472342932字节
    • 数据集大小:1477301067.628字节

配置名称:other

  • 特征信息:

    • audio: 采样率为24000的音频数据
    • text_normalized: 字符串类型
    • text_original: 字符串类型
    • speaker_id: 字符串类型
    • path: 字符串类型
    • chapter_id: 字符串类型
    • id: 字符串类型
  • 数据分割:

    • 名称:test.other
    • 大小:1152422906.32字节
    • 示例数量:5120
    • 下载大小:1145824764字节
    • 数据集大小:1152422906.32字节
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成研究领域,高质量的数据集对于模型评估至关重要。LibriTTS-R测试集基于LibriTTS语料库构建,通过精心筛选原始音频与文本数据,形成了两个子集:clean与other。clean子集包含4837个样本,其音频经过降噪处理,文本经过标准化;other子集则包含5120个样本,保留了更多背景噪声和自然语音变化。所有音频均以24kHz采样率存储,确保了高保真度,同时每个样本均标注了说话人ID、章节ID及原始与标准化文本,为语音合成模型的鲁棒性测试提供了结构化基础。
特点
该数据集在语音合成领域展现出显著特点,其核心在于区分clean与other两个子集,分别代表清晰语音和包含噪声的语音场景。clean子集强调音频的纯净性,适用于标准合成任务;other子集则模拟真实环境中的语音复杂性,增强了数据集的多样性和挑战性。所有音频统一采用24kHz采样率,保证了音质一致性,而文本字段同时提供原始和标准化版本,便于模型处理不同文本格式。此外,说话人ID和章节ID的标注支持说话人相关研究和上下文分析,使得数据集在评估模型泛化能力方面具有重要价值。
使用方法
在语音合成技术应用中,该数据集主要用于模型测试和性能评估。用户可通过HuggingFace平台直接加载clean或other配置,快速访问音频文件及相关元数据。音频数据以24kHz采样率提供,可直接用于语音合成模型的输入或输出验证;文本字段包括原始和标准化版本,方便进行文本预处理或对齐分析。说话人ID和章节ID可用于分组实验,例如评估模型在不同说话人或上下文中的表现。建议用户根据研究需求选择相应子集,例如clean子集用于基准测试,other子集则用于噪声环境下的鲁棒性评估,从而全面检验语音合成系统的效果。
背景与挑战
背景概述
LibriTTS-R测试数据集源自LibriTTS语料库,由卡内基梅隆大学等研究机构于2019年构建,旨在推动文本到语音合成技术的评估与优化。该数据集以英文有声读物为素材,聚焦于多说话人、高质量音频与文本对齐的语音合成任务,其核心研究问题在于提升合成语音的自然度与表现力。作为LibriTTS的衍生测试集,它为学术界与工业界提供了标准化的评估基准,显著促进了端到端语音合成模型的发展与比较研究。
当前挑战
在语音合成领域,LibriTTS-R测试集致力于应对多说话人语音生成中韵律一致性与音质保真度的挑战,尤其需在复杂语境下维持语音的自然流畅。数据构建过程中,挑战主要源于原始音频的噪声干扰、文本归一化处理的复杂性,以及跨说话人音频特征的均衡提取,这些因素共同影响了数据集的纯净度与模型训练的泛化能力。
常用场景
经典使用场景
在语音合成领域,LibriTTS-R测试集作为评估文本到语音转换模型性能的基准工具,其经典使用场景聚焦于模型泛化能力的验证。该数据集包含高质量朗读音频与对应文本,采样率为24kHz,分为clean与other两个子集,分别代表清晰与带噪声的语音条件。研究者通常利用该数据集测试TTS模型在未见过的说话人、文本内容及声学环境下的表现,通过客观指标如梅尔倒谱失真与主观听感评分,系统评估合成语音的自然度、清晰度与鲁棒性,从而推动语音合成技术的迭代优化。
解决学术问题
LibriTTS-R测试集有效解决了语音合成研究中模型过拟合与泛化能力不足的常见学术问题。传统TTS模型在训练集上表现优异,却难以适应多样化的真实场景,该数据集通过提供大规模、多说话人、带有文本归一化与原始文本对照的测试样本,为量化模型在复杂声学条件下的退化程度提供了标准框架。其意义在于建立了可复现的评估范式,使研究者能够精准识别模型瓶颈,如噪声鲁棒性、发音一致性等,进而催生了针对跨领域泛化、少样本适应等核心挑战的创新方法。
衍生相关工作
围绕LibriTTS-R测试集,学术界衍生了一系列经典研究工作,显著推动了语音合成领域的进展。例如,基于该数据集的评估框架被广泛应用于端到端TTS模型(如Tacotron2、FastSpeech)的鲁棒性分析,催生了对抗训练、域自适应等增强技术。同时,该数据集支撑了多说话人语音合成、零样本语音克隆等前沿方向的基准测试,相关成果发表于INTERSPEECH、ICASSP等顶级会议,形成了以标准化评估驱动模型创新的研究范式,为后续语音合成数据集的构建与评估指标的完善提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作