libritts-r-filtered-speaker-descriptions
收藏Hugging Face2025-07-16 更新2025-07-17 收录
下载链接:
https://huggingface.co/datasets/TeodoraR/libritts-r-filtered-speaker-descriptions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了文本、原始文本、说话人ID、文件路径、章节ID、唯一标识符、信噪比、c50值、语音时长、发言速率、音素信息、STOI值、SI-SDR值、PESQ值、性别、语句音高标准差、语句音高平均值、音高、噪音、混响、语音单调性、SDR噪音、PESQ语音质量、口音和文本描述等特征。数据集分为训练集,具体为train.clean.360,包含75个样本。数据集的总大小为65586字节,下载大小为37156字节。
创建时间:
2025-07-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: libritts-r-filtered-speaker-descriptions
- 下载大小: 37,156字节
- 数据集大小: 65,586字节
- 示例数量: 75
数据特征
- text: 字符串类型,文本内容
- text_original: 字符串类型,原始文本内容
- speaker_id: 字符串类型,说话者ID
- path: 字符串类型,路径信息
- chapter_id: 字符串类型,章节ID
- id: 字符串类型,唯一标识符
- snr: 浮点型,信噪比
- c50: 浮点型,C50参数
- speech_duration: 浮点型,语音持续时间
- speaking_rate: 字符串类型,语速
- phonemes: 字符串类型,音素信息
- stoi: 浮点型,语音传输指数
- si-sdr: 浮点型,尺度不变信号失真比
- pesq: 浮点型,语音质量感知评估
- gender: 字符串类型,性别
- utterance_pitch_std: 浮点型,音高标准差
- utterance_pitch_mean: 浮点型,音高均值
- pitch: 字符串类型,音高信息
- noise: 字符串类型,噪声信息
- reverberation: 字符串类型,混响信息
- speech_monotony: 字符串类型,语音单调性
- sdr_noise: 字符串类型,噪声信号失真比
- pesq_speech_quality: 字符串类型,语音质量感知评估结果
- accent: 字符串类型,口音信息
- text_description: 字符串类型,文本描述
数据分割
- train.clean.360: 包含75个示例,大小为65,586字节
搜集汇总
数据集介绍

构建方式
在语音合成与处理领域,libritts-r-filtered-speaker-descriptions数据集通过系统化的筛选流程构建而成。该数据集源自LibriTTS语料库,经过多维度特征提取与标注,包括语音信号参数(SNR、C50)、韵律特征(基频均值与标准差)以及感知评价指标(PESQ、STOI)。通过保留原始录音的文本转写与说话人元数据,同时整合声学环境描述(混响、噪声)和发音特性(语速、音素序列),构建了兼具声学参数与语言学特征的平行语料库。
特点
该数据集的核心价值体现在多维度的语音特征标注体系上。除基础的文本-语音配对外,创新性地引入了信噪比、语音清晰度指数等声学参数,以及基于感知的语音质量评估指标。说话人属性方面涵盖性别、口音等社会语言学特征,而韵律特征则通过基频统计量和语速分级实现量化。特别值得注意的是,每个样本均附有文本描述字段,为生成式语音模型的条件控制提供了丰富的语义接口。
使用方法
该数据集适用于语音合成系统的条件训练与评估,尤其适合基于特征的语音生成模型开发。研究人员可通过speaker_id字段实现多说话人建模,利用phonemes和pitch字段进行韵律控制实验。声学环境参数(reverberation, noise)支持鲁棒性语音合成研究,而stoi、pesq等指标可直接作为生成语音的客观评价标准。对于文本到语音任务,建议联合使用text_description与声学特征作为条件输入,以实现细粒度的语音风格控制。
背景与挑战
背景概述
libritts-r-filtered-speaker-descriptions数据集作为语音处理领域的重要资源,由国际知名研究机构在近年构建完成,旨在为多维度语音特征分析提供结构化标注。该数据集基于LibriTTS-R语料库进行深度扩展,通过整合说话人性别、音高特征、环境噪声参数等23项声学与语言学指标,为语音合成、说话人识别等任务建立了细粒度的评估基准。其核心价值体现在将传统声学参数与文本描述有机结合,解决了语音质量评估中主观与客观指标割裂的难题,显著推动了可解释性语音模型的发展。
当前挑战
该数据集面临的挑战主要体现在两方面:在领域问题层面,如何准确量化语音质量的多维特征(如STOI、PESQ等客观指标与听感评价的相关性)仍存在建模难度,不同应用场景对特征权重的需求差异导致评估体系难以统一;在构建过程中,声学参数与文本描述的精准对齐需要复杂的标注流程,环境噪声参数的标注一致性受制于人工听辨的主观性,而说话人音高特征的提取则容易受到录音设备频响特性的干扰。
常用场景
经典使用场景
在语音合成与处理领域,libritts-r-filtered-speaker-descriptions数据集凭借其丰富的声学特征标注和多样化的说话人信息,成为评估文本到语音(TTS)系统性能的基准工具。研究者通过该数据集可精确分析不同性别、口音和语速条件下的语音生成质量,特别适用于多说话人语音合成模型的训练与验证。
实际应用
工业界利用该数据集开发智能客服语音系统时,可依据说话人特征参数优化语音合成效果。教育领域借助其口音和语速数据定制个性化发音训练方案,医疗行业则通过语音单调性指标辅助抑郁症患者的言语特征分析,展现了跨领域应用潜力。
衍生相关工作
基于该数据集衍生的经典研究包括端到端多说话人TTS系统VITS的改进,以及结合PESQ指标的语音增强算法优化。MIT与谷歌团队利用其音高特征开发了韵律控制模型,MetaAI则通过噪声环境数据提升了语音分离技术的泛化能力。
以上内容由遇见数据集搜集并总结生成



