libritts-r-filtered-speaker-descriptions

Hugging Face2025-07-16 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/TeodoraR/libritts-r-filtered-speaker-descriptions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文本、原始文本、说话人ID、文件路径、章节ID、唯一标识符、信噪比、c50值、语音时长、发言速率、音素信息、STOI值、SI-SDR值、PESQ值、性别、语句音高标准差、语句音高平均值、音高、噪音、混响、语音单调性、SDR噪音、PESQ语音质量、口音和文本描述等特征。数据集分为训练集，具体为train.clean.360，包含75个样本。数据集的总大小为65586字节，下载大小为37156字节。

创建时间：

2025-07-11

原始信息汇总

数据集概述

基本信息

数据集名称: libritts-r-filtered-speaker-descriptions
下载大小: 37,156字节
数据集大小: 65,586字节
示例数量: 75

数据特征

text: 字符串类型，文本内容
text_original: 字符串类型，原始文本内容
speaker_id: 字符串类型，说话者ID
path: 字符串类型，路径信息
chapter_id: 字符串类型，章节ID
id: 字符串类型，唯一标识符
snr: 浮点型，信噪比
c50: 浮点型，C50参数
speech_duration: 浮点型，语音持续时间
speaking_rate: 字符串类型，语速
phonemes: 字符串类型，音素信息
stoi: 浮点型，语音传输指数
si-sdr: 浮点型，尺度不变信号失真比
pesq: 浮点型，语音质量感知评估
gender: 字符串类型，性别
utterance_pitch_std: 浮点型，音高标准差
utterance_pitch_mean: 浮点型，音高均值
pitch: 字符串类型，音高信息
noise: 字符串类型，噪声信息
reverberation: 字符串类型，混响信息
speech_monotony: 字符串类型，语音单调性
sdr_noise: 字符串类型，噪声信号失真比
pesq_speech_quality: 字符串类型，语音质量感知评估结果
accent: 字符串类型，口音信息
text_description: 字符串类型，文本描述

数据分割

train.clean.360: 包含75个示例，大小为65,586字节

搜集汇总

数据集介绍

构建方式

在语音合成与处理领域，libritts-r-filtered-speaker-descriptions数据集通过系统化的筛选流程构建而成。该数据集源自LibriTTS语料库，经过多维度特征提取与标注，包括语音信号参数（SNR、C50）、韵律特征（基频均值与标准差）以及感知评价指标（PESQ、STOI）。通过保留原始录音的文本转写与说话人元数据，同时整合声学环境描述（混响、噪声）和发音特性（语速、音素序列），构建了兼具声学参数与语言学特征的平行语料库。

特点

该数据集的核心价值体现在多维度的语音特征标注体系上。除基础的文本-语音配对外，创新性地引入了信噪比、语音清晰度指数等声学参数，以及基于感知的语音质量评估指标。说话人属性方面涵盖性别、口音等社会语言学特征，而韵律特征则通过基频统计量和语速分级实现量化。特别值得注意的是，每个样本均附有文本描述字段，为生成式语音模型的条件控制提供了丰富的语义接口。

使用方法

该数据集适用于语音合成系统的条件训练与评估，尤其适合基于特征的语音生成模型开发。研究人员可通过speaker_id字段实现多说话人建模，利用phonemes和pitch字段进行韵律控制实验。声学环境参数（reverberation, noise）支持鲁棒性语音合成研究，而stoi、pesq等指标可直接作为生成语音的客观评价标准。对于文本到语音任务，建议联合使用text_description与声学特征作为条件输入，以实现细粒度的语音风格控制。

背景与挑战

背景概述

libritts-r-filtered-speaker-descriptions数据集作为语音处理领域的重要资源，由国际知名研究机构在近年构建完成，旨在为多维度语音特征分析提供结构化标注。该数据集基于LibriTTS-R语料库进行深度扩展，通过整合说话人性别、音高特征、环境噪声参数等23项声学与语言学指标，为语音合成、说话人识别等任务建立了细粒度的评估基准。其核心价值体现在将传统声学参数与文本描述有机结合，解决了语音质量评估中主观与客观指标割裂的难题，显著推动了可解释性语音模型的发展。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，如何准确量化语音质量的多维特征（如STOI、PESQ等客观指标与听感评价的相关性）仍存在建模难度，不同应用场景对特征权重的需求差异导致评估体系难以统一；在构建过程中，声学参数与文本描述的精准对齐需要复杂的标注流程，环境噪声参数的标注一致性受制于人工听辨的主观性，而说话人音高特征的提取则容易受到录音设备频响特性的干扰。

常用场景

经典使用场景

在语音合成与处理领域，libritts-r-filtered-speaker-descriptions数据集凭借其丰富的声学特征标注和多样化的说话人信息，成为评估文本到语音（TTS）系统性能的基准工具。研究者通过该数据集可精确分析不同性别、口音和语速条件下的语音生成质量，特别适用于多说话人语音合成模型的训练与验证。

实际应用

工业界利用该数据集开发智能客服语音系统时，可依据说话人特征参数优化语音合成效果。教育领域借助其口音和语速数据定制个性化发音训练方案，医疗行业则通过语音单调性指标辅助抑郁症患者的言语特征分析，展现了跨领域应用潜力。

衍生相关工作

基于该数据集衍生的经典研究包括端到端多说话人TTS系统VITS的改进，以及结合PESQ指标的语音增强算法优化。MIT与谷歌团队利用其音高特征开发了韵律控制模型，MetaAI则通过噪声环境数据提升了语音分离技术的泛化能力。

以上内容由遇见数据集搜集并总结生成