speech-quality-tmhintq-pairwise

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/potsawee/speech-quality-tmhintq-pairwise

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于语音质量评估的数据集，来源于TMHINT-Q数据集。数据集中的语音为普通话，并对干净的语音添加了不同类型和级别的噪声。人工标注员根据音频的质量方面进行了1-5级的评分。数据集包含了600个样本，每个样本包括两个音频文件和它们的质量评分，以及一个标签用于指示哪个音频的质量更高。

创建时间：

2025-04-28

原始信息汇总

数据集概述

基本信息

数据集名称: Speech Quality Assessment Data
来源: 基于TMHINT-Q数据集（论文链接）
语言: 普通话（Mandarin Chinese）
内容: 包含添加了不同类型和级别噪声的干净语音

数据集结构

特征:
- audio_a: 音频A
- audio_b: 音频B
- label: 标注（a表示audio_a质量高于audio_b，b表示相反）
- text_a: 音频A对应的文本
- text_b: 音频B对应的文本
- human_quality_a: 音频A的人类评分（1-5分，多个标注者的平均值）
- human_quality_b: 音频B的人类评分（1-5分，多个标注者的平均值）
- system_a: 音频A的生成系统
- system_b: 音频B的生成系统
数据划分:
- train: 600个样本，大小241032306字节

下载信息

下载大小: 221703663字节
数据集大小: 241032306字节

备注

原始成对映射数据集包含6475个样本，本数据集采样了600行。

搜集汇总

数据集介绍

构建方式

该数据集源自TMHINT-Q数据集，专注于普通话语音质量评估研究。构建过程中，研究人员在纯净语音基础上叠加了不同类型和强度的噪声，模拟多样化的声学环境。通过专业标注团队对每条音频进行1-5分的质量评分，最终取多位标注者评分的平均值作为客观标准。原始数据包含6475组配对样本，本研究从中科学抽样600组具有代表性的数据对。

特点

数据集采用成对比较范式，每行数据包含两段语音及其对应的文本转录、系统来源和人工评分。独特的双通道设计（audio_a/audio_b）支持直接的质量对比研究，human_quality字段提供经过验证的评分基准。所有语音样本均基于中文语境，噪声条件的系统化控制为语音增强算法评估提供了理想测试平台。标注结果以显式比较标签（a/b）呈现，极大简化了模型训练中的监督信号提取。

使用方法

使用该数据集时，建议先将音频样本转换为标准梅尔频谱或其他声学特征。标签字段可直接作为监督信号训练语音质量预测模型，human_quality分数则适用于回归任务。研究者可结合system字段分析不同语音处理系统的性能差异，text转录文本支持多模态联合建模。数据加载时需注意保持原始配对关系，噪声条件与质量评分的对应规律可作为重要的先验知识。

背景与挑战

背景概述

speech-quality-tmhintq-pairwise数据集源于TMHINT-Q数据集，专注于汉语普通话的语音质量评估研究。该数据集由专业研究人员构建，旨在通过引入不同类型和强度的噪声，模拟真实环境中的语音退化现象。核心研究问题聚焦于语音质量的客观评价与主观感知的一致性，为语音增强、噪声抑制等领域提供了重要的基准数据。通过人类标注者对语音质量进行1-5分的评分，并计算多标注者的平均分，该数据集为语音质量评估模型的训练与验证提供了可靠依据。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的挑战在于语音质量评估本身具有高度主观性，如何建立客观指标与人类感知之间的准确映射是一大难题；构建过程中的挑战则源于数据标注的复杂性，需要协调多标注者的一致性，并确保噪声添加的多样性与真实性。此外，从原始数据集中采样600条数据可能引入样本偏差，影响模型的泛化能力。

常用场景

经典使用场景

在语音信号处理领域，speech-quality-tmhintq-pairwise数据集为语音质量评估研究提供了重要基准。该数据集通过成对比较的方式，将不同噪声类型和水平的普通话语音样本进行对比，研究人员可以基于人类标注的质量评分，构建和优化语音质量评估模型。这种成对比较范式特别适合训练深度学习模型进行语音质量的相对判断。

实际应用

在实际应用中，该数据集支撑了智能客服、远程会议系统等场景的语音质量优化。基于该数据集训练的模型可以自动检测通话中的噪声干扰，指导系统选择最优的语音增强算法。同时，数据集也为移动通信设备的语音降噪功能提供了评估标准，显著提升了终端用户的语音交互体验。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括基于深度学习的端到端语音质量评估模型、噪声鲁棒的语音识别系统等。部分工作将成对比较范式扩展到多语言场景，推动了跨语言语音处理技术的发展。这些研究不仅验证了数据集的价值，也丰富了语音质量评估的方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集