NISQA数据集
收藏arXiv2021-04-20 更新2024-07-25 收录
下载链接:
https://github.com/gabrielmittag/NISQA
下载链接
链接失效反馈官方服务:
资源简介:
NISQA数据集是由柏林工业大学的质量和可用性实验室创建的,用于训练和评估NISQA语音质量预测模型。该数据集包含超过13,000个语音文件,涵盖了多种语音质量维度,如噪声、色彩、不连续性和响度。数据集的创建过程涉及从多个英语语音语料库中提取清洁源语音样本,并模拟各种语音失真,如数据包丢失、带通滤波、不同编解码器和剪辑。此外,还包括了通过Skype和固定电话到移动电话的实时录音,以及在这些录音中故意引入的实际失真。NISQA数据集的应用领域主要集中在评估现代通信网络中的语音质量,旨在解决自动预测语音质量的问题,尤其是在没有清洁参考信号的情况下。
The NISQA dataset was developed by the Quality and Usability Lab at Technische Universität Berlin for training and evaluating the NISQA speech quality prediction model. It contains over 13,000 speech files covering multiple speech quality dimensions, including noise, coloration, discontinuities, and loudness.
The dataset construction workflow entails extracting clean source speech samples from multiple English speech corpora, and simulating various speech distortions such as packet loss, band-pass filtering, different codecs, and clipping. Additionally, it incorporates real-time recordings made via Skype and from landline to mobile phones, alongside actual distortions deliberately introduced into these recordings.
The primary application scenarios of the NISQA dataset focus on evaluating speech quality in modern communication networks, aiming to address the challenge of automatic speech quality prediction, particularly when no clean reference signals are available.
提供机构:
质量和可用性实验室,柏林工业大学,柏林,德国
创建时间:
2021-04-20
原始信息汇总
NISQA: Speech Quality and Naturalness Assessment
数据集概述
语音质量预测
- NISQA 是一个深度学习模型/框架,用于预测通过通信系统(如电话或视频通话)传输的语音样本的质量。
- 除了整体语音质量外,NISQA 还提供对质量维度(如噪声、色彩、不连续性和响度)的预测,以深入了解质量下降的原因。
TTS 自然度预测
- NISQA-TTS 模型权重可用于估计由语音转换或文本转语音系统(如 Siri、Alexa 等)生成的合成语音的自然度。
训练/微调
- NISQA 可用于训练新的单端或双端语音质量预测模型,支持不同的深度学习架构,如 CNN、DFF、自注意力或 LSTM。
- 提供的模型权重也可用于微调训练模型以适应新数据或进行迁移学习,应用于不同的回归任务(如增强语音的质量估计、说话者相似度估计或情感识别)。
语音质量数据集
- 提供了一个包含超过 14,000 个语音样本的大型语料库,带有主观语音质量和语音质量维度标签。
使用方法
预测
- 提供三种模式来预测语音质量:单个文件、文件夹中的所有文件、CSV 表中的所有文件。
- 选择适当的模型权重(如
nisqa.tar用于传输语音样本,nisqa_tts.tar用于合成语音样本)。
训练
- 支持微调/迁移学习和训练新模型。
- 使用 YAML 文件控制训练配置。
- 提供不同的模型结构配置文件,如
train_nisqa_cnn_sa_ap.yaml和train_nisqa_double_ended.yaml。
评估
- 训练后的模型可以在给定数据集上进行评估。
数据集详情
NISQA 语料库
- 包含超过 14,000 个语音样本,模拟(如编解码器、丢包、背景噪声)和实时(如手机、Zoom、Skype、WhatsApp)条件。
论文和许可证
- 使用 NISQA 模型或 NISQA 语料库进行研究时,请引用相关论文。
- NISQA 代码基于 MIT 许可证。
- 模型权重基于 CC BY-NC-SA 4.0 许可证。
- NISQA 语料库遵循原始源语音和噪声样本的条款。
搜集汇总
数据集介绍

构建方式
NISQA数据集的构建主要围绕多维度语音质量预测展开,旨在捕捉通信网络中的各种失真现象。该数据集的构建方式包括从多个来源收集超过13,000个语音文件,这些文件被用于训练和验证模型。数据集涵盖了广泛的语音质量维度,包括噪声、染色、不连续性和响度,为模型提供了深入了解质量下降原因的能力。此外,还创建了一个新的实时语音测试数据集,包含真实电话通话录音,以确保模型在实际应用中的可靠性。
特点
NISQA数据集的特点在于其多维度的语音质量预测能力,能够同时预测整体语音质量和四个独立的语音质量维度。此外,该数据集的构建方式允许模型端到端地使用主观数据训练,无需依赖客观MOS值。模型架构的改进,如CNN-Self-Attention-Attention-Pooling网络的使用,提高了模型的预测性能。数据集的多样性也是其一大特点,包含了模拟和真实环境中的语音样本,以及不同说话者和不同失真条件下的录音。
使用方法
使用NISQA数据集的方法包括首先进行Mel频谱分割,然后通过CNN网络提取特征,接着利用Self-Attention机制进行时间依赖性建模,最后通过Attention-Pooling进行特征聚合。模型训练过程中使用了Adam优化器和偏差感知损失函数,以确保模型在多个数据集上的良好性能。使用时,模型可以应用于任何时长或采样率的语音样本,无需预处理或水平归一化步骤。最终,模型能够为用户提供可靠的语音质量预测,同时提供对质量下降原因的深入分析。
背景与挑战
背景概述
NISQA数据集是针对现代通信网络中出现的失真现象进行语音质量预测的深度学习模型。该模型由柏林工业大学质量与可用性实验室和德国人工智能研究中心的研究人员于2021年4月提出。NISQA模型旨在解决传统语音质量评估方法的耗时和成本高昂问题,通过深度学习技术,能够自动预测语音质量。NISQA模型不仅可以预测整体语音质量,还可以预测噪声、染色、不连续性和响度等四个语音质量维度,从而更深入地了解质量下降的原因。此外,研究人员还创建了包含超过13,000个语音文件的新数据集,用于模型的训练和验证。
当前挑战
NISQA数据集面临的挑战主要包括:1)领域问题挑战:NISQA模型需要解决现代通信网络中出现的各种失真现象,包括网络拥塞、编解码器失真等,这需要模型能够处理多种类型的语音失真。2)构建过程挑战:构建一个能够准确预测语音质量的多任务神经网络模型需要大量的语音数据,同时需要考虑时间依赖性和特征聚合等问题。为了解决这个问题,NISQA模型采用了CNN-Self-Attention-Attention-Pooling网络架构,并使用来自不同来源的81个数据集进行训练和评估。
常用场景
经典使用场景
NISQA数据集被广泛应用于通信网络中出现的语音质量预测。它特别关注于语音通信网络中出现的失真,并通过深度学习模型预测语音质量。NISQA模型不仅预测整体语音质量,还预测四个语音质量维度:噪音、色彩、不连续性和响度。这使得NISQA能够提供更多关于质量下降原因的洞察。NISQA模型在多个数据集上进行了训练和评估,并显示出对未知语音样本也能提供可靠的预测。
实际应用
NISQA数据集在实际应用中具有广泛的应用场景。它被用于评估和监控电话通信中的语音质量,从而提高通话体验。NISQA模型可以预测语音质量,并识别通话中的质量下降原因,从而帮助运营商改进网络质量。此外,NISQA模型还可以用于语音处理和语音识别等领域,以提高语音质量和语音识别的准确性。
衍生相关工作
NISQA数据集衍生了许多相关的经典工作。例如,一些研究利用NISQA模型进行语音质量评估,并提出了一些改进方法。另外,一些研究将NISQA模型应用于其他领域,例如语音处理和语音识别,以提高语音质量和语音识别的准确性。此外,一些研究还基于NISQA模型进行了扩展,以预测其他类型的语音质量,例如音乐质量。这些相关工作表明,NISQA数据集在语音质量评估和相关领域具有重要的应用价值。
以上内容由遇见数据集搜集并总结生成



