NISQA数据集|语音质量评估数据集|通信网络数据集

arXiv2021-04-20 更新2024-07-25 收录

语音质量评估

通信网络

下载链接：

https://github.com/gabrielmittag/NISQA

下载链接

链接失效反馈

资源简介：

NISQA数据集是由柏林工业大学的质量和可用性实验室创建的，用于训练和评估NISQA语音质量预测模型。该数据集包含超过13,000个语音文件，涵盖了多种语音质量维度，如噪声、色彩、不连续性和响度。数据集的创建过程涉及从多个英语语音语料库中提取清洁源语音样本，并模拟各种语音失真，如数据包丢失、带通滤波、不同编解码器和剪辑。此外，还包括了通过Skype和固定电话到移动电话的实时录音，以及在这些录音中故意引入的实际失真。NISQA数据集的应用领域主要集中在评估现代通信网络中的语音质量，旨在解决自动预测语音质量的问题，尤其是在没有清洁参考信号的情况下。

提供机构：

质量和可用性实验室，柏林工业大学，柏林，德国

创建时间：

2021-04-20

原始信息汇总

NISQA: Speech Quality and Naturalness Assessment

数据集概述

语音质量预测

NISQA 是一个深度学习模型/框架，用于预测通过通信系统（如电话或视频通话）传输的语音样本的质量。
除了整体语音质量外，NISQA 还提供对质量维度（如噪声、色彩、不连续性和响度）的预测，以深入了解质量下降的原因。

TTS 自然度预测

NISQA-TTS 模型权重可用于估计由语音转换或文本转语音系统（如 Siri、Alexa 等）生成的合成语音的自然度。

训练/微调

NISQA 可用于训练新的单端或双端语音质量预测模型，支持不同的深度学习架构，如 CNN、DFF、自注意力或 LSTM。
提供的模型权重也可用于微调训练模型以适应新数据或进行迁移学习，应用于不同的回归任务（如增强语音的质量估计、说话者相似度估计或情感识别）。

语音质量数据集

提供了一个包含超过 14,000 个语音样本的大型语料库，带有主观语音质量和语音质量维度标签。

使用方法

预测

提供三种模式来预测语音质量：单个文件、文件夹中的所有文件、CSV 表中的所有文件。
选择适当的模型权重（如 nisqa.tar 用于传输语音样本，nisqa_tts.tar 用于合成语音样本）。

训练

支持微调/迁移学习和训练新模型。
使用 YAML 文件控制训练配置。
提供不同的模型结构配置文件，如 train_nisqa_cnn_sa_ap.yaml 和 train_nisqa_double_ended.yaml。

评估

训练后的模型可以在给定数据集上进行评估。

数据集详情

NISQA 语料库

包含超过 14,000 个语音样本，模拟（如编解码器、丢包、背景噪声）和实时（如手机、Zoom、Skype、WhatsApp）条件。

论文和许可证

使用 NISQA 模型或 NISQA 语料库进行研究时，请引用相关论文。
NISQA 代码基于 MIT 许可证。
模型权重基于 CC BY-NC-SA 4.0 许可证。
NISQA 语料库遵循原始源语音和噪声样本的条款。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论（Hofstede's Cultural Dimensions Theory）的相关数据，涵盖了多个国家和地区的文化维度评分，如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录