five

MOS-Bench|语音处理数据集|语音质量评估数据集

收藏
arXiv2024-11-06 更新2024-11-08 收录
语音处理
语音质量评估
下载链接:
https://github.com/unilight/sheet
下载链接
链接失效反馈
资源简介:
MOS-Bench是一个用于训练和评估主观语音质量评估模型泛化能力的数据集集合,由名古屋大学开发。该数据集包含七个训练集和十二个测试集,涵盖不同的采样频率、语言和语音类型,包括由文本到语音(TTS)、语音转换(VC)、语音增强(SE)系统生成的合成语音,以及非合成语音如传输、噪声和混响语音。数据集的创建过程包括对多个听觉测试数据集的整合和处理,旨在解决语音质量评估模型在未见数据上的泛化能力问题。MOS-Bench广泛应用于语音处理领域,特别是主观语音质量评估的研究。
提供机构:
名古屋大学
创建时间:
2024-11-06
原始信息汇总

🗣️ SHEET / MOS-Bench 🎧

数据集概述

  • MOS-Bench 是一个用于评估主观语音质量评估(SSQA)模型泛化能力的基准。
  • SHEET 是一个用于与 MOS-Bench 进行研究实验的工具包。

关键特性

  • MOS-Bench 是首个大规模的 SSQA 训练和测试数据集集合,涵盖了广泛的领域,包括文本到语音(TTS)、语音转换(VC)、歌唱语音合成(SVS)系统生成的合成语音,以及带有人工和真实噪声、剪辑、传输、混响等的失真语音。
  • 该仓库旨在提供训练配方。虽然有许多现成的语音质量评估工具,如 DNSMOS、SpeechMOS 和 speechmetrics,但大多数不提供训练配方,因此不适合研究。

MOS-Bench 概览

  • MOS-Bench 目前包含 7 个训练集和 12 个测试集。

支持的模型和特性

模型

特性

  • 建模
    • 听众建模
    • 基于自监督学习(SSL)的编码器,由 S3PRL 支持
  • 训练
    • 自动保存最佳模型和早期停止
    • 可视化,包括预测分数分布、话语和系统级别分数的散点图
    • 模型平均
    • 通过堆叠进行模型集成

使用指南

  • 新用户:提供完整的实验配方,包括下载和处理数据集、训练和评估模型的脚本。
  • 已有模型用户:提供方便的测试集收集脚本。
  • 使用预训练模型:通过 torch.hub 提供加载预训练 SSQA 模型并预测分数的功能。

安装

  • 通过 git clonemake 命令进行可编辑安装,自动构建虚拟环境。

信息

  • 引用:如果使用该项目中的训练脚本、基准测试脚本或预训练模型,请引用相关论文。
  • 致谢:该项目受到 ESPNet 和 ParallelWaveGAN 等仓库的启发。
  • 作者:Wen-Chin Huang,Toda Labotorary, Nagoya University。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MOS-Bench数据集的构建旨在评估主观语音质量评估(SSQA)模型的泛化能力。该数据集包含七个训练集和十二个测试集,涵盖了不同的采样频率、语言和语音类型,包括由文本到语音(TTS)、语音转换(VC)、语音增强(SE)系统生成的合成语音,以及非合成语音如传输、噪声和混响语音。此外,还开发了SHEET工具包,提供了从数据处理、模型训练到基准测试的完整实验流程。
特点
MOS-Bench数据集的特点在于其多样性和广泛性。它不仅涵盖了多种语言和采样频率,还包含了合成语音和非合成语音的广泛类别。此外,数据集中的某些训练集提供了听众级别的评分,这使得听众建模技术成为可能。SHEET工具包的引入进一步增强了数据集的实用性,为SSQA研究提供了全面的实验支持。
使用方法
使用MOS-Bench数据集时,研究人员可以通过SHEET工具包进行数据预处理、模型训练和基准测试。该工具包支持多种基于深度神经网络(DNN)的SSQA模型,并提供了详细的训练脚本和配置文件。通过结合多个训练数据集进行模型训练,可以有效提升模型的泛化能力,特别是在处理未见过的、域外数据时。此外,数据集还引入了一种新的性能指标——最佳得分差异/比率,用于全面评估SSQA模型的表现。
背景与挑战
背景概述
MOS-Bench,由Wen-Chin Huang、Erica Cooper和Tomoki Toda于2015年提出,是一个专注于主观语音质量评估(SSQA)模型泛化能力评估的数据集。该数据集的创建旨在解决深度神经网络(DNN)在SSQA中的广泛应用所带来的泛化挑战,特别是在未见过的、域外数据上的表现。MOS-Bench汇集了多种数据集,涵盖不同的采样频率、语言和语音类型,从合成语音到非合成语音,如传输、噪声和混响语音。此外,研究团队还开发了SHEET工具包,提供完整的实验配方,从数据处理到模型训练和基准测试,极大地促进了SSQA研究的发展。
当前挑战
MOS-Bench数据集面临的挑战主要集中在两个方面。首先,SSQA模型在处理域外数据时的泛化能力不足,这是一个普遍存在的问题。其次,数据集构建过程中遇到的挑战包括如何有效地整合来自不同听觉测试的数据,以及如何处理不同数据集之间的“语料库效应”,即同一类型的语音在不同听觉测试中可能获得不同的评分。此外,如何在不牺牲域内测试集性能的情况下,通过多数据集训练来提升模型的泛化能力,也是一个亟待解决的问题。
常用场景
经典使用场景
MOS-Bench数据集在主观语音质量评估(SSQA)领域中被广泛用于评估和训练模型,特别是在处理未见过的、域外数据时。该数据集通过提供多样化的语音样本,涵盖不同的采样频率、语言和语音类型,为研究人员提供了一个全面的基准。通过使用MOS-Bench,研究人员可以评估和提升SSQA模型在不同条件下的泛化能力,从而更好地模拟人类听众对语音样本的感知质量。
实际应用
MOS-Bench数据集在实际应用中具有广泛的价值,特别是在语音合成、语音转换和语音增强系统中。通过使用该数据集,开发者可以评估和优化其系统在不同语言、采样频率和语音类型下的表现,从而提升用户体验。此外,MOS-Bench还支持多数据集训练,这有助于模型在处理实际应用中的多样化数据时表现更加稳健。
衍生相关工作
MOS-Bench数据集的发布催生了一系列相关研究工作,特别是在提升SSQA模型泛化能力方面。例如,研究人员提出了基于自监督学习的迁移学习方法,通过在大规模未标记语音数据上预训练模型,然后在特定任务上进行微调,以提升模型在零样本预测中的表现。此外,集成学习和多数据集训练策略也被广泛研究,以进一步增强模型的鲁棒性和泛化能力。这些研究工作不仅提升了SSQA模型的性能,还为语音处理领域的其他任务提供了有价值的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录