five

hewliyang/nisqa-blizzard-challenge-mos

收藏
Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hewliyang/nisqa-blizzard-challenge-mos
下载链接
链接失效反馈
官方服务:
资源简介:
# blizzard-challenge-mos This dataset contains MOS (Naturalness) subjective metrics derived from listening tests done during the evaluation stages of the [Blizzard Challenge](https://www.synsig.org/index.php/Blizzard_Challenge) from 2008 -> 2023. All data is sourced from https://www.cstr.ed.ac.uk/projects/blizzard/data.html. The dataset is formatted for training NISQA models. In particular, at this time there are only two columns for each `.csv` file: - `filepath_deg`: relative file path to the `.wav` file - `mos`: averaged MOS per file over an X number of listeners** **Usage** Similarly, we cannot leverage `datasets` for data loading. Instead, make sure **Git LFS** is installed on your system: ```bash sudo apt install git-lfs git lfs install ``` Download the dataset using: ```bash git clone https://huggingface.co/datasets/hewliyang/blizzard-challenge-mos ``` Untar the wavfiles ```bash find . -name '*.tar.gz' -exec tar -xzf '{}' \; # can remove the tarballs to save disk space rm *.tar.gz ``` **Summary** ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65b3f450d5bf0d622a958653/pm1UJg_NrJuC5AoTzJFPg.png) Taken from [Mittag. G, Moller. S, 2021](https://arxiv.org/pdf/2104.11673.pdf) To filter for subtasks ie: `EH1`, `EH2` notice that the filenames have been make extremely verbose by design. You can filter easily by checking for substrings ie: `"EH1" in x` **Caveats**** 1. **2014,2015,2016** data only contains system level (ie: submission grouped by participating team). 2. 2015 data was no longer available for download at the link above, hence has been omitted here. **Todos** - [ ] handle 2014 data (??) - [ ] add metadata (license per system, languages, hub/spoke task labels) - [ ] handle 2016 edge cases (listening tests were done on a concatenation of a few raw files + silences. these samples have to be reconstructed which has not been done yet. so we are missing ~500 wavs) - [ ] citations for all Blizzard Challenges **References** ```tex @inproceedings{Mittag_2021, series={interspeech_2021}, title={NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets}, url={http://dx.doi.org/10.21437/Interspeech.2021-299}, DOI={10.21437/interspeech.2021-299}, booktitle={Interspeech 2021}, publisher={ISCA}, author={Mittag, Gabriel and Naderi, Babak and Chehadi, Assmaa and Möller, Sebastian}, year={2021}, month=aug, collection={interspeech_2021} } @inproceedings{Mittag_2020, series={interspeech_2020}, title={Deep Learning Based Assessment of Synthetic Speech Naturalness}, url={http://dx.doi.org/10.21437/Interspeech.2020-2382}, DOI={10.21437/interspeech.2020-2382}, booktitle={Interspeech 2020}, publisher={ISCA}, author={Mittag, Gabriel and Möller, Sebastian}, year={2020}, month=oct, collection={interspeech_2020} } ```

# 暴雪挑战赛MOS数据集 本数据集收录了2008年至2023年间,[暴雪挑战赛(Blizzard Challenge)](https://www.synsig.org/index.php/Blizzard_Challenge)各评估阶段通过听音测试得到的MOS(自然度)主观评测指标。所有数据均来源于https://www.cstr.ed.ac.uk/projects/blizzard/data.html。 本数据集的格式专为NISQA模型训练设计。目前每个`.csv`文件仅包含两列: - `filepath_deg`:指向`.wav`音频文件的相对路径 - `mos`:经X名试听者打分后,单文件的平均MOS评分 **使用说明** 此外,本数据集无法通过`datasets`库进行数据加载,请确保你的系统已安装**Git LFS**: bash sudo apt install git-lfs git lfs install 使用以下命令下载数据集: bash git clone https://huggingface.co/datasets/hewliyang/blizzard-challenge-mos 解压音频压缩包: bash find . -name '*.tar.gz' -exec tar -xzf '{}' ; # 可删除压缩包以节省磁盘空间 rm *.tar.gz **数据集概览** ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65b3f450d5bf0d622a958653/pm1UJg_NrJuC5AoTzJFPg.png) 内容取自[Mittag, G, Möller, S, 2021](https://arxiv.org/pdf/2104.11673.pdf) 若需筛选`EH1`、`EH2`等子任务,请注意文件名经过刻意设计,命名格式非常详尽。可通过检索子字符串快速完成筛选,例如:`"EH1" in x` **注意事项** 1. 2014、2015、2016年的数据仅包含系统级结果(即按参赛团队分组的提交结果)。 2. 上述链接已无法下载2015年的数据,因此本数据集未包含该年份的内容。 **待完成事项** - [ ] 处理2014年数据(待确认) - [ ] 添加元数据(各系统的授权协议、语言信息、hub/spoke任务标签) - [ ] 处理2016年的边缘场景:当年的听音测试基于若干原始音频拼接后添加静音段完成,需对这些样本进行重构,目前尚未实现,因此缺失约500个.wav音频文件 - [ ] 补充所有暴雪挑战赛的引用文献 **参考文献** tex @inproceedings{Mittag_2021, series={interspeech_2021}, title={NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets}, url={http://dx.doi.org/10.21437/Interspeech.2021-299}, DOI={10.21437/interspeech.2021-299}, booktitle={Interspeech 2021}, publisher={ISCA}, author={Mittag, Gabriel and Naderi, Babak and Chehadi, Assmaa and Möller, Sebastian}, year={2021}, month=aug, collection={interspeech_2021} } @inproceedings{Mittag_2020, series={interspeech_2020}, title={Deep Learning Based Assessment of Synthetic Speech Naturalness}, url={http://dx.doi.org/10.21437/Interspeech.2020-2382}, DOI={10.21437/interspeech.2020-2382}, booktitle={Interspeech 2020}, publisher={ISCA}, author={Mittag, Gabriel and Möller, Sebastian}, year={2020}, month=oct, collection={interspeech_2020} }
提供机构:
hewliyang
原始信息汇总

数据集概述

数据集名称

  • 名称: blizzard-challenge-mos

数据集内容

  • 描述: 包含从2008年到2023年Blizzard Challenge评估阶段中获得的MOS(自然度)主观评价指标。
  • 数据来源: https://www.cstr.ed.ac.uk/projects/blizzard/data.html

数据格式

  • 格式: 每个.csv文件包含两个列
    • filepath_deg: .wav文件的相对文件路径
    • mos: 每个文件的平均MOS评分,由X名听众评定

数据使用

  • 特殊要求: 需要安装Git LFS来处理数据集的下载和解压。

数据限制

  • 数据缺失: 2015年的数据由于无法从原链接下载,未包含在本数据集中。
  • 数据处理: 2014年和2016年的数据仅包含系统级别的信息,且2016年的某些样本需要重新构建。

未来计划

  • 处理2014年数据
  • 添加元数据(如许可证、语言、任务标签)
  • 处理2016年的边缘案例
  • 添加所有Blizzard Challenge的引用

引用信息

  • 参考文献:
    • Mittag, G., Moller, S., 2021. NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets. Interspeech 2021.
    • Mittag, G., Moller, S., 2020. Deep Learning Based Assessment of Synthetic Speech Naturalness. Interspeech 2020.
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成研究领域,主观评价是衡量合成语音自然度的关键环节。本数据集源自2008年至2023年间Blizzard Challenge评估阶段进行的听觉测试,系统性地收集了平均意见分数(MOS)数据。数据构建过程严格遵循国际标准,通过多位听者对参赛系统生成的语音样本进行主观评分,随后计算每个音频文件的平均MOS值,并以结构化CSV格式整理,包含文件路径、MOS分数、系统标识及商业使用许可状态,为语音质量预测模型提供了经过验证的标注基础。
特点
该数据集在语音质量评估领域展现出独特价值,其核心特征在于覆盖了长达十五年的Blizzard Challenge竞赛数据,提供了跨时间维度的合成语音自然度评价基准。数据集经过精心设计,文件名蕴含丰富信息,便于研究者通过子字符串过滤机制识别特定子任务,如EH1或EH2。尽管2014至2016年数据仅保留系统级MOS,且2015年数据因源文件缺失而未被纳入,但整体数据集仍以其时间跨度广、标注严谨、结构清晰的特点,成为训练和验证多维语音质量预测模型的宝贵资源。
使用方法
为有效利用该数据集进行语音质量研究,用户需首先在系统中安装Git LFS工具,随后通过Git克隆命令下载数据集文件。下载完成后,需解压包含音频文件的压缩包,并可选择删除原始压缩文件以节省存储空间。数据加载不依赖于特定框架,研究者可直接读取CSV文件,依据文件路径访问对应的WAV音频,并结合MOS分数及系统标识进行模型训练或评估。通过灵活的文件名过滤,用户能够轻松提取特定年份或任务的子集,从而针对性地开展合成语音自然度的深入分析。
背景与挑战
背景概述
在语音合成技术迅猛发展的背景下,评估合成语音的自然度成为推动该领域进步的核心议题。Blizzard Challenge作为国际知名的年度语音合成竞赛,自2008年起由爱丁堡大学等研究机构主导,旨在通过系统性的主观听测实验,量化不同合成系统的语音质量。该数据集汇集了2008年至2023年间竞赛中收集的平均意见分数(MOS),为研究人员提供了宝贵的基准数据,极大地促进了语音质量评估模型的研发,如NISQA等深度学习方法,从而在语音技术领域产生了深远影响。
当前挑战
该数据集致力于解决合成语音自然度评估的挑战,其核心在于如何准确量化人类对语音质量的主观感知,并建立可靠的客观预测模型。在构建过程中,数据集面临多重困难:部分年份仅提供系统级别的MOS评分,缺乏细粒度的样本级数据;2015年的原始数据已不可获取,导致数据完整性受损;2016年的部分语音样本需通过复杂重构才能使用,目前尚未完全处理;此外,数据集中涉及多种许可状态,为商业研发带来不确定性。这些挑战共同制约了数据集的全面应用与模型训练的精度。
常用场景
经典使用场景
在语音合成技术领域,评估合成语音的自然度是衡量系统性能的核心指标。该数据集汇集了2008年至2023年暴雪挑战赛期间通过主观听音测试获得的平均意见分数,为研究人员提供了标准化、大规模的自然度评分数据。这些数据常用于训练和验证语音质量评估模型,如NISQA框架,通过深度学习模型预测合成语音的多维质量属性,从而系统性地比较不同语音合成系统的输出效果。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作。例如,Mittag等人提出的NISQA模型利用此类数据训练深度卷积-自注意力网络,实现了多维语音质量预测。相关研究还包括语音自然度的深度学习评估方法、跨语言合成系统的质量比较,以及结合生理信号(如脑电图)的语音体验质量分析。这些工作不仅深化了对语音质量构成的理解,也推动了自动评估工具的发展,为语音合成技术的进步提供了重要支撑。
数据集最近研究
最新研究方向
在语音合成领域,主观质量评估一直是推动技术演进的核心驱动力。基于Blizzard Challenge历年数据构建的MOS数据集,为深度学习模型如NISQA提供了关键训练资源,促进了多维语音质量预测的前沿探索。当前研究热点聚焦于利用自注意力机制与卷积神经网络融合的架构,实现对合成语音自然度的精准量化,这不仅加速了端到端语音合成系统的迭代优化,更在语音助手、虚拟人等新兴应用中提升了用户体验的真实感。该数据集的持续更新与标准化,为学术界与工业界建立了可靠的评估基准,推动了语音合成技术向更高自然度与鲁棒性迈进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作