hewliyang/nisqa-blizzard-challenge-mos
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hewliyang/nisqa-blizzard-challenge-mos
下载链接
链接失效反馈官方服务:
资源简介:
# blizzard-challenge-mos
This dataset contains MOS (Naturalness) subjective metrics derived from listening tests done during the evaluation stages of the [Blizzard Challenge](https://www.synsig.org/index.php/Blizzard_Challenge) from 2008 -> 2023.
All data is sourced from https://www.cstr.ed.ac.uk/projects/blizzard/data.html.
The dataset is formatted for training NISQA models. In particular, at this time there are only two columns for each `.csv` file:
- `filepath_deg`: relative file path to the `.wav` file
- `mos`: averaged MOS per file over an X number of listeners**
**Usage**
Similarly, we cannot leverage `datasets` for data loading. Instead, make sure **Git LFS** is installed on your system:
```bash
sudo apt install git-lfs
git lfs install
```
Download the dataset using:
```bash
git clone https://huggingface.co/datasets/hewliyang/blizzard-challenge-mos
```
Untar the wavfiles
```bash
find . -name '*.tar.gz' -exec tar -xzf '{}' \;
# can remove the tarballs to save disk space
rm *.tar.gz
```
**Summary**

Taken from [Mittag. G, Moller. S, 2021](https://arxiv.org/pdf/2104.11673.pdf)
To filter for subtasks ie: `EH1`, `EH2` notice that the filenames have been make extremely verbose by design.
You can filter easily by checking for substrings ie: `"EH1" in x`
**Caveats****
1. **2014,2015,2016** data only contains system level (ie: submission grouped by participating team).
2. 2015 data was no longer available for download at the link above, hence has been omitted here.
**Todos**
- [ ] handle 2014 data (??)
- [ ] add metadata (license per system, languages, hub/spoke task labels)
- [ ] handle 2016 edge cases (listening tests were done on a concatenation of a few raw files + silences. these samples have to be reconstructed which has not been done yet. so we are missing ~500 wavs)
- [ ] citations for all Blizzard Challenges
**References**
```tex
@inproceedings{Mittag_2021, series={interspeech_2021},
title={NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets},
url={http://dx.doi.org/10.21437/Interspeech.2021-299},
DOI={10.21437/interspeech.2021-299},
booktitle={Interspeech 2021},
publisher={ISCA},
author={Mittag, Gabriel and Naderi, Babak and Chehadi, Assmaa and Möller, Sebastian},
year={2021},
month=aug, collection={interspeech_2021} }
@inproceedings{Mittag_2020, series={interspeech_2020},
title={Deep Learning Based Assessment of Synthetic Speech Naturalness},
url={http://dx.doi.org/10.21437/Interspeech.2020-2382},
DOI={10.21437/interspeech.2020-2382},
booktitle={Interspeech 2020},
publisher={ISCA},
author={Mittag, Gabriel and Möller, Sebastian},
year={2020},
month=oct, collection={interspeech_2020} }
```
# 暴雪挑战赛MOS数据集
本数据集收录了2008年至2023年间,[暴雪挑战赛(Blizzard Challenge)](https://www.synsig.org/index.php/Blizzard_Challenge)各评估阶段通过听音测试得到的MOS(自然度)主观评测指标。所有数据均来源于https://www.cstr.ed.ac.uk/projects/blizzard/data.html。
本数据集的格式专为NISQA模型训练设计。目前每个`.csv`文件仅包含两列:
- `filepath_deg`:指向`.wav`音频文件的相对路径
- `mos`:经X名试听者打分后,单文件的平均MOS评分
**使用说明**
此外,本数据集无法通过`datasets`库进行数据加载,请确保你的系统已安装**Git LFS**:
bash
sudo apt install git-lfs
git lfs install
使用以下命令下载数据集:
bash
git clone https://huggingface.co/datasets/hewliyang/blizzard-challenge-mos
解压音频压缩包:
bash
find . -name '*.tar.gz' -exec tar -xzf '{}' ;
# 可删除压缩包以节省磁盘空间
rm *.tar.gz
**数据集概览**

内容取自[Mittag, G, Möller, S, 2021](https://arxiv.org/pdf/2104.11673.pdf)
若需筛选`EH1`、`EH2`等子任务,请注意文件名经过刻意设计,命名格式非常详尽。可通过检索子字符串快速完成筛选,例如:`"EH1" in x`
**注意事项**
1. 2014、2015、2016年的数据仅包含系统级结果(即按参赛团队分组的提交结果)。
2. 上述链接已无法下载2015年的数据,因此本数据集未包含该年份的内容。
**待完成事项**
- [ ] 处理2014年数据(待确认)
- [ ] 添加元数据(各系统的授权协议、语言信息、hub/spoke任务标签)
- [ ] 处理2016年的边缘场景:当年的听音测试基于若干原始音频拼接后添加静音段完成,需对这些样本进行重构,目前尚未实现,因此缺失约500个.wav音频文件
- [ ] 补充所有暴雪挑战赛的引用文献
**参考文献**
tex
@inproceedings{Mittag_2021, series={interspeech_2021},
title={NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets},
url={http://dx.doi.org/10.21437/Interspeech.2021-299},
DOI={10.21437/interspeech.2021-299},
booktitle={Interspeech 2021},
publisher={ISCA},
author={Mittag, Gabriel and Naderi, Babak and Chehadi, Assmaa and Möller, Sebastian},
year={2021},
month=aug, collection={interspeech_2021} }
@inproceedings{Mittag_2020, series={interspeech_2020},
title={Deep Learning Based Assessment of Synthetic Speech Naturalness},
url={http://dx.doi.org/10.21437/Interspeech.2020-2382},
DOI={10.21437/interspeech.2020-2382},
booktitle={Interspeech 2020},
publisher={ISCA},
author={Mittag, Gabriel and Möller, Sebastian},
year={2020},
month=oct, collection={interspeech_2020} }
提供机构:
hewliyang
原始信息汇总
数据集概述
数据集名称
- 名称: blizzard-challenge-mos
数据集内容
- 描述: 包含从2008年到2023年Blizzard Challenge评估阶段中获得的MOS(自然度)主观评价指标。
- 数据来源: https://www.cstr.ed.ac.uk/projects/blizzard/data.html
数据格式
- 格式: 每个
.csv文件包含两个列filepath_deg:.wav文件的相对文件路径mos: 每个文件的平均MOS评分,由X名听众评定
数据使用
- 特殊要求: 需要安装Git LFS来处理数据集的下载和解压。
数据限制
- 数据缺失: 2015年的数据由于无法从原链接下载,未包含在本数据集中。
- 数据处理: 2014年和2016年的数据仅包含系统级别的信息,且2016年的某些样本需要重新构建。
未来计划
- 处理2014年数据
- 添加元数据(如许可证、语言、任务标签)
- 处理2016年的边缘案例
- 添加所有Blizzard Challenge的引用
引用信息
- 参考文献:
- Mittag, G., Moller, S., 2021. NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets. Interspeech 2021.
- Mittag, G., Moller, S., 2020. Deep Learning Based Assessment of Synthetic Speech Naturalness. Interspeech 2020.
搜集汇总
数据集介绍

构建方式
在语音合成研究领域,主观评价是衡量合成语音自然度的关键环节。本数据集源自2008年至2023年间Blizzard Challenge评估阶段进行的听觉测试,系统性地收集了平均意见分数(MOS)数据。数据构建过程严格遵循国际标准,通过多位听者对参赛系统生成的语音样本进行主观评分,随后计算每个音频文件的平均MOS值,并以结构化CSV格式整理,包含文件路径、MOS分数、系统标识及商业使用许可状态,为语音质量预测模型提供了经过验证的标注基础。
特点
该数据集在语音质量评估领域展现出独特价值,其核心特征在于覆盖了长达十五年的Blizzard Challenge竞赛数据,提供了跨时间维度的合成语音自然度评价基准。数据集经过精心设计,文件名蕴含丰富信息,便于研究者通过子字符串过滤机制识别特定子任务,如EH1或EH2。尽管2014至2016年数据仅保留系统级MOS,且2015年数据因源文件缺失而未被纳入,但整体数据集仍以其时间跨度广、标注严谨、结构清晰的特点,成为训练和验证多维语音质量预测模型的宝贵资源。
使用方法
为有效利用该数据集进行语音质量研究,用户需首先在系统中安装Git LFS工具,随后通过Git克隆命令下载数据集文件。下载完成后,需解压包含音频文件的压缩包,并可选择删除原始压缩文件以节省存储空间。数据加载不依赖于特定框架,研究者可直接读取CSV文件,依据文件路径访问对应的WAV音频,并结合MOS分数及系统标识进行模型训练或评估。通过灵活的文件名过滤,用户能够轻松提取特定年份或任务的子集,从而针对性地开展合成语音自然度的深入分析。
背景与挑战
背景概述
在语音合成技术迅猛发展的背景下,评估合成语音的自然度成为推动该领域进步的核心议题。Blizzard Challenge作为国际知名的年度语音合成竞赛,自2008年起由爱丁堡大学等研究机构主导,旨在通过系统性的主观听测实验,量化不同合成系统的语音质量。该数据集汇集了2008年至2023年间竞赛中收集的平均意见分数(MOS),为研究人员提供了宝贵的基准数据,极大地促进了语音质量评估模型的研发,如NISQA等深度学习方法,从而在语音技术领域产生了深远影响。
当前挑战
该数据集致力于解决合成语音自然度评估的挑战,其核心在于如何准确量化人类对语音质量的主观感知,并建立可靠的客观预测模型。在构建过程中,数据集面临多重困难:部分年份仅提供系统级别的MOS评分,缺乏细粒度的样本级数据;2015年的原始数据已不可获取,导致数据完整性受损;2016年的部分语音样本需通过复杂重构才能使用,目前尚未完全处理;此外,数据集中涉及多种许可状态,为商业研发带来不确定性。这些挑战共同制约了数据集的全面应用与模型训练的精度。
常用场景
经典使用场景
在语音合成技术领域,评估合成语音的自然度是衡量系统性能的核心指标。该数据集汇集了2008年至2023年暴雪挑战赛期间通过主观听音测试获得的平均意见分数,为研究人员提供了标准化、大规模的自然度评分数据。这些数据常用于训练和验证语音质量评估模型,如NISQA框架,通过深度学习模型预测合成语音的多维质量属性,从而系统性地比较不同语音合成系统的输出效果。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作。例如,Mittag等人提出的NISQA模型利用此类数据训练深度卷积-自注意力网络,实现了多维语音质量预测。相关研究还包括语音自然度的深度学习评估方法、跨语言合成系统的质量比较,以及结合生理信号(如脑电图)的语音体验质量分析。这些工作不仅深化了对语音质量构成的理解,也推动了自动评估工具的发展,为语音合成技术的进步提供了重要支撑。
数据集最近研究
最新研究方向
在语音合成领域,主观质量评估一直是推动技术演进的核心驱动力。基于Blizzard Challenge历年数据构建的MOS数据集,为深度学习模型如NISQA提供了关键训练资源,促进了多维语音质量预测的前沿探索。当前研究热点聚焦于利用自注意力机制与卷积神经网络融合的架构,实现对合成语音自然度的精准量化,这不仅加速了端到端语音合成系统的迭代优化,更在语音助手、虚拟人等新兴应用中提升了用户体验的真实感。该数据集的持续更新与标准化,为学术界与工业界建立了可靠的评估基准,推动了语音合成技术向更高自然度与鲁棒性迈进。
以上内容由遇见数据集搜集并总结生成



