hewliyang/nisqa-blizzard-challenge-mos

Name: hewliyang/nisqa-blizzard-challenge-mos
Creator: hewliyang
Published: 2024-04-26 05:36:10
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hewliyang/nisqa-blizzard-challenge-mos

下载链接

链接失效反馈

官方服务：

资源简介：

# blizzard-challenge-mos This dataset contains MOS (Naturalness) subjective metrics derived from listening tests done during the evaluation stages of the [Blizzard Challenge](https://www.synsig.org/index.php/Blizzard_Challenge) from 2008 -> 2023. All data is sourced from https://www.cstr.ed.ac.uk/projects/blizzard/data.html. The dataset is formatted for training NISQA models. In particular, at this time there are only two columns for each `.csv` file: - `filepath_deg`: relative file path to the `.wav` file - `mos`: averaged MOS per file over an X number of listeners** **Usage** Similarly, we cannot leverage `datasets` for data loading. Instead, make sure **Git LFS** is installed on your system: ```bash sudo apt install git-lfs git lfs install ``` Download the dataset using: ```bash git clone https://huggingface.co/datasets/hewliyang/blizzard-challenge-mos ``` Untar the wavfiles ```bash find . -name '*.tar.gz' -exec tar -xzf '{}' \; # can remove the tarballs to save disk space rm *.tar.gz ``` **Summary** ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65b3f450d5bf0d622a958653/pm1UJg_NrJuC5AoTzJFPg.png) Taken from [Mittag. G, Moller. S, 2021](https://arxiv.org/pdf/2104.11673.pdf) To filter for subtasks ie: `EH1`, `EH2` notice that the filenames have been make extremely verbose by design. You can filter easily by checking for substrings ie: `"EH1" in x` **Caveats**** 1. **2014,2015,2016** data only contains system level (ie: submission grouped by participating team). 2. 2015 data was no longer available for download at the link above, hence has been omitted here. **Todos** - [ ] handle 2014 data (??) - [ ] add metadata (license per system, languages, hub/spoke task labels) - [ ] handle 2016 edge cases (listening tests were done on a concatenation of a few raw files + silences. these samples have to be reconstructed which has not been done yet. so we are missing ~500 wavs) - [ ] citations for all Blizzard Challenges **References** ```tex @inproceedings{Mittag_2021, series={interspeech_2021}, title={NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets}, url={http://dx.doi.org/10.21437/Interspeech.2021-299}, DOI={10.21437/interspeech.2021-299}, booktitle={Interspeech 2021}, publisher={ISCA}, author={Mittag, Gabriel and Naderi, Babak and Chehadi, Assmaa and Möller, Sebastian}, year={2021}, month=aug, collection={interspeech_2021} } @inproceedings{Mittag_2020, series={interspeech_2020}, title={Deep Learning Based Assessment of Synthetic Speech Naturalness}, url={http://dx.doi.org/10.21437/Interspeech.2020-2382}, DOI={10.21437/interspeech.2020-2382}, booktitle={Interspeech 2020}, publisher={ISCA}, author={Mittag, Gabriel and Möller, Sebastian}, year={2020}, month=oct, collection={interspeech_2020} } ```

# 暴雪挑战赛MOS数据集本数据集收录了2008年至2023年间，[暴雪挑战赛（Blizzard Challenge）](https://www.synsig.org/index.php/Blizzard_Challenge)各评估阶段通过听音测试得到的MOS（自然度）主观评测指标。所有数据均来源于https://www.cstr.ed.ac.uk/projects/blizzard/data.html。本数据集的格式专为NISQA模型训练设计。目前每个`.csv`文件仅包含两列： - `filepath_deg`：指向`.wav`音频文件的相对路径 - `mos`：经X名试听者打分后，单文件的平均MOS评分 **使用说明** 此外，本数据集无法通过`datasets`库进行数据加载，请确保你的系统已安装**Git LFS**： bash sudo apt install git-lfs git lfs install 使用以下命令下载数据集： bash git clone https://huggingface.co/datasets/hewliyang/blizzard-challenge-mos 解压音频压缩包： bash find . -name '*.tar.gz' -exec tar -xzf '{}' ; # 可删除压缩包以节省磁盘空间 rm *.tar.gz **数据集概览** ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65b3f450d5bf0d622a958653/pm1UJg_NrJuC5AoTzJFPg.png) 内容取自[Mittag, G, Möller, S, 2021](https://arxiv.org/pdf/2104.11673.pdf) 若需筛选`EH1`、`EH2`等子任务，请注意文件名经过刻意设计，命名格式非常详尽。可通过检索子字符串快速完成筛选，例如：`"EH1" in x` **注意事项** 1. 2014、2015、2016年的数据仅包含系统级结果（即按参赛团队分组的提交结果）。 2. 上述链接已无法下载2015年的数据，因此本数据集未包含该年份的内容。 **待完成事项** - [ ] 处理2014年数据（待确认） - [ ] 添加元数据（各系统的授权协议、语言信息、hub/spoke任务标签） - [ ] 处理2016年的边缘场景：当年的听音测试基于若干原始音频拼接后添加静音段完成，需对这些样本进行重构，目前尚未实现，因此缺失约500个.wav音频文件 - [ ] 补充所有暴雪挑战赛的引用文献 **参考文献** tex @inproceedings{Mittag_2021, series={interspeech_2021}, title={NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets}, url={http://dx.doi.org/10.21437/Interspeech.2021-299}, DOI={10.21437/interspeech.2021-299}, booktitle={Interspeech 2021}, publisher={ISCA}, author={Mittag, Gabriel and Naderi, Babak and Chehadi, Assmaa and Möller, Sebastian}, year={2021}, month=aug, collection={interspeech_2021} } @inproceedings{Mittag_2020, series={interspeech_2020}, title={Deep Learning Based Assessment of Synthetic Speech Naturalness}, url={http://dx.doi.org/10.21437/Interspeech.2020-2382}, DOI={10.21437/interspeech.2020-2382}, booktitle={Interspeech 2020}, publisher={ISCA}, author={Mittag, Gabriel and Möller, Sebastian}, year={2020}, month=oct, collection={interspeech_2020} }

提供机构：

hewliyang

原始信息汇总

数据集概述

数据集名称

名称: blizzard-challenge-mos

数据集内容

描述: 包含从2008年到2023年Blizzard Challenge评估阶段中获得的MOS（自然度）主观评价指标。
数据来源: https://www.cstr.ed.ac.uk/projects/blizzard/data.html

数据格式

格式: 每个.csv文件包含两个列
- filepath_deg: .wav文件的相对文件路径
- mos: 每个文件的平均MOS评分，由X名听众评定

数据使用

特殊要求: 需要安装Git LFS来处理数据集的下载和解压。

数据限制

数据缺失: 2015年的数据由于无法从原链接下载，未包含在本数据集中。
数据处理: 2014年和2016年的数据仅包含系统级别的信息，且2016年的某些样本需要重新构建。

未来计划

处理2014年数据
添加元数据（如许可证、语言、任务标签）
处理2016年的边缘案例
添加所有Blizzard Challenge的引用

引用信息

参考文献:
- Mittag, G., Moller, S., 2021. NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech Quality Prediction with Crowdsourced Datasets. Interspeech 2021.
- Mittag, G., Moller, S., 2020. Deep Learning Based Assessment of Synthetic Speech Naturalness. Interspeech 2020.

搜集汇总

数据集介绍

构建方式

在语音合成研究领域，主观评价是衡量合成语音自然度的关键环节。本数据集源自2008年至2023年间Blizzard Challenge评估阶段进行的听觉测试，系统性地收集了平均意见分数（MOS）数据。数据构建过程严格遵循国际标准，通过多位听者对参赛系统生成的语音样本进行主观评分，随后计算每个音频文件的平均MOS值，并以结构化CSV格式整理，包含文件路径、MOS分数、系统标识及商业使用许可状态，为语音质量预测模型提供了经过验证的标注基础。

特点

该数据集在语音质量评估领域展现出独特价值，其核心特征在于覆盖了长达十五年的Blizzard Challenge竞赛数据，提供了跨时间维度的合成语音自然度评价基准。数据集经过精心设计，文件名蕴含丰富信息，便于研究者通过子字符串过滤机制识别特定子任务，如EH1或EH2。尽管2014至2016年数据仅保留系统级MOS，且2015年数据因源文件缺失而未被纳入，但整体数据集仍以其时间跨度广、标注严谨、结构清晰的特点，成为训练和验证多维语音质量预测模型的宝贵资源。

使用方法

为有效利用该数据集进行语音质量研究，用户需首先在系统中安装Git LFS工具，随后通过Git克隆命令下载数据集文件。下载完成后，需解压包含音频文件的压缩包，并可选择删除原始压缩文件以节省存储空间。数据加载不依赖于特定框架，研究者可直接读取CSV文件，依据文件路径访问对应的WAV音频，并结合MOS分数及系统标识进行模型训练或评估。通过灵活的文件名过滤，用户能够轻松提取特定年份或任务的子集，从而针对性地开展合成语音自然度的深入分析。

背景与挑战

背景概述

在语音合成技术迅猛发展的背景下，评估合成语音的自然度成为推动该领域进步的核心议题。Blizzard Challenge作为国际知名的年度语音合成竞赛，自2008年起由爱丁堡大学等研究机构主导，旨在通过系统性的主观听测实验，量化不同合成系统的语音质量。该数据集汇集了2008年至2023年间竞赛中收集的平均意见分数（MOS），为研究人员提供了宝贵的基准数据，极大地促进了语音质量评估模型的研发，如NISQA等深度学习方法，从而在语音技术领域产生了深远影响。

当前挑战

该数据集致力于解决合成语音自然度评估的挑战，其核心在于如何准确量化人类对语音质量的主观感知，并建立可靠的客观预测模型。在构建过程中，数据集面临多重困难：部分年份仅提供系统级别的MOS评分，缺乏细粒度的样本级数据；2015年的原始数据已不可获取，导致数据完整性受损；2016年的部分语音样本需通过复杂重构才能使用，目前尚未完全处理；此外，数据集中涉及多种许可状态，为商业研发带来不确定性。这些挑战共同制约了数据集的全面应用与模型训练的精度。

常用场景

经典使用场景

在语音合成技术领域，评估合成语音的自然度是衡量系统性能的核心指标。该数据集汇集了2008年至2023年暴雪挑战赛期间通过主观听音测试获得的平均意见分数，为研究人员提供了标准化、大规模的自然度评分数据。这些数据常用于训练和验证语音质量评估模型，如NISQA框架，通过深度学习模型预测合成语音的多维质量属性，从而系统性地比较不同语音合成系统的输出效果。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作。例如，Mittag等人提出的NISQA模型利用此类数据训练深度卷积-自注意力网络，实现了多维语音质量预测。相关研究还包括语音自然度的深度学习评估方法、跨语言合成系统的质量比较，以及结合生理信号（如脑电图）的语音体验质量分析。这些工作不仅深化了对语音质量构成的理解，也推动了自动评估工具的发展，为语音合成技术的进步提供了重要支撑。

数据集最近研究