Dataset for pronunciation evaluation in singing

github2023-02-20 更新2024-05-31 收录

下载链接：

https://github.com/chitralekha18/Dataset-for-pronunciation-evaluation-in-singing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于唱歌发音自动评估，包含24个从DAMP Smule数据集中提取的音频文件，以及包含歌手性别和区域信息的元数据和MTurk注释文件。此外，还有单词级别的发音标记，用于指示发音的正确与否。

This dataset is designed for the automatic evaluation of singing pronunciation. It comprises 24 audio files extracted from the DAMP Smule dataset, along with metadata that includes the singer's gender and regional information, as well as MTurk annotation files. Additionally, it features word-level pronunciation markers that indicate the accuracy of pronunciation.

创建时间：

2018-12-21

原始信息汇总

歌唱发音评估数据集概述

数据集内容

音频文件: 包含24个从DAMP Smule数据集中提取的音频文件，存放于"wavfiles"文件夹中。
元数据与标注文件: 包含名为"Metadata and MTurk Annotation.csv"的文件，记录了歌手的性别和区域信息，以及从MTurk用户获得的平均发音质量评分（满分为5分）。
字级标注: 包含字级发音标记，标记为1表示发音错误，空白表示发音正确。

数据集用途

本数据集仅供研究使用。

联系信息

如有疑问，请联系chitralekha@u.nus.edu。

搜集汇总

数据集介绍

构建方式

该数据集构建于DAMP Smule数据集的基础之上，从中提取了24个音频文件，并进一步通过MTurk平台收集了发音质量的评分数据。每个音频文件的发音质量由多位用户进行评分，评分范围为1至5分。此外，数据集还包含了单词级别的发音标注，标注者会标记出每个单词的发音是否正确，1表示发音错误，空白则表示发音正确。

特点

该数据集的特点在于其专注于歌唱中的发音评估，提供了音频文件、元数据以及详细的发音质量评分。音频文件来源于真实的歌唱录音，确保了数据的多样性和真实性。发音评分由多位用户通过MTurk平台完成，确保了评分的客观性和可靠性。单词级别的发音标注进一步增强了数据集的细粒度，使其适用于更精细的发音分析任务。

使用方法

该数据集的使用方法较为直观，用户可以通过音频文件进行发音质量的分析，并结合元数据中的性别和地区信息进行更深入的研究。发音评分数据可用于训练或评估发音评估模型，而单词级别的标注则可用于开发或测试单词发音识别算法。使用该数据集时，需引用相关论文，并确保仅用于研究目的。

背景与挑战

背景概述

在音乐信息检索领域，歌唱发音的自动评估一直是一个具有挑战性的研究课题。2018年，由Chitralekha Gupta、Haizhou Li和Ye Wang等研究人员在Interspeech会议上发表的论文中，首次提出了用于歌唱发音评估的数据集。该数据集基于DAMP Smule数据集构建，包含了24个音频文件及其对应的元数据和众包标注信息。研究团队通过MTurk平台获取了发音质量的评分，并提供了单词级别的发音标注。这一数据集的发布为歌唱发音自动评估算法的开发提供了重要的基准数据，推动了相关领域的研究进展。

当前挑战

歌唱发音评估数据集面临的主要挑战体现在两个方面。从领域问题来看，歌唱发音的评估需要同时考虑音高、节奏和语言发音的准确性，这种多模态特征的融合增加了评估模型的复杂性。此外，歌唱中的情感表达和艺术处理往往会导致发音的变形，如何区分艺术处理与发音错误是一个技术难点。从数据构建过程来看，获取高质量的发音标注数据具有挑战性。尽管研究团队采用了众包标注的方式，但标注者的主观性和音乐背景差异可能导致标注结果的不一致性，这对数据集的可靠性提出了更高要求。

常用场景

经典使用场景

在音乐信息检索和语音处理领域，该数据集被广泛用于评估歌唱中的发音质量。研究者通过分析音频文件和对应的发音评分，能够深入探讨歌唱发音的自动评估方法。这一数据集为开发基于机器学习的发音评估模型提供了宝贵的实验数据。

衍生相关工作

基于该数据集的研究成果，衍生了一系列关于歌唱发音评估的经典工作。例如，研究者提出了基于深度学习的发音评分模型，进一步提升了评估的准确性。这些工作为音乐信息检索和语音处理领域的发展奠定了重要基础。

数据集最近研究