turkish-makam-solo-voice-dataset

github2023-01-09 更新2024-05-31 收录

下载链接：

https://github.com/MTG/turkish-makam-solo-voice-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由半职业歌手演唱的古典土耳其makam录音的无伴奏歌唱。歌曲采用şarkı形式，于2014年6月在伊斯坦布尔的录音室录制。数据集在单词和音素级别进行了标注。

This dataset comprises a cappella recordings of classical Turkish makam performances by semi-professional singers. The songs are in the şarkı form and were recorded in a studio in Istanbul in June 2014. The dataset is annotated at both the word and phoneme levels.

创建时间：

2014-10-01

原始信息汇总

数据集概述

数据集内容

包含古典土耳其makam音乐的清唱录音，由半职业歌手演唱。

注释信息

音乐部分的注释（如aranağme, zemin等）来源于turkish_makam_section_dataset。
歌词的单词和短语注释由georgi.dzhambazov@upf.edu完成。
所有注释格式为TextGrid，用于Praat软件。

文件命名规则

音频文件命名格式：number_compositionNameShort_sectionNumber_sectionName.wav
其中sectionNumber来源于.tsv文件。

注释指南

使用Praat软件进行注释。
歌词对应的.pdf文件可在lyrics.txt中找到。
生成扩展名为.TextGrid的文件，其中包含名为words的层级。
注释时，确保UTF-8编码设置正确。
操作包括打开音频文件，使用ANNOTATE -> to TextGrid功能，并在words层级中标记歌词。
完成后，将注释文件保存并发送到georgi.dzhambazov@upf.edu。

注释示例

使用Praat打开示例文件goekhan/02_Kimseye_Part1_zemin.TextGrid和goekhan/02_Kimseye_Part1_zemin.wav进行编辑。

可选步骤

如需校验注释与乐谱的一致性，可使用Python脚本MakamScore.py进行解析。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于土耳其古典音乐中的独唱录音，主要由半专业歌手演唱的无伴奏合唱组成。数据集的构建过程中，采用了来自MTG的土耳其音乐片段数据集中的注释信息，特别是关于音乐段落（如aranağme、zemin等）的标注。歌词的单词和短语注释则由特定研究人员完成，所有注释均以TextGrid格式保存，适用于Praat软件。

特点

该数据集的特点在于其专注于土耳其古典音乐中的独唱录音，涵盖了丰富的音乐段落和歌词注释。数据集中的音频文件按照特定的命名规则组织，便于用户快速定位和识别。此外，数据集提供了详细的歌词注释，使用户能够深入分析歌词与音频之间的对应关系。注释文件以TextGrid格式存储，便于在Praat软件中进行进一步的分析和编辑。

使用方法

使用该数据集时，用户需首先下载并安装Praat软件，以便打开和编辑TextGrid格式的注释文件。数据集中的音频文件与歌词注释文件一一对应，用户可以通过Praat软件将音频与歌词进行对齐。具体操作包括打开音频文件、创建或编辑TextGrid文件，并在软件中输入歌词进行标注。标注完成后，用户可以将结果保存并发送给指定的研究人员。此外，数据集还提供了Python脚本，用于解析乐谱以确保歌词注释的准确性。

背景与挑战

背景概述

土耳其马卡姆独唱数据集（Turkish Makam Solo Voice Dataset）专注于古典土耳其马卡姆音乐中的独唱录音，由半专业歌手演唱。该数据集由Georgi Dzhambazov等人于近年创建，旨在为音乐信息检索领域提供高质量的音频标注数据。其核心研究问题在于如何通过精确的歌词和音乐段落标注，支持自动化的音乐分析和检索任务。该数据集不仅为土耳其传统音乐的研究提供了重要资源，还在跨文化音乐分析和语音处理领域产生了广泛影响。

当前挑战

该数据集面临的主要挑战包括：1）领域问题的复杂性，土耳其马卡姆音乐具有独特的音阶和节奏结构，传统的音乐信息检索方法难以直接适用；2）构建过程中的技术难题，如音频与歌词的精确对齐，需要借助Praat等工具进行手动标注，耗时且容易出错；3）数据标注的完整性，部分音频尚未完成标注，需要社区协作以完善数据集。这些挑战不仅考验了研究者的技术能力，也推动了音乐信息检索领域工具和方法的创新。

常用场景

经典使用场景

在音乐信息检索领域，turkish-makam-solo-voice-dataset数据集被广泛应用于研究土耳其古典音乐中的makam模式。通过分析无伴奏独唱录音，研究者能够深入探讨makam的音阶结构、旋律特征及其在音乐表达中的作用。该数据集为音乐学家和计算机科学家提供了一个独特的平台，用于开发和测试自动音乐分析算法。

衍生相关工作

基于turkish-makam-solo-voice-dataset数据集，研究者已经开发了多种音乐信息检索工具和算法。例如，自动歌词对齐系统和makam模式识别算法已成为该领域的经典工作。这些工具不仅提高了音乐分析的准确性，还为其他非西方音乐传统的研究提供了可借鉴的方法和框架。

数据集最近研究