turkish-makam-acapella-sections-dataset

github2023-01-09 更新2024-05-31 收录

下载链接：

https://github.com/MTG/turkish-makam-acapella-sections-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含古典土耳其makam音乐的无伴奏歌唱录音，由半职业歌手演唱，半职业质量。歌曲采用şarkı形式，2014年6月在伊斯坦布尔的录音室录制。数据集在单词和音素级别进行了注释。

This dataset comprises a cappella vocal recordings of classical Turkish makam music, performed by semi-professional singers with semi-professional quality. The songs are in the şarkı form and were recorded in a studio in Istanbul in June 2014. The dataset is annotated at both the word and phoneme levels.

创建时间：

2014-10-01

原始信息汇总

数据集概述

数据集内容

包含古典土耳其makam录音的无伴奏演唱，由半职业歌手演唱。

数据集格式

所有注释采用TextGrid格式，用于Praat软件。

注释详情

部分注释（如aranağme, zemin等）来源于https://github.com/MTG/turkish_makam_section_dataset。
歌词单词和短语的注释由georgi.dzhambazov@upf.edu完成。

音频文件命名规则

音频文件名格式为：number_compositionNameShort_sectionNumber_sectionName.wav
其中sectionNumber来自.tsv文件。

注释工具与步骤

使用Praat软件进行注释。
注释步骤包括：
- 打开Praat软件，选择UTF-8编码。
- 打开.wav文件，通过ANNOTATE功能创建TextGrid文件。
- 在TextGrid文件中，使用“words”作为层名。
- 通过VIEW AND EDIT功能，将歌词输入顶部窗格，使用Tab键播放，Enter键标记单词结束。

注释文件提交

完成注释后，将TextGrid文件保存并发送至georgi.dzhambazov@upf.edu。

注释示例

示例文件为goekhan/02_Kimseye_Part1_zemin.TextGrid和goekhan/02_Kimseye_Part1_zemin.wav。

搜集汇总

数据集介绍

构建方式

该数据集专注于古典土耳其马卡姆（makam）音乐的无伴奏合唱部分，由半专业歌手演唱。数据集的构建依赖于对音频文件的分段标注，包括aranağme、zemin等部分，这些标注信息来源于MTG的土耳其马卡姆分段数据集。歌词的单词和短语标注则由Georgi Dzhambazov完成，所有标注均以TextGrid格式存储，适用于Praat软件。

特点

该数据集的特点在于其专注于土耳其马卡姆音乐的无伴奏合唱部分，提供了详细的歌词和音乐分段标注。音频文件以.wav格式存储，文件名结构清晰，便于识别歌曲的组成和分段。TextGrid格式的标注文件使得用户能够精确地对音频进行时间轴上的标注和分析。此外，数据集还提供了歌词的PDF文件，便于用户对照歌词进行标注。

使用方法

使用该数据集时，用户需下载Praat软件，并按照提供的视频教程进行操作。首先，用户需打开.wav文件，并通过Praat生成TextGrid文件。在TextGrid文件中，用户需创建一个名为'words'的层级，用于标注歌词的每个单词。通过Tab键播放音频，Enter键标记单词的结束时间。用户还可以通过拖动调整已有标注的时间点。完成标注后，用户需将TextGrid文件保存为文本格式，并发送给指定的邮箱。

背景与挑战

背景概述

turkish-makam-acapella-sections-dataset 数据集专注于古典土耳其马卡姆（makam）音乐的无伴奏合唱录音，由半专业歌手演唱。该数据集由 Georgi Dzhambazov 等人于近年创建，旨在为音乐信息检索（MIR）领域提供高质量的标注数据，特别是针对土耳其马卡姆音乐的结构化分析。数据集的核心研究问题在于如何通过音频与歌词的精确对齐，揭示马卡姆音乐中不同段落（如 aranağme、zemin 等）的声学特征与语言学特征之间的关系。该数据集对土耳其传统音乐的研究以及跨文化音乐分析具有重要的学术价值，同时也为音乐自动标注技术的发展提供了宝贵的资源。

当前挑战

turkish-makam-acapella-sections-dataset 数据集面临的主要挑战包括两方面。首先，在领域问题方面，土耳其马卡姆音乐的复杂性和多样性使得音频与歌词的精确对齐变得极为困难。马卡姆音乐的旋律结构、节奏模式以及歌词的发音方式与传统西方音乐存在显著差异，这为自动标注算法的设计带来了巨大挑战。其次，在数据集构建过程中，标注工作依赖于人工操作，需要借助 Praat 软件进行逐字逐句的音频与歌词对齐，这一过程不仅耗时耗力，还容易引入人为误差。此外，数据集的部分音频尚未完成标注，需要社区协作以进一步完善，这进一步增加了数据集的构建难度。

常用场景

经典使用场景

在音乐信息检索领域，turkish-makam-acapella-sections-dataset数据集被广泛应用于古典土耳其马卡姆音乐的声乐部分分析。研究者利用该数据集中的无伴奏合唱录音，结合详细的歌词和段落注释，深入探讨马卡姆音乐的结构特征和演唱技巧。通过Praat软件进行音频与歌词的对齐分析，研究者能够精确地识别和标注音乐中的各个段落，如aranağme和zemin等，从而为音乐理论研究和表演实践提供数据支持。

衍生相关工作

基于turkish-makam-acapella-sections-dataset数据集，研究者开发了多项经典工作。例如，Georgi Dzhambazov等人利用该数据集开发了Lyrics2AudioAligner工具，实现了歌词与音频的自动对齐。此外，该数据集还支持了多项音乐信息检索算法的研究，如基于深度学习的音乐段落分割和歌词识别，推动了音乐信息检索领域的技术进步。

数据集最近研究