otmm_tonic_dataset

github2022-02-15 更新2024-05-31 收录

下载链接：

https://github.com/MTG/turkish_makam_tonic_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含古典奥斯曼-土耳其调式音乐音频录音的注释音调频率。数据集由大约2000个经过专家注释的录音组成，其中至少一半的录音由至少两位注释者进行注释。当乐谱可用时，会应用乐谱指导的音调识别方法，并将结果在人工验证后包含在数据集中。

This dataset comprises annotated pitch frequencies of classical Ottoman-Turkish modal music audio recordings. It consists of approximately 2000 recordings that have been annotated by experts, with at least half of the recordings annotated by a minimum of two annotators. When musical scores are available, a score-informed pitch identification method is applied, and the results are included in the dataset after manual verification.

创建时间：

2014-09-07

原始信息汇总

数据集概述

名称: otmm_tonic_dataset

描述: 该数据集包含古典奥斯曼-土耳其makam音乐音频录音的注释音调频率数据。数据集中的每个录音至少由一位专家注释，其中约半数录音由至少两位注释者进行注释。当乐谱可用时，应用乐谱指导的音调识别方法，并由人工验证结果。

数据量: 最新版本中约有2000个录音被注释。

数据验证: 2016年11月发现若干音调注释错误后，约45%的录音已通过人工注释者和/或乐谱指导的音调识别方法进行验证。目前，已验证2000个注释，并更改了约100个，相当于5%的人为错误率。

数据结构: 数据存储在JSON文件annotations.json中，组织为录音的字典。每个注释的录音通过MusicBrainz MBID唯一标识。注释存储为字典列表，每个注释包括注释频率、来源数据集、相关出版物、时间间隔、音调符号、注释者观察等信息。

引用信息: 若在工作中使用此数据集，请引用Şentürk, S. (2016)的博士论文。

版权与使用: 由于版权原因，数据集中的大多数录音无法共享。相关特征已计算并可在注册后从Dunya-makam下载。数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。

自动验证: 每次提交后，数据集中的注释通过Travis CI自动验证，包括检查所有注释是否在20音分内，以及确保已移除的注释不会被错误重新引入。

额外资源: 提供了一个Jupyter笔记本extras/statistics.ipynb，用于查看详细统计信息。已移除的录音列表存储在removed.json文件中。

搜集汇总

数据集介绍

构建方式

otmm_tonic_dataset数据集的构建基于古典奥斯曼-土耳其马卡姆音乐的音频录音，通过专家标注和自动化验证相结合的方式完成。数据集中的标注来源于多个研究论文，涵盖了约2000条录音，每条录音至少由一位专家标注，半数录音由至少两位专家标注。当乐谱可用时，采用基于乐谱的调性识别方法进行标注，并通过人工验证确保准确性。此外，数据集通过持续集成工具自动验证标注的一致性，确保数据的可靠性。

特点

otmm_tonic_dataset数据集的特点在于其标注的精细性和多样性。每条录音的调性频率标注精确到赫兹，并包含时间区间、调性符号、标注来源及注释等详细信息。数据集还支持跨录音的调性频率一致性验证，确保标注的准确性。此外，数据集结合了人工标注与自动化方法，既保留了专家的音乐学知识，又通过技术手段提升了标注效率与精度。

使用方法

otmm_tonic_dataset数据集的使用方法较为灵活，用户可通过JSON文件访问标注数据。每条录音以MusicBrainz MBID唯一标识，标注信息以字典形式存储，包含频率值、时间区间、调性符号等字段。用户可通过Python脚本调用数据集，并结合提供的Jupyter笔记本进行统计分析。此外，数据集支持自动化验证工具，用户可通过Travis CI运行测试，确保标注数据的一致性。对于无法直接访问的音频文件，用户可通过Dunya-makam平台获取相关特征数据。

背景与挑战

背景概述

otmm_tonic_dataset是一个专注于古典奥斯曼-土耳其马卡姆音乐的音频记录注释数据集，由Şentürk等人于2016年创建，作为CompMusic项目的一部分。该数据集的核心研究问题是通过计算分析音频记录和乐谱，描述和发现奥斯曼-土耳其马卡姆音乐的特征。数据集包含了约2000条音频记录的注释，每条记录至少由一位专家注释，半数记录由至少两位注释者共同完成。该数据集在音乐信息检索领域具有重要影响力，特别是在音调识别和音乐分析方面。

当前挑战

otmm_tonic_dataset面临的挑战主要包括两个方面。首先，音调识别的准确性受到历史录音中局部音高偏移的影响，这使得精确识别音调频率变得复杂。其次，数据集的构建过程中，注释的验证和修正是一个耗时且复杂的过程，尤其是在确保注释的一致性和准确性方面。尽管采用了自动验证和人工验证相结合的方法，但仍需处理约5%的人工错误率。此外，由于版权限制，部分音频记录无法公开共享，这限制了数据集的完整性和可访问性。

常用场景

经典使用场景

otmm_tonic_dataset数据集在音乐信息检索领域具有重要应用，特别是在古典奥斯曼-土耳其马卡姆音乐的分析中。该数据集通过提供大量音频记录的标注音调频率，为研究者提供了一个标准化的基准，用于开发和测试音调识别算法。这些算法能够自动识别音乐中的主音频率，进而帮助理解马卡姆音乐的音阶结构和调式特征。

解决学术问题

该数据集解决了音乐信息检索领域中的多个关键问题，尤其是音调频率的自动识别问题。通过提供精确的音调标注，研究者能够开发出更加准确的音调识别模型，从而推动马卡姆音乐的自动分析和分类研究。此外，该数据集还为跨文化音乐研究提供了宝贵的数据支持，促进了不同音乐体系之间的比较研究。

衍生相关工作

基于otmm_tonic_dataset数据集，研究者们开发了多种音调识别和分析工具，如MORTY工具箱。这些工具不仅能够自动识别音乐中的主音频率，还能够进行调式识别和音阶分析。此外，该数据集还催生了一系列关于马卡姆音乐音调特征的研究论文，进一步推动了音乐信息检索领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集