otmm_tonic_dataset

github2022-02-15 更新2024-05-31 收录

下载链接：

https://github.com/MTG/otmm_tonic_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含古典奥斯曼-土耳其音乐录音的音调频率注释。数据集由大约2000个录音组成，每个录音至少由一位专家注释，其中一半的录音由至少两位注释者注释。当乐谱可用时，会应用乐谱指导的音调识别，并通过人工验证后包含在数据集中。

This dataset comprises annotations of pitch frequencies for recordings of classical Ottoman-Turkish music. It consists of approximately 2000 recordings, each annotated by at least one expert, with half of the recordings annotated by at least two annotators. When musical scores are available, score-guided pitch recognition is applied and, following manual verification, included in the dataset.

创建时间：

2014-09-07

原始信息汇总

数据集概述

数据集名称

名称: otmm_tonic_dataset
描述: 该数据集包含古典奥斯曼土耳其音乐音频录音的音调频率注释。

数据集内容

数据量: 最新版本包含约2000个录音注释。
注释方式: 每个录音至少由一位专家注释，其中一半的录音至少由两位注释者注释。
注释验证: 当乐谱可用时，应用乐谱指导的音调识别方法，并通过人工验证结果。

数据集结构

存储格式: JSON文件，位于annotations.json。
组织方式: 每个注释的录音通过MusicBrainz MBID唯一标识。
注释内容: 包括注释频率、来源数据集、相关出版物、时间间隔、音调符号、注释者观察等信息。

数据集验证与修正

验证历史: 2016年11月发现注释错误后，约45%的录音已通过人工注释者和/或乐谱指导的音调识别方法验证。
修正情况: 已验证2000个注释，更改约100个，对应于5%的人为错误率。

数据集使用

引用要求: 使用该数据集时，应引用Şentürk, S. (2016)的博士论文。

数据集版权与许可

许可: 本工作根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。

数据集详细信息

注释结构

mbid: 录音MBID的URL。
verified: 所有注释是否已验证。
annotations: 注释字典列表。
time_interval: 音调注释的时间间隔。
citation: 相关研究论文。
value: 注释频率（Hz）。
source: 注释来源URL。
tonic_symbol: 音调符号。
octave_wrapped: 是否考虑音调的八度。
observations: 注释者评论。
music_score: 用于联合分析的SymbTr乐谱名称。

自动验证

验证方法: 使用Travis CI自动运行多个测试，包括注释间距检查和已移除注释的防止重新引入。

额外资源

数据访问: 由于版权限制，大多数录音无法共享，但相关特征可在注册后从Dunya-makam下载。
移除录音: 由于实际原因，某些注释可能会被移除，详细信息可在removed.json中查看。

搜集汇总

数据集介绍

构建方式

otmm_tonic_dataset的构建基于对奥斯曼-土耳其马卡姆音乐音频记录的标注工作，涵盖了约2000条音频记录。每条记录至少由一位专家进行标注，其中一半的记录由至少两位标注者进行交叉验证。当乐谱可用时，采用基于乐谱的调性识别方法进行标注，并由人工验证后纳入数据集。数据集通过持续集成技术自动验证标注的一致性，确保标注的准确性。

特点

该数据集的特点在于其标注的精确性和多样性。每条记录不仅包含调性频率的标注，还提供了时间区间、调性符号、标注来源、引用文献等详细信息。数据集通过自动验证机制确保标注的一致性，且部分记录经过人工验证，误差率控制在5%以内。此外，数据集还提供了丰富的元数据，如MusicBrainz标识符和乐谱链接，便于进一步研究。

使用方法

使用otmm_tonic_dataset时，用户可通过JSON文件访问标注数据，每条记录以MusicBrainz标识符为唯一标识。数据集支持多种应用场景，如调性识别、音乐信息检索和音乐分析。用户可通过Dunya-makam平台获取相关音频特征，并结合API文档进行数据访问。此外，数据集提供了详细的统计信息和验证工具，用户可通过Python脚本运行自动验证测试，确保数据质量。

背景与挑战

背景概述

otmm_tonic_dataset数据集由Şentürk等人于2016年创建，旨在为古典奥斯曼-土耳其马卡姆音乐的音调频率提供标注数据。该数据集是CompMusic项目的一部分，汇集了多篇研究论文中的标注数据，涵盖了约2000条音频记录的标注信息。每段录音至少由一位专家标注，其中一半的录音由至少两位标注者进行标注。数据集的核心研究问题是通过计算分析音频记录和乐谱，揭示奥斯曼-土耳其马卡姆音乐的音调特征，进而推动音乐信息检索领域的发展。该数据集为音乐学、计算音乐学以及音乐信息检索领域的研究提供了重要的基础数据支持。

当前挑战

otmm_tonic_dataset在构建过程中面临多重挑战。首先，音调频率的标注需要高度的音乐学专业知识，且标注过程中存在主观性，导致不同标注者之间可能存在差异。其次，历史录音的音高漂移现象增加了音调识别的难度，尤其是在缺乏乐谱支持的情况下。此外，数据集的构建还受到版权限制，部分录音无法公开共享，仅能通过特定平台获取相关特征数据。自动验证机制虽然提高了标注的准确性，但仍需人工干预以确保最终数据的可靠性。这些挑战凸显了在音乐信息检索领域中，音调标注任务的复杂性与精确性要求。

常用场景

经典使用场景

otmm_tonic_dataset 数据集在音乐信息检索领域具有重要应用，特别是在古典奥斯曼-土耳其马卡姆音乐的分析中。该数据集通过提供大量音频记录的标注音调频率，为研究者提供了丰富的资源，用于开发和验证音调识别算法。其经典使用场景包括音调频率的自动检测、音乐结构的分析以及跨文化音乐比较研究。

衍生相关工作

otmm_tonic_dataset 数据集衍生了许多相关研究，特别是在音乐信息检索和音调识别领域。例如，Şentürk 等人的研究提出了基于音频和乐谱联合分析的音调识别方法，显著提高了音调识别的准确性。此外，Karakurt 等人开发的 MORTY 工具箱也基于该数据集，为模式识别和音调识别提供了强大的工具支持。

数据集最近研究