five

otmm_tonic_dataset

收藏
github2022-02-15 更新2024-05-31 收录
下载链接:
https://github.com/MTG/turkish_makam_tonic_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含古典奥斯曼-土耳其调式音乐音频录音的注释音调频率。数据集由大约2000个经过专家注释的录音组成,其中至少一半的录音由至少两位注释者进行注释。当乐谱可用时,会应用乐谱指导的音调识别方法,并将结果在人工验证后包含在数据集中。

This dataset comprises annotated pitch frequencies of classical Ottoman-Turkish modal music audio recordings. It consists of approximately 2000 recordings that have been annotated by experts, with at least half of the recordings annotated by a minimum of two annotators. When musical scores are available, a score-informed pitch identification method is applied, and the results are included in the dataset after manual verification.
创建时间:
2014-09-07
原始信息汇总

数据集概述

名称: otmm_tonic_dataset

描述: 该数据集包含古典奥斯曼-土耳其makam音乐音频录音的注释音调频率数据。数据集中的每个录音至少由一位专家注释,其中约半数录音由至少两位注释者进行注释。当乐谱可用时,应用乐谱指导的音调识别方法,并由人工验证结果。

数据量: 最新版本中约有2000个录音被注释。

数据验证: 2016年11月发现若干音调注释错误后,约45%的录音已通过人工注释者和/或乐谱指导的音调识别方法进行验证。目前,已验证2000个注释,并更改了约100个,相当于5%的人为错误率。

数据结构: 数据存储在JSON文件annotations.json中,组织为录音的字典。每个注释的录音通过MusicBrainz MBID唯一标识。注释存储为字典列表,每个注释包括注释频率、来源数据集、相关出版物、时间间隔、音调符号、注释者观察等信息。

引用信息: 若在工作中使用此数据集,请引用Şentürk, S. (2016)的博士论文。

版权与使用: 由于版权原因,数据集中的大多数录音无法共享。相关特征已计算并可在注册后从Dunya-makam下载。数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。

自动验证: 每次提交后,数据集中的注释通过Travis CI自动验证,包括检查所有注释是否在20音分内,以及确保已移除的注释不会被错误重新引入。

额外资源: 提供了一个Jupyter笔记本extras/statistics.ipynb,用于查看详细统计信息。已移除的录音列表存储在removed.json文件中。

搜集汇总
数据集介绍
main_image_url
构建方式
otmm_tonic_dataset数据集的构建基于古典奥斯曼-土耳其马卡姆音乐的音频录音,通过专家标注和自动化验证相结合的方式完成。数据集中的标注来源于多个研究论文,涵盖了约2000条录音,每条录音至少由一位专家标注,半数录音由至少两位专家标注。当乐谱可用时,采用基于乐谱的调性识别方法进行标注,并通过人工验证确保准确性。此外,数据集通过持续集成工具自动验证标注的一致性,确保数据的可靠性。
特点
otmm_tonic_dataset数据集的特点在于其标注的精细性和多样性。每条录音的调性频率标注精确到赫兹,并包含时间区间、调性符号、标注来源及注释等详细信息。数据集还支持跨录音的调性频率一致性验证,确保标注的准确性。此外,数据集结合了人工标注与自动化方法,既保留了专家的音乐学知识,又通过技术手段提升了标注效率与精度。
使用方法
otmm_tonic_dataset数据集的使用方法较为灵活,用户可通过JSON文件访问标注数据。每条录音以MusicBrainz MBID唯一标识,标注信息以字典形式存储,包含频率值、时间区间、调性符号等字段。用户可通过Python脚本调用数据集,并结合提供的Jupyter笔记本进行统计分析。此外,数据集支持自动化验证工具,用户可通过Travis CI运行测试,确保标注数据的一致性。对于无法直接访问的音频文件,用户可通过Dunya-makam平台获取相关特征数据。
背景与挑战
背景概述
otmm_tonic_dataset是一个专注于古典奥斯曼-土耳其马卡姆音乐的音频记录注释数据集,由Şentürk等人于2016年创建,作为CompMusic项目的一部分。该数据集的核心研究问题是通过计算分析音频记录和乐谱,描述和发现奥斯曼-土耳其马卡姆音乐的特征。数据集包含了约2000条音频记录的注释,每条记录至少由一位专家注释,半数记录由至少两位注释者共同完成。该数据集在音乐信息检索领域具有重要影响力,特别是在音调识别和音乐分析方面。
当前挑战
otmm_tonic_dataset面临的挑战主要包括两个方面。首先,音调识别的准确性受到历史录音中局部音高偏移的影响,这使得精确识别音调频率变得复杂。其次,数据集的构建过程中,注释的验证和修正是一个耗时且复杂的过程,尤其是在确保注释的一致性和准确性方面。尽管采用了自动验证和人工验证相结合的方法,但仍需处理约5%的人工错误率。此外,由于版权限制,部分音频记录无法公开共享,这限制了数据集的完整性和可访问性。
常用场景
经典使用场景
otmm_tonic_dataset数据集在音乐信息检索领域具有重要应用,特别是在古典奥斯曼-土耳其马卡姆音乐的分析中。该数据集通过提供大量音频记录的标注音调频率,为研究者提供了一个标准化的基准,用于开发和测试音调识别算法。这些算法能够自动识别音乐中的主音频率,进而帮助理解马卡姆音乐的音阶结构和调式特征。
解决学术问题
该数据集解决了音乐信息检索领域中的多个关键问题,尤其是音调频率的自动识别问题。通过提供精确的音调标注,研究者能够开发出更加准确的音调识别模型,从而推动马卡姆音乐的自动分析和分类研究。此外,该数据集还为跨文化音乐研究提供了宝贵的数据支持,促进了不同音乐体系之间的比较研究。
衍生相关工作
基于otmm_tonic_dataset数据集,研究者们开发了多种音调识别和分析工具,如MORTY工具箱。这些工具不仅能够自动识别音乐中的主音频率,还能够进行调式识别和音阶分析。此外,该数据集还催生了一系列关于马卡姆音乐音调特征的研究论文,进一步推动了音乐信息检索领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作