Raga Ornamentation Detection (ROD)

Name: Raga Ornamentation Detection (ROD)
Creator: 印度理工学院坎普尔分校
Published: 2025-05-07 21:52:50
License: 暂无描述

arXiv2025-05-07 更新2025-05-09 收录

下载链接：

https://github.com/madhavlab/2024 ornamentation

下载链接

链接失效反馈

官方服务：

资源简介：

ROD数据集是一个包含212个音频文件的印度古典音乐录音集合，由两位专家歌手演唱，总时长为4.08小时。数据集跨越了两个歌手的四个不同的拉加，每个音频文件都是一个单通道WAV文件，以44.1 kHz采样率和32位精度录制。数据集使用自定义的人机交互工具进行了标注，标注了六种不同的声乐装饰类型，包括Kan、Mīnd、Murki、Nyās svar、Andolan和Gamak。数据集的创建旨在解决印度艺术音乐中声乐装饰检测的问题，对于音乐教育、表演分析和计算音乐学等领域具有重要的应用价值。

The ROD dataset is a corpus of 212 audio recordings of Indian classical music performed by two expert vocalists, with a total duration of 4.08 hours. It covers four distinct ragas from the two vocalists. Each audio file is a single-channel WAV file recorded at a 44.1 kHz sampling rate and 32-bit precision. The dataset was annotated using a custom human-computer interaction tool, with six types of vocal ornaments labeled, namely Kan, Mīnd, Murki, Nyās svar, Andolan, and Gamak. This dataset was developed to address the problem of vocal ornament detection in Indian art music, and holds significant application value in fields such as music education, performance analysis, and computational musicology.

提供机构：

印度理工学院坎普尔分校

创建时间：

2025-05-07

搜集汇总

数据集介绍

构建方式

Raga Ornamentation Detection (ROD) 数据集是通过专家音乐家精心策划的印度古典音乐录音构建而成。该数据集包含212个音频文件，总时长为4.08小时，由两位专业歌手录制。音频文件以44.1 kHz采样率和32位精度录制，使用专业录音设备确保高质量。数据集的构建过程包括两个阶段的标注：第一阶段由一组专家通过Audacity软件手动标注每个装饰音的起始时间、结束时间和类型；第二阶段由另一组专家使用基于Tkinter的用户界面进行精细调整，确保标注的一致性和准确性。

使用方法

ROD数据集的使用方法包括音频分割、特征提取和模型训练。首先，音频文件被分割为10秒的片段，采用重叠窗口策略以避免装饰音在边界处被截断。随后，提取Chromagram特征作为输入，使用短时傅里叶变换（STFT）计算，窗口大小为35毫秒，步长为17.5毫秒。数据集支持多种实验配置，包括跨歌手、跨拉格的评估，以及在实际音乐会录音上的泛化性测试。研究人员可以使用该数据集训练深度学习模型（如Temporal Convolutional Networks），并通过精确度、召回率和F1分数等指标评估模型性能。

背景与挑战

背景概述

Raga Ornamentation Detection (ROD) 数据集由印度理工学院坎普尔分校的Sumit Kumar、Parampreet Singh和Vipul Arora于2021年创建，专注于印度古典音乐中的装饰音检测。该数据集包含212段由两位专业歌手演唱的音频，总时长达4.08小时，涵盖了六种主要的装饰音类型。ROD数据集的建立填补了音乐信息检索（MIR）领域在装饰音检测方面的空白，为音乐教育、歌手识别和风格分类等应用提供了重要支持。其独特的标注流程结合了专家音乐家的手动标注和基于主动学习的半自动标注工具，确保了标注的高质量和一致性。

当前挑战

ROD数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，装饰音检测的复杂性体现在其短暂性和微妙的音高变化上，传统的音频事件检测方法难以准确捕捉这些特征。此外，装饰音的结构相似性（如Kan和M¯ind的相似性）增加了分类的难度。在构建过程中，数据标注需要高度专业的音乐知识，导致标注成本高昂且耗时。同时，长音频的分段处理可能导致装饰音在边界处被截断，影响模型的训练效果。这些挑战需要通过创新的算法设计和标注策略来解决。

常用场景

经典使用场景

在印度古典音乐研究中，ROD数据集被广泛应用于声乐装饰音检测任务。该数据集通过专家标注的六种装饰音类型（如Kan、Mind等），为音乐信息检索领域提供了宝贵的标注资源。研究人员利用其高精度的时序标注信息，开发了基于深度学习的装饰音检测模型，特别适用于处理长时音频中装饰音的边界保持问题。

解决学术问题

ROD数据集有效解决了印度艺术音乐中装饰音自动检测的学术难题。其精心设计的标注策略克服了传统音频事件检测中装饰音结构易被分割的问题，为研究装饰音与拉格（raga）演绎的关联性提供了数据基础。该数据集填补了音乐信息检索领域缺乏专业标注装饰音数据的空白，推动了基于深度学习的音乐结构分析研究。

实际应用

在实际应用中，ROD数据集支撑了多个音乐技术系统的开发。基于该数据集训练的模型被应用于音乐教育领域，可自动分析学生演唱中的装饰音准确性；在歌唱声合成系统中，装饰音检测结果被用于生成更具表现力的人声；此外，该数据集还为歌手识别和音乐流派分类提供了重要的特征提取依据。

数据集最近研究