Sanidha

Name: Sanidha
Creator: 乔治亚理工学院
Published: 2025-01-13 06:39:58
License: 暂无描述

arXiv2025-01-13 更新2025-01-15 收录

下载链接：

https://ccml.gtcmt.gatech.edu/data/Sanidha

下载链接

链接失效反馈

官方服务：

资源简介：

Sanidha数据集是首个针对卡纳提克音乐的开源多模态数据集，由乔治亚理工学院的研究团队创建。该数据集提供了高质量的多轨录音，音频和视频文件记录了5场音乐会，总时长近8小时。数据集的内容包括卡纳提克音乐的核心乐器（如小提琴、mridangam鼓和ghatam陶罐鼓）的录音，所有录音均在专业录音棚中完成，确保了音频的隔离性。数据集创建过程中，研究团队通过多房间隔离录音技术，确保了音频的高保真度。该数据集的应用领域主要集中在音乐信息检索和音频源分离任务，旨在解决卡纳提克音乐中音频泄漏问题，提升源分离模型的性能。

Sanidha Dataset is the first open-source multimodal dataset for Carnatic music, created by a research team at Georgia Institute of Technology. This dataset provides high-quality multitrack recordings, with audio and video files documenting 5 concerts totaling nearly 8 hours. The dataset includes recordings of core Carnatic music instruments such as violin, mridangam drum, and Ghatam. All recordings were completed in professional studios to ensure audio isolation. During the dataset creation process, the research team adopted multi-room isolated recording technology to guarantee high audio fidelity. The main application fields of this dataset focus on music information retrieval (MIR) and audio source separation tasks, aiming to address the audio leakage issue in Carnatic music and improve the performance of source separation models.

提供机构：

乔治亚理工学院

创建时间：

2025-01-13

搜集汇总

数据集介绍

构建方式

Sanidha数据集的构建过程基于对南印度卡纳提克音乐的深入研究，旨在解决传统音乐源分离中的信号泄漏问题。研究团队在乔治亚理工学院的录音设施中组织了五场音乐会，邀请了十五位专业音乐家参与录制。每位音乐家在独立的房间中进行表演，通过音频和视频设备保持实时互动，确保录音的隔离性。录音设备包括高保真电容麦克风和4K视频摄像机，所有音频以44.1 kHz的采样率和16位深度保存，视频则以1080p分辨率录制。这种多模态的录制方式不仅捕捉了高质量的音频，还提供了音乐家的表演视频，为后续的多模态研究提供了丰富的数据支持。

特点

Sanidha数据集的最大特点在于其高质量的音频隔离性，几乎不存在传统卡纳提克音乐录音中常见的信号泄漏问题。数据集包含了多轨音频和高清视频，涵盖了卡纳提克音乐的核心乐器，如小提琴、姆里丹加鼓和陶罐鼓等。此外，数据集还提供了详细的元数据，包括每首曲目的名称、作曲家、演奏者信息以及音乐理论相关的注释，如拉格（raga）和塔拉（tala）。这些特点使得Sanidha成为首个适用于卡纳提克音乐源分离任务的高质量多模态数据集。

使用方法

Sanidha数据集的主要用途是支持卡纳提克音乐的源分离研究。研究人员可以使用该数据集训练和评估源分离模型，如Spleeter等。数据集中的多轨音频和高清视频可以用于多模态分析，探索音频与视觉信息之间的关联。此外，数据集提供的元数据和音乐理论注释为音乐信息检索（MIR）任务提供了丰富的上下文信息。通过结合音频和视频数据，研究人员可以进一步研究卡纳提克音乐的表演风格、即兴创作技巧以及音乐家之间的互动模式。

背景与挑战

背景概述

Sanidha数据集由乔治亚理工学院音乐学院的Venkatakrishnan Vaidyanathapuram Krishnan、Noel Alben、Anish Nair和Nathaniel Condit-Schultz等研究人员于2024年创建，旨在解决南印度卡纳提克音乐（Carnatic Music）的源分离问题。卡纳提克音乐是一种即兴性极强的传统艺术音乐，其多轨录音中常存在声音重叠和泄漏问题，导致现有的源分离模型如Spleeter和Hybrid Demucs在处理此类音乐时表现不佳。Sanidha是首个开源的卡纳提克音乐多模态数据集，提供了高质量的录音和视频数据，为源分离任务提供了更准确的训练和评估基础。该数据集的发布填补了非西方音乐领域的数据空白，推动了音乐信息检索（MIR）和源分离技术的发展。

当前挑战

Sanidha数据集面临的挑战主要体现在两个方面。首先，卡纳提克音乐的即兴性和多乐器同步演奏特性使得源分离任务极为复杂，传统方法难以有效处理频率重叠和声音泄漏问题。其次，数据集的构建过程中，研究人员需克服录音环境的限制，确保每个乐器在隔离空间中的高质量录音，同时通过视频监控系统维持音乐家之间的实时互动，以模拟真实的演奏场景。此外，数据集的规模相对较小，可能导致模型训练时的过拟合风险，需通过数据增强和混合策略来优化训练效果。

常用场景

经典使用场景

Sanidha数据集在音乐信息检索（MIR）领域中被广泛用于卡纳提克音乐（Carnatic Music）的源分离任务。由于卡纳提克音乐是一种即兴性极强的传统艺术形式，其多轨录音中常常存在声音重叠和泄漏问题，这使得传统的源分离模型难以有效处理。Sanidha通过提供高质量的、无泄漏的多轨录音，为研究人员提供了一个理想的实验平台，用于开发和评估源分离算法。这些录音不仅包括音频数据，还附带了艺术家的高清表演视频，进一步支持了多模态研究。

衍生相关工作

Sanidha数据集的发布催生了一系列相关研究工作，特别是在卡纳提克音乐的源分离和多模态分析领域。基于Sanidha，研究人员开发了改进的源分离模型，如对Spleeter的微调版本，显著提升了其在卡纳提克音乐上的表现。此外，Sanidha的多模态特性也激发了关于音乐与视觉关联的研究，例如通过分析艺术家的表演视频来辅助音乐结构识别和情感分析。这些工作不仅推动了卡纳提克音乐的研究，也为其他传统音乐形式的自动分析提供了参考。

数据集最近研究