SynthSOD
收藏github2024-09-18 更新2024-09-20 收录
下载链接:
https://github.com/repertorium/SynthSOD-Baseline
下载链接
链接失效反馈资源简介:
我们的管弦乐分离模型,包含近50小时的合奏和管弦乐音乐,使用Spitfire的BBC Orchestra Professional VST插件合成。
创建时间:
2024-09-16
原始信息汇总
SynthSOD-Baseline 数据集概述
数据集下载
- SynthSOD: 包含近50小时的合奏和管弦乐音乐,使用Spitfire的BBC Orchestra Professional VST插件合成。下载地址:Zenodo
- EnsembleSet: 包含约6小时的合奏音乐,使用Spitfire的BBC Orchestra Professional VST插件合成。下载地址:Zenodo
- Aalto anechoic orchestra recordings: 包含约10分钟的管弦乐音乐,每个乐器在消声室中单独录制。使用PHENICX项目的去噪版本。下载地址:Aalto
- URMP: 包含约1小时的合奏音乐,乐器单独录制。下载地址:URMP
数据集生成
- 数据集生成代码可从GitHub获取,基于原始的SOD MIDI文件。
训练
- 提供4个独立的训练脚本,分别用于弦乐、木管、铜管和打击乐器的训练。
- 支持在EnsembleSet数据集上进行训练。
评估
- 提供评估脚本,支持在SynthSOD、EnsembleSet、Aalto anechoic orchestra recordings和URMP数据集上进行评估。
预训练模型
- 预训练模型可在本仓库的
Releases部分找到。
已知问题
- 训练过程中可能遇到
LibsndfileError: Internal psf_fseek() failed错误,影响部分音频文件的读取。
许可证
- 软件遵循AGPL-3.0许可证,无保修。
参考文献
- [1] Garcia-Martinez J., Diaz-Guerra, D., Politis, A., Virtanen, T., Carabias-Orti, J.J., & Vera-Candeas, P. SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [arXiv preprint]
AI搜集汇总
数据集介绍

构建方式
在音乐源分离领域,SynthSOD数据集的构建基于原始的SOD MIDI文件,通过使用Spitfire的BBC Orchestra Professional VST插件进行合成,生成了近50小时的合奏和管弦乐音乐。这一过程不仅确保了数据的高质量,还通过特定的音频处理技术,使得数据集在音质和多样性上达到了业界领先水平。
特点
SynthSOD数据集的显著特点在于其庞大的数据量和高质量的音频合成。该数据集包含了几乎50小时的音乐数据,涵盖了多种乐器和音乐风格,为音乐源分离研究提供了丰富的资源。此外,数据集的合成过程采用了专业的音频插件,确保了音频的真实性和清晰度,使其成为音乐分析和机器学习任务的理想选择。
使用方法
使用SynthSOD数据集时,用户首先需要从Zenodo下载数据集,并将其放置在项目的`data`文件夹中。随后,用户可以通过提供的bash脚本进行模型训练和评估。例如,`run_training_string.sh`脚本用于训练弦乐器的分离模型,而`run_evaluation.sh`脚本则用于评估模型的性能。此外,数据集还支持与其他音乐数据集如EnsembleSet和URMP的联合使用,以进一步增强模型的泛化能力。
背景与挑战
背景概述
SynthSOD数据集由Garcia-Martinez等人于近期创建,旨在解决管弦乐音乐源分离的核心研究问题。该数据集包含了近50小时的合奏和管弦乐音乐,这些音乐通过Spitfire的BBC Orchestra Professional VST插件合成。主要研究人员包括Garcia-Martinez、Diaz-Guerra、Politis、Virtanen、Carabias-Orti和Vera-Candeas,他们来自多个知名机构,如Aalto大学和赫尔辛基大学。SynthSOD的推出极大地推动了音乐源分离领域的发展,为研究人员提供了一个高质量的合成数据集,以训练和评估模型。
当前挑战
SynthSOD数据集在构建过程中面临多项挑战。首先,合成音乐的复杂性要求高精度的音频处理技术,以确保数据质量。其次,数据集的规模和多样性增加了训练和评估模型的计算资源需求。此外,数据集中存在部分音频文件读取错误的问题,这可能影响训练过程的稳定性。尽管如此,这些挑战并未显著影响数据集的整体效用,预训练模型在实际应用中仍表现出色。
常用场景
经典使用场景
在音乐源分离领域,SynthSOD数据集以其丰富的合成管弦乐数据而著称,为研究人员提供了一个理想的研究平台。该数据集的经典使用场景主要集中在训练和评估音乐源分离模型,特别是针对管弦乐器的分离任务。通过利用SynthSOD,研究者可以开发和优化模型,以实现对复杂音乐作品中各个乐器声音的精确分离,从而提升音乐分析和处理的精度。
衍生相关工作
SynthSOD数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者们开发了多种音乐源分离模型,如X-UMX,这些模型在多个数据集上表现优异。此外,SynthSOD还激发了对合成数据在音乐处理中应用的深入研究,推动了合成数据生成技术的进步。同时,该数据集也为跨学科研究提供了新的可能性,如结合机器学习和音乐理论,探索更高效的音乐分析和生成方法。
数据集最近研究
最新研究方向
在音乐源分离领域,SynthSOD数据集的最新研究方向主要集中在优化模型训练和评估方法,以提高对复杂管弦乐音乐的分离效果。研究者们通过引入多模型协同训练策略,将不同乐器家族的分离任务分别处理,从而有效减少了GPU内存需求,并提升了分离精度。此外,针对数据集中存在的音频文件读取错误问题,研究团队正在探索更稳定的音频处理技术,以确保训练过程的连续性和稳定性。这些研究不仅推动了音乐源分离技术的发展,也为古典音乐数据集的处理提供了新的思路和方法。
以上内容由AI搜集并总结生成



