Interwoven-Dataset
收藏github2023-02-15 更新2024-05-31 收录
下载链接:
https://github.com/chihyikuan/Interwoven-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个数据集,包含从多个音乐和语音记录中选取的五个剪辑,每个剪辑包含2-3个高度交织的音轨。其中三个剪辑来自MedleyDB数据集,一个来自MIREX MultiF0 Development Dataset,最后一个来自CHAIN-Corpus。所有歌曲通过开源房间声学模拟器Roomsim重新混音,模拟双麦克风录制的效果。对于未提供F0标签的音轨,采用YIN算法进行初步F0估计,并通过一系列步骤处理以获得平滑的音高轮廓。
This dataset comprises five clips selected from multiple music and voice recordings, each containing 2-3 highly intertwined audio tracks. Three of the clips are sourced from the MedleyDB dataset, one from the MIREX MultiF0 Development Dataset, and the last from the CHAIN-Corpus. All songs were remixed using the open-source room acoustics simulator Roomsim to simulate the effect of dual-microphone recording. For tracks without provided F0 labels, the YIN algorithm was employed for initial F0 estimation, followed by a series of processing steps to achieve a smooth pitch contour.
创建时间:
2017-03-15
原始信息汇总
Interwoven-Dataset 概述
数据集组成
- 包含五个音频片段,选自多个音乐和语音录音中的2-3条高度交织的音轨。
- 三个片段来自MedleyDB数据集。
- 一个片段来自MIREX MultiF0 Development Dataset。
- 一个片段来自CHAIN-Corpus。
音频处理
- 所有歌曲通过开源房间声学模拟器Roomsim进行混音,模拟在房间中由两个麦克风录制的2通道效果。
F0标签获取方法
- 使用YIN算法获取每帧的F0粗略估计。
- 根据RMS能量检测并移除静音帧。
- 删除虚假音高以平滑音高轮廓。
- 设置音高检测的高低限制。
数据集来源
- MedleyDB数据集:Rachel M Bittner等人于2014年在ISMIR发表。
- CHAIN-Corpus:Fred Cummins等人于2006年在SPECOM发表。
技术参考
- Roomsim模拟器:D Campbell等人于2005年在Computing and Information Systems发表。
- YIN算法:A. de Cheveigné和H. Kawahara于2002年在J. Acoust. Soc. Amer.发表。
数据集创建者
- 创建者:Chih Yi Kuan
- 创建日期:2017年3月8日
搜集汇总
数据集介绍

构建方式
Interwoven-Dataset的构建过程体现了多源数据融合与精确标注的严谨性。该数据集从MedleyDB、MIREX MultiF0 Development Dataset以及CHAIN-Corpus中精选了五段音频片段,每段包含2-3条高度交织的音轨。为了模拟双声道效果,所有音频片段均通过开源的房间声学模拟器Roomsim进行混音处理,以模拟在房间内由两个麦克风录制的效果。对于未提供F0标签的音轨,采用YIN算法进行初步估计,并通过RMS能量检测去除静音帧,进一步平滑音高轮廓,确保数据的准确性与一致性。
使用方法
Interwoven-Dataset的使用方法注重灵活性与可扩展性。研究者可通过加载音频片段及其对应的F0标签,进行音高分析、音轨分离或多声道音频处理等任务。数据集的双声道模拟效果为研究房间声学特性提供了实验基础。此外,用户可根据需要调整F0标签的检测参数,以适配不同的研究场景。通过结合开源工具和算法,该数据集为音频处理领域的创新研究提供了强有力的支持。
背景与挑战
背景概述
Interwoven-Dataset是一个专注于音乐与语音信号处理领域的数据集,由Chih Yi Kuan于2017年创建。该数据集的核心研究问题在于多音轨信号的分离与分析,特别是针对高度交织的音频流。数据集选取了来自MedleyDB、MIREX MultiF0 Development Dataset和CHAIN-Corpus的五个音频片段,并通过Roomsim模拟双声道录音效果,以模拟真实环境下的音频采集。这一数据集为多音轨音频分析、音高估计及语音与音乐分离等任务提供了重要的实验基础,推动了音频信号处理领域的研究进展。
当前挑战
Interwoven-Dataset在构建过程中面临多重挑战。首先,音频信号的高度交织性使得音轨分离与音高估计变得极为复杂,尤其是在多音轨混合的情况下,传统算法难以准确提取目标信号。其次,数据集的构建依赖于多个外部数据集,而这些数据集的标注信息不完整,需要通过YIN算法等额外步骤进行音高估计与修正,增加了数据处理的复杂性。此外,模拟双声道录音效果时,Roomsim的使用虽然提供了逼真的环境模拟,但也引入了额外的计算负担与参数调整需求。这些挑战共同构成了该数据集在音频信号处理领域中的核心难点。
常用场景
经典使用场景
Interwoven-Dataset 数据集在音乐信息检索(MIR)领域中具有重要应用,特别是在多音轨音乐信号分离和音高估计方面。该数据集通过模拟真实房间环境中的双声道录音,提供了高度交织的音乐和语音流,使得研究者能够在复杂的音频环境中测试和优化音高检测算法。其经典使用场景包括多音轨分离算法的性能评估、音高估计模型的训练与验证,以及音频信号处理技术的改进。
解决学术问题
Interwoven-Dataset 数据集解决了多音轨音频信号处理中的若干关键问题,特别是在音高估计和多音轨分离领域。通过提供精确的F0标签和模拟的双声道录音环境,该数据集为研究者提供了可靠的实验数据,用于验证和改进音高检测算法。此外,该数据集还支持多音轨分离技术的研究,帮助解决复杂音频环境中信号分离的难题,推动了音乐信息检索领域的技术进步。
实际应用
在实际应用中,Interwoven-Dataset 数据集被广泛用于音乐制作、语音识别和音频信号处理等领域。例如,音乐制作软件可以利用该数据集优化多音轨分离算法,提高混音质量;语音识别系统则可以通过该数据集改进音高估计模型,提升识别精度。此外,该数据集还可用于教育领域,帮助学生和研究者理解复杂音频信号处理的基本原理和技术。
数据集最近研究
最新研究方向
在音乐信息检索(MIR)领域,Interwoven-Dataset的引入为多音轨音频流的分离与分析提供了新的研究视角。该数据集通过模拟真实房间声学环境下的双声道录音,为研究者提供了高度交织的音乐和语音流,极大地促进了多音轨分离算法的开发与优化。近年来,随着深度学习技术的快速发展,基于该数据集的研究逐渐聚焦于利用神经网络模型进行音高(F0)估计和多音轨分离的联合优化。特别是在语音与音乐混合场景下,如何提高音高检测的准确性和鲁棒性成为研究热点。此外,该数据集还被广泛应用于声源定位、音轨分离质量评估等领域,为音乐信息检索和语音处理技术的进步提供了重要支持。
以上内容由遇见数据集搜集并总结生成



