Interwoven-Dataset

github2023-02-15 更新2024-05-31 收录

下载链接：

https://github.com/chihyikuan/Interwoven-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个数据集，包含从多个音乐和语音记录中选取的五个剪辑，每个剪辑包含2-3个高度交织的音轨。其中三个剪辑来自MedleyDB数据集，一个来自MIREX MultiF0 Development Dataset，最后一个来自CHAIN-Corpus。所有歌曲通过开源房间声学模拟器Roomsim重新混音，模拟双麦克风录制的效果。对于未提供F0标签的音轨，采用YIN算法进行初步F0估计，并通过一系列步骤处理以获得平滑的音高轮廓。

This dataset comprises five clips selected from multiple music and voice recordings, each containing 2-3 highly intertwined audio tracks. Three of the clips are sourced from the MedleyDB dataset, one from the MIREX MultiF0 Development Dataset, and the last from the CHAIN-Corpus. All songs were remixed using the open-source room acoustics simulator Roomsim to simulate the effect of dual-microphone recording. For tracks without provided F0 labels, the YIN algorithm was employed for initial F0 estimation, followed by a series of processing steps to achieve a smooth pitch contour.

创建时间：

2017-03-15

原始信息汇总

Interwoven-Dataset 概述

数据集组成

包含五个音频片段，选自多个音乐和语音录音中的2-3条高度交织的音轨。
三个片段来自MedleyDB数据集。
一个片段来自MIREX MultiF0 Development Dataset。
一个片段来自CHAIN-Corpus。

音频处理

所有歌曲通过开源房间声学模拟器Roomsim进行混音，模拟在房间中由两个麦克风录制的2通道效果。

F0标签获取方法

使用YIN算法获取每帧的F0粗略估计。
根据RMS能量检测并移除静音帧。
删除虚假音高以平滑音高轮廓。
设置音高检测的高低限制。

数据集来源

MedleyDB数据集：Rachel M Bittner等人于2014年在ISMIR发表。
CHAIN-Corpus：Fred Cummins等人于2006年在SPECOM发表。

技术参考

Roomsim模拟器：D Campbell等人于2005年在Computing and Information Systems发表。
YIN算法：A. de Cheveigné和H. Kawahara于2002年在J. Acoust. Soc. Amer.发表。

数据集创建者

创建者：Chih Yi Kuan
创建日期：2017年3月8日

搜集汇总

数据集介绍

构建方式

Interwoven-Dataset的构建过程体现了多源数据融合与精确标注的严谨性。该数据集从MedleyDB、MIREX MultiF0 Development Dataset以及CHAIN-Corpus中精选了五段音频片段，每段包含2-3条高度交织的音轨。为了模拟双声道效果，所有音频片段均通过开源的房间声学模拟器Roomsim进行混音处理，以模拟在房间内由两个麦克风录制的效果。对于未提供F0标签的音轨，采用YIN算法进行初步估计，并通过RMS能量检测去除静音帧，进一步平滑音高轮廓，确保数据的准确性与一致性。

使用方法

Interwoven-Dataset的使用方法注重灵活性与可扩展性。研究者可通过加载音频片段及其对应的F0标签，进行音高分析、音轨分离或多声道音频处理等任务。数据集的双声道模拟效果为研究房间声学特性提供了实验基础。此外，用户可根据需要调整F0标签的检测参数，以适配不同的研究场景。通过结合开源工具和算法，该数据集为音频处理领域的创新研究提供了强有力的支持。

背景与挑战

背景概述

Interwoven-Dataset是一个专注于音乐与语音信号处理领域的数据集，由Chih Yi Kuan于2017年创建。该数据集的核心研究问题在于多音轨信号的分离与分析，特别是针对高度交织的音频流。数据集选取了来自MedleyDB、MIREX MultiF0 Development Dataset和CHAIN-Corpus的五个音频片段，并通过Roomsim模拟双声道录音效果，以模拟真实环境下的音频采集。这一数据集为多音轨音频分析、音高估计及语音与音乐分离等任务提供了重要的实验基础，推动了音频信号处理领域的研究进展。

当前挑战

Interwoven-Dataset在构建过程中面临多重挑战。首先，音频信号的高度交织性使得音轨分离与音高估计变得极为复杂，尤其是在多音轨混合的情况下，传统算法难以准确提取目标信号。其次，数据集的构建依赖于多个外部数据集，而这些数据集的标注信息不完整，需要通过YIN算法等额外步骤进行音高估计与修正，增加了数据处理的复杂性。此外，模拟双声道录音效果时，Roomsim的使用虽然提供了逼真的环境模拟，但也引入了额外的计算负担与参数调整需求。这些挑战共同构成了该数据集在音频信号处理领域中的核心难点。

常用场景

经典使用场景

Interwoven-Dataset 数据集在音乐信息检索（MIR）领域中具有重要应用，特别是在多音轨音乐信号分离和音高估计方面。该数据集通过模拟真实房间环境中的双声道录音，提供了高度交织的音乐和语音流，使得研究者能够在复杂的音频环境中测试和优化音高检测算法。其经典使用场景包括多音轨分离算法的性能评估、音高估计模型的训练与验证，以及音频信号处理技术的改进。

解决学术问题

Interwoven-Dataset 数据集解决了多音轨音频信号处理中的若干关键问题，特别是在音高估计和多音轨分离领域。通过提供精确的F0标签和模拟的双声道录音环境，该数据集为研究者提供了可靠的实验数据，用于验证和改进音高检测算法。此外，该数据集还支持多音轨分离技术的研究，帮助解决复杂音频环境中信号分离的难题，推动了音乐信息检索领域的技术进步。

实际应用

在实际应用中，Interwoven-Dataset 数据集被广泛用于音乐制作、语音识别和音频信号处理等领域。例如，音乐制作软件可以利用该数据集优化多音轨分离算法，提高混音质量；语音识别系统则可以通过该数据集改进音高估计模型，提升识别精度。此外，该数据集还可用于教育领域，帮助学生和研究者理解复杂音频信号处理的基本原理和技术。

数据集最近研究