OASD-20K 和 OSVAR-160

Name: OASD-20K 和 OSVAR-160
Creator: 韩国成均馆大学
Published: 2025-05-01 00:17:05
License: 暂无描述

arXiv2025-05-01 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.21772v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍的两个数据集OASD-20K和OSVAR-160，分别用于音频分离和视频音频恢复。OASD-20K包含20000个混合了背景音乐和原始音轨的音频剪辑，用于训练和评估混合音乐分离模型。OSVAR-160包含160个视频和混合音频对，用于评估整个管道在去除任意背景音乐和恢复原始音轨完整性方面的性能。这些数据集填补了短视频应用中音频分离研究的空白，并为解决版权合规和内容完整性问题提供了有价值的工具。

This paper presents two datasets, OASD-20K and OSVAR-160, which are dedicated to audio source separation and video audio restoration, respectively. OASD-20K consists of 20,000 audio clips mixing background music and original audio tracks, and is utilized for training and evaluating music source separation models. OSVAR-160 comprises 160 pairs of videos and mixed audio, which are used to assess the performance of the entire pipeline in removing arbitrary background music and restoring the integrity of original audio tracks. These datasets fill the research gap of audio source separation in short-video applications, and provide valuable tools for addressing copyright compliance and content integrity issues.

提供机构：

韩国成均馆大学

创建时间：

2025-05-01

搜集汇总

数据集介绍

构建方式

OASD-20K和OSVAR-160数据集的构建充分考虑了短视频平台中背景音乐（BGM）与原始音轨（OST）混合的复杂场景。OASD-20K包含20,000个四秒音频片段，这些片段通过将韩国电视剧OST与YouTube音频库中的BGM随机混合生成，模拟了现实中的音频混合情况。数据集按8:1:1的比例划分为训练集、验证集和测试集，并进行了音量标准化处理以确保一致性。OSVAR-160则包含160个一分钟的视频片段，每个视频片段叠加了独立的BGM，进一步分割为1,121个四秒视频-音频对，用于评估音频恢复管道的性能。

特点

OASD-20K和OSVAR-160数据集具有鲜明的领域特色和实用性。OASD-20K专注于音乐源分离任务，提供了大量高质量的混合音频样本，适用于训练和评估音乐分离模型。其多样化的OST和BGM组合确保了模型在复杂音频环境中的鲁棒性。OSVAR-160则是一个独特的基准数据集，专门设计用于评估短视频音频恢复任务，其视频和音频对模拟了实际平台中用户生成内容的典型场景。两个数据集均注重版权合规性，音频来源合法且多样化，为研究提供了可靠的实验基础。

使用方法

OASD-20K和OSVAR-160数据集的使用方法与其设计目标紧密相关。OASD-20K主要用于训练和优化音乐源分离模型，如BS-RoFormer，通过其丰富的混合音频样本提升模型在分离OST和BGM方面的性能。研究人员可以利用其标准化的训练、验证和测试集进行模型开发和调优。OSVAR-160则作为评估工具，用于测试音频恢复管道的端到端性能，特别是在去除任意BGM和恢复原始OST方面的效果。其视频-音频对设计允许研究者全面评估模型在真实场景中的表现。两个数据集均可通过标准化预处理流程（如音频归一化）直接集成到现有研究框架中。

背景与挑战

背景概述

OASD-20K和OSVAR-160数据集由韩国成均馆大学的Minwoo Oh、Minsu Park和Eunil Park等研究人员于2025年提出，旨在解决短视频平台中因背景音乐(BGM)嵌入导致的版权侵权问题。这些数据集支持音频源分离(MSS)和跨模态视频音乐检索(CMVMR)技术的研究，帮助恢复原始音轨(OST)并提升内容原创性检测的准确性。OASD-20K包含20,000个混合音频片段，而OSVAR-160则提供了1,121个视频与混合音频对，专门用于评估音频恢复任务。这些数据集的推出填补了短视频音频处理领域的空白，为版权保护和内容完整性提供了重要工具。

当前挑战

OASD-20K和OSVAR-160数据集面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，数据集需解决高度混合的OST和BGM分离问题，尤其是在短视频中常见的快速过渡和复杂音频重叠场景。此外，跨模态对齐的准确性也是一大挑战，需确保恢复的OST与视频内容精确匹配。在构建过程中，数据收集和标注的复杂性较高，需平衡音频质量与多样性，同时避免版权问题。数据预处理和标准化也面临技术难题，如音频归一化和时间同步等，这些因素共同增加了数据集构建的难度。

常用场景

经典使用场景

在短视频平台版权保护研究中，OASD-20K和OSVAR-160数据集被广泛应用于音乐源分离（MSS）和跨模态视频音乐检索（CMVMR）任务。OASD-20K包含20,000个混合背景音乐（BGM）和原声音轨（OST）的音频片段，为训练高精度音频分离模型提供了丰富素材；而OSVAR-160则通过1,121个视频-音频对，为评估BGM去除和OST恢复的端到端流程建立了标准化测试基准。这些数据集特别适用于模拟YouTube Shorts、TikTok等平台中用户叠加任意BGM以规避版权检测的真实场景。

解决学术问题

该数据集有效解决了短视频领域两大核心学术问题：首先，通过提供大规模混合音频样本，突破了传统音乐分离研究受限于纯净数据集的瓶颈，使得BS-RoFormer等先进模型能够学习复杂OST-BGM混合模式的解耦规律；其次，OSVAR-160构建的视频-音频多模态关联，推动了跨模态嵌入空间对齐技术的发展，解决了基于内容（而非元数据）的视频音乐匹配难题。实验表明，使用这些数据训练的模型将BGM分离的SDR提升至11.45dB，视频音乐匹配准确率达到96.8%，显著优于传统方法。

衍生相关工作

基于这些数据集衍生的研究形成了短视频音频处理的新范式：在算法层面，Mao等人提出的UT-CMVMR模型通过光流节奏量化特征，将跨模态检索性能提升至新高度；在数据集层面，催生了针对方言（如粤语OST混合）和特殊场景（直播音频分离）的扩展数据集。值得关注的是，BS-RoFormer的频带分割架构启发了后续Waveformer等新型分离网络，其旋转位置编码机制也被迁移至语音增强领域。这些工作共同推动了AIGC时代音频版权保护的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集