Oh-Audio Separation Dataset 20K (OASD-20K) 和 Oh-Short Video Audio Restoration Dataset 160 (OSVAR-160)

Name: Oh-Audio Separation Dataset 20K (OASD-20K) 和 Oh-Short Video Audio Restoration Dataset 160 (OSVAR-160)
Creator: 韩国成均馆大学
Published: 2025-05-03 20:54:39
License: 暂无描述

arXiv2025-05-03 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.21772v2

下载链接

链接失效反馈

官方服务：

资源简介：

OASD-20K是一个包含20,000个音频片段的数据集，用于训练和评估混合音乐分离模型。这些音频片段由韩国电视剧的OST和YouTube音频库的BGM混合而成。OSVAR-160是一个包含160个视频片段的数据集，每个视频片段配有一个独特的BGM，用于评估整个管道在去除任意BGM和恢复OST完整性方面的性能。这些数据集为音乐源分离和跨模态视频-音乐检索研究提供了重要的数据资源，有助于解决短视频平台上的版权问题。

OASD-20K is a dataset comprising 20,000 audio clips for training and evaluating hybrid music separation models. These audio clips are mixed from the original soundtracks (OST) of Korean TV dramas and background music (BGM) from the YouTube Audio Library. OSVAR-160 is a dataset consisting of 160 video clips, each paired with a unique BGM, designed to evaluate the performance of the entire pipeline in removing arbitrary BGM and restoring the integrity of the OST. These datasets provide critical data resources for research on music source separation and cross-modal video-music retrieval, and help address copyright issues on short-video platforms.

提供机构：

韩国成均馆大学

创建时间：

2025-05-01

搜集汇总

数据集介绍

构建方式

在短视频平台版权保护的背景下，OASD-20K与OSVAR-160数据集通过系统性工程构建而成。OASD-20K的20,000个四秒音频片段源自韩国电视剧原声带与YouTube音频库背景音乐的随机混合，采用-23 LUFS标准化处理确保音量一致性，并按8:1:1比例划分为训练、验证和测试集。OSVAR-160则从高质量韩剧片段中选取160条一分钟视频，叠加独立背景音乐后分割为1,121个四秒单元，其音频处理标准与OASD-20K保持一致，形成端到端评估基准。

特点

两大数据集在音频处理领域具有显著特性差异。OASD-20K专注于音乐分离任务，其复合音频信号模拟了短视频平台常见的OST-BGM混合场景，22.2小时的总时长与精细的频率带划分为BS-RoFormer等模型提供多维训练样本。OSVAR-160则创新性地整合视听模态，视频素材选自制作精良的剧集片段，与非重叠背景音乐构成复杂声场环境，1,121个严格时间对齐的视听单元能有效验证跨模态检索系统的鲁棒性。两数据集均通过版权合规音源构建，保障了学术研究的伦理性。

使用方法

该系列数据集需配合模块化流程使用。研究者可优先采用OASD-20K训练音乐分离模型，通过SDR与SI-SDR指标验证频域分离效果；继而利用OSVAR-160评估完整流水线，其视频-音频对可同步测试分离模块的OST还原能力与跨模态匹配精度。数据加载时需注意四秒片段的时序连续性，建议采用重叠采样增强短时特征提取。对于CMVMR研究，OSVAR-160的视觉光学流特征与音频节奏量化数据已预计算，可直接输入UT-CMVMR等模型进行跨模态嵌入学习。

背景与挑战

背景概述

Oh-Audio Separation Dataset 20K (OASD-20K) 和 Oh-Short Video Audio Restoration Dataset 160 (OSVAR-160) 是由韩国成均馆大学的研究团队于2024年提出的两个领域专用数据集，旨在解决短视频平台中背景音乐（BGM）与原始音轨（OST）混合导致的版权侵权问题。随着YouTube Shorts、TikTok等短视频平台的迅猛发展，用户生成内容中的音频篡改行为日益猖獗，侵权者通过叠加任意BGM来掩盖原始音轨，严重破坏了内容原创性检测系统的有效性。该研究团队创新性地提出了一种结合音乐源分离（MSS）和跨模态视频-音乐检索（CMVMR）的技术方案，而OASD-20K和OSVAR-160则为该方案的训练与评估提供了数据支撑。其中，OASD-20K包含20,000个混合音频片段，专门用于训练音乐分离模型；OSVAR-160则包含160个短视频及其对应的混合音频，为端到端音频恢复任务提供基准测试。这两个数据集的建立不仅填补了短视频音频处理领域的数据空白，也为版权保护技术提供了重要的研究基础。

当前挑战

在解决领域问题方面，OASD-20K和OSVAR-160面临的核心挑战在于如何准确分离高度混合的音频信号。短视频平台中的音频往往存在复杂的时频重叠，BGM与OST在频谱和时间维度上紧密交织，传统信号处理方法难以有效区分。此外，跨模态对齐任务要求模型在缺乏元数据的情况下，仅通过内容特征实现视频与音频的精准匹配，这对表征学习提出了极高要求。在数据集构建过程中，研究团队需要克服真实场景数据稀缺的难题，通过精心设计的混合策略模拟实际侵权场景。音频标准化处理、时频特征对齐以及跨模态样本平衡等技术细节都增加了数据集的构建复杂度。同时，为确保数据的版权合规性，所有素材均需来自授权来源，这在数据规模扩增与多样性保持之间形成了显著张力。

常用场景

经典使用场景

在短视频平台的版权合规研究中，OASD-20K和OSVAR-160数据集被广泛应用于音乐源分离（MSS）和跨模态视频-音乐检索（CMVMR）任务。这些数据集通过模拟真实场景中背景音乐（BGM）与原始音轨（OST）的混合情况，为研究者提供了高质量的音频分离基准。特别是在处理用户生成内容时，这些数据集帮助模型学习如何有效分离和恢复被篡改的音频，从而支持版权检测系统的开发。

实际应用

在实际应用中，OASD-20K和OSVAR-160数据集被用于优化短视频平台的音频处理流程。例如，YouTube Shorts和TikTok等平台利用基于这些数据集训练的模型，能够自动检测并移除未经授权的背景音乐，恢复原始音轨。这不仅减少了版权纠纷，还提升了内容创作者的创作自由度。此外，这些技术还被应用于广告推荐和内容审核系统，进一步拓展了其商业价值。

衍生相关工作

基于OASD-20K和OSVAR-160数据集，研究者们开发了多项经典工作。例如，BS-RoFormer模型通过频带分割和旋转位置嵌入技术，显著提升了音频分离的精度。UT-CMVMR模型则利用光学流和节奏量化特征，实现了视频与音乐的高效对齐。这些工作不仅推动了音频处理领域的发展，还为跨模态检索技术提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集