CtrSVDD

arXiv2025-09-30 收录

下载链接：

https://github.com/Anmol2059/SVDD2024

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估歌唱声音深度伪造检测模型的“受控歌唱声音深度伪造检测”数据集。在此数据集中训练的模型会根据两种官方测试协议报告结果。该任务的目的是进行深度伪造歌唱声音的检测。

This dataset is a "Controlled Singing Voice Deepfake Detection" dataset designed for evaluating singing voice deepfake detection models. Models trained on this dataset will report their performance results in accordance with two official test protocols. The objective of this task is to detect deepfake singing voices.

搜集汇总

数据集介绍

构建方式

在歌唱语音深度伪造检测领域，现有数据集常受限于可控性不足、伪造方法单一及许可限制。CtrSVDD数据集通过端到端的合成流程构建，以增强可控性与多样性。其真实歌唱片段源自多个开源歌唱数据集，如Opencpop、M4Singer及日语歌唱数据集，并依据原始论文或自动分段方法进行处理。深度伪造片段则采用14种先进的歌唱语音合成与转换方法生成，涵盖XiaoiceSing、VISinger、DiffSinger等多种架构，确保方法覆盖全面。数据集最终包含220,798个单声道音频片段，总时长307.98小时，按训练、开发与评估集划分，其中评估集保留了未见过的歌手与合成方法，以模拟真实检测场景。

使用方法

CtrSVDD数据集为歌唱语音深度伪造检测任务提供了系统的使用框架。研究者可利用其预划分的训练、开发与评估集进行模型训练与验证，其中评估集专门包含未见过的合成方法与歌手，以测试模型的泛化能力。数据集附带基线系统，支持多种前端特征提取模块，如原始波形、频谱图、梅尔频谱及线性频率倒谱系数等，便于比较不同特征对检测性能的影响。用户可基于公开的代码库加载数据，集成自定义检测模型，并利用提供的预训练权重进行快速实验。通过该数据集，能够深入探索SVDD模型在应对新兴伪造技术时的鲁棒性与局限性。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，歌唱声音合成与转换技术取得了显著进步，这为音乐产业带来了新的挑战，尤其是未经授权的深度伪造歌声可能侵犯艺术家知识产权。为应对这一挑战，歌唱声音深度伪造检测（SVDD）领域应运而生。CtrSVDD数据集由罗切斯特大学、卡内基梅隆大学、名古屋大学及国内多所机构的研究人员于2024年共同创建，旨在解决现有SVDD数据集在可控性、多样性及数据开放性方面的不足。该数据集包含47.64小时的真实歌声与260.34小时的深度伪造歌声，涵盖14种深度伪造方法及164位歌手身份，为SVDD研究提供了大规模、多样化的基准数据，推动了该领域的技术发展与评估标准化。

当前挑战

CtrSVDD数据集致力于解决歌唱声音深度伪造检测的核心挑战，即如何准确区分高度逼真的合成歌声与真实演唱。具体挑战包括：在领域问题层面，深度伪造方法不断演进，模型需具备强大的泛化能力以应对未知合成技术，尤其是与训练分布差异较大的方法（如扩散模型与商业黑盒系统），现有检测系统在此类场景下性能显著下降。在构建过程中，研究团队面临数据多样性与可控性的平衡难题，需整合多种开源与商业合成方法，同时确保数据可复现性与法律合规性；此外，数据标注与深度伪造生成流程的端到端管理亦增加了构建复杂度，要求精细控制声源、目标数据集及合成方法的每一个细节。

常用场景

经典使用场景

在音频伪造检测领域，CtrSVDD数据集作为一项基准资源，主要用于评估和开发针对歌唱声音深度伪造的检测模型。该数据集通过整合多种先进的歌唱声音合成与转换方法，为研究者提供了一个可控且多样化的测试平台，以系统性地探索不同特征表示在区分真实与伪造歌唱声音方面的效能。其经典应用场景包括训练和验证端到端的深度学习模型，如基于原始波形或线性频率倒谱系数的检测系统，从而推动歌唱声音深度伪造检测技术的标准化与性能提升。

解决学术问题

CtrSVDD数据集有效应对了现有歌唱声音深度伪造检测研究中数据可控性不足、伪造方法多样性有限以及许可限制等核心挑战。通过提供大规模、标注清晰的真实与伪造歌唱声音样本，该数据集支持研究者深入探究不同声学特征在检测任务中的泛化能力，特别是在面对未见过的伪造方法时的鲁棒性。其意义在于为学术界建立了一个公开、可复现的评估框架，促进了跨模型比较与方法创新，为保护音乐产业知识产权和艺术创作完整性提供了技术基础。

实际应用

在实际应用中，CtrSVDD数据集可服务于音乐流媒体平台、版权管理机构和内容审核系统，用于自动识别未经授权的深度伪造歌唱作品。通过集成基于该数据集训练的检测模型，这些系统能够高效筛查用户上传或传播的音频内容，防范伪造声音对艺术家商业价值和原创性的侵害。此外，该数据集还可用于开发教育工具，提升公众对音频伪造技术的认知，助力构建更安全的数字音乐生态环境。

数据集最近研究