FSD

Name: FSD
Creator: 中国传媒大学媒体融合与传播国家重点实验室
Published: 2023-09-06 19:13:00
License: 暂无描述

arXiv2023-09-06 更新2024-06-21 收录

下载链接：

https://github.com/xieyuankun/FSD-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

FSD数据集是由中国传媒大学媒体融合与传播国家重点实验室创建的，旨在研究歌曲深度伪造检测。该数据集包含200首真实歌曲和450首伪造歌曲，伪造歌曲通过五种先进的歌唱声音合成和转换技术生成。数据集的创建过程涉及从真实歌曲中提取乐器轨道，并与伪造的歌唱声音混合。FSD数据集主要应用于检测和验证歌曲的真实性，保护音乐作品的完整性，维护艺术家的声誉，并保持听众的信任。

The FSD dataset was created by the State Key Laboratory of Media Convergence and Communication, Communication University of China, aiming to research deepfake song detection. This dataset includes 200 authentic songs and 450 deepfake songs, which are generated via five cutting-edge singing voice synthesis and voice conversion technologies. The dataset development process involves extracting instrumental tracks from authentic songs and mixing them with the generated fake singing voices. The FSD dataset is primarily utilized for detecting and verifying the authenticity of songs, safeguarding the integrity of musical works, protecting artists' reputations, and maintaining listener trust.

提供机构：

中国传媒大学媒体融合与传播国家重点实验室

创建时间：

2023-09-05

搜集汇总

数据集介绍

构建方式

在音频深度伪造检测领域，歌曲伪造检测尚属新兴研究方向，缺乏专门的数据资源。FSD数据集的构建旨在填补这一空白，其核心流程包括两个关键阶段。首先，研究人员选取了五种先进的歌声合成与歌声转换技术，涵盖SO-VITS、DiffSinger及RVC等方法，用以生成伪造的歌声片段。随后，通过音频源分离工具从真实歌曲中提取伴奏轨道，并将生成的伪造歌声与原始伴奏进行混合，最终形成完整的伪造歌曲。整个数据集包含200首真实歌曲与450首伪造歌曲，确保了数据来源的多样性与技术代表性。

特点

FSD数据集在设计上体现了鲜明的领域针对性，其首要特点在于专注于中文歌曲的深度伪造检测。该数据集涵盖了多种主流生成技术，包括歌声合成与歌声转换两大类别，从而全面模拟了实际场景中可能出现的伪造手段。数据集在划分上精心设置了可见集与不可见集，其中FC5作为不可见测试集，专门用于评估模型的泛化能力。此外，数据集不仅提供完整的歌曲音频，还包含了经分离处理的人声轨道，为研究伴奏干扰对人声伪造检测的影响提供了独特视角。

使用方法

该数据集主要用于训练和评估音频深度伪造检测模型在歌曲领域的性能。研究人员首先将音频分割为4秒的片段，并划分为训练集、开发集和多个测试条件。使用过程中，可分别基于完整歌曲或分离后的人声轨道进行模型训练，以探究不同输入形式对检测效果的影响。评估时，采用等错误率作为核心指标，对比语音训练模型与歌曲训练模型的性能差异。实验表明，基于FSD训练的模型在检测伪造歌曲时，其等错误率相比语音训练模型平均降低了38.58%，验证了该数据集在推动歌曲伪造检测研究中的实用价值。

背景与挑战

背景概述

随着歌声合成与歌声转换技术的飞速发展，音乐创作与演绎方式正经历深刻变革。然而，这些技术催生的“深度伪造歌曲”对音频内容的真实性与艺术完整性构成了严峻威胁。在此背景下，中国传媒大学媒体融合与传播国家重点实验室的研究团队于2023年推出了首个面向中文环境的伪造歌曲检测数据集FSD。该数据集旨在填补歌曲深度伪造检测领域专用数据资源的空白，其核心研究问题聚焦于如何有效区分真实歌曲与由先进合成技术生成的伪造歌曲，以维护音乐作品的真实性与艺术家的声誉。FSD的构建为音频伪造检测研究开辟了新的方向，推动了跨模态内容安全领域的技术探索。

当前挑战

FSD数据集所应对的领域挑战在于，歌曲深度伪造检测需克服人声与伴奏混合带来的复杂声学干扰，以及歌声特有的音高变化与韵律特征，这使得传统基于语音的音频深度伪造检测模型难以直接迁移适用。在构建过程中，研究团队面临多重挑战：一是需整合多种前沿歌声合成与转换方法以生成多样化的伪造样本，确保数据集的代表性与技术覆盖度；二是需设计合理的实验划分，包括可见与不可见测试条件，以评估模型的泛化能力；三是需处理原始歌曲中人声与伴奏的分离，以探究不同音频成分对检测性能的影响，这些步骤均对数据质量与实验严谨性提出了较高要求。

常用场景

经典使用场景

在音频伪造检测领域，FSD数据集作为首个专注于中文歌曲深度伪造检测的基准资源，其经典使用场景在于为研究者提供了一个系统评估和比较不同检测模型性能的平台。该数据集通过整合五种先进的歌声合成与转换技术生成的伪造歌曲，模拟了真实世界中可能出现的复杂伪造情形，使得研究人员能够在受控环境下探索歌曲真伪鉴别的有效方法。

解决学术问题

FSD数据集主要解决了音频深度伪造检测领域中的一个关键学术问题：即现有基于语音训练的检测模型在跨域应用到歌曲场景时性能显著下降的挑战。通过提供专门针对歌曲的伪造样本，该数据集促进了检测模型对歌声特有属性（如音高变化和节奏复杂性）的适应性研究，从而推动了领域内对模型泛化能力和鲁棒性的深入理解，为构建更通用的音频真伪鉴别系统奠定了数据基础。

衍生相关工作

围绕FSD数据集，已衍生出一系列经典研究工作，主要集中在优化音频深度伪造检测模型的架构与训练策略上。例如，基于Wav2Vec2特征的LCNN模型在该数据集上展现了显著的性能提升，激发了后续对自监督学习特征在歌曲检测任务中应用的探索。同时，这些研究也促进了针对歌声特性的新型检测算法的开发，如结合声源分离技术的预处理方法，进一步拓展了歌曲深度伪造检测的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集