ADD-C

Name: ADD-C
Creator: 伦敦大学拉夫堡学院数字技术研究所, 英国伦敦E20 3BS；埃克塞特大学计算机科学系, 英国埃克塞特EX4 4QE
Published: 2025-04-17 02:44:05
License: 暂无描述

arXiv2025-04-17 更新2025-04-22 收录

下载链接：

http://arxiv.org/abs/2504.12423v1

下载链接

链接失效反馈

官方服务：

资源简介：

ADD-C是一个用于评估音频深度伪造检测系统在真实通信场景下鲁棒性的测试数据集，由6个评估条件组成，包括一个清洁条件下的未压缩和未传输效应的数据，以及五个模拟不同编解码器和不同丢包率下的真实世界通信条件的数据。数据集基于6个公开语音数据集构建，包含130,041条真实语音和240,373条伪造语音，涵盖了36种深度伪造算法。该数据集旨在解决音频深度伪造检测系统在真实通信场景中的性能下降问题。

ADD-C is a test dataset for evaluating the robustness of audio deepfake detection systems in real-world communication scenarios. It consists of 6 evaluation conditions: one set of uncompressed data without transmission artifacts under clean conditions, and five datasets simulating real-world communication conditions with different codecs and packet loss rates. Built upon 6 public speech datasets, the dataset contains 130,041 genuine speech samples and 240,373 fake speech samples, covering 36 deepfake algorithms. This dataset is designed to address the performance degradation issue of audio deepfake detection systems in real-world communication scenarios.

提供机构：

伦敦大学拉夫堡学院数字技术研究所, 英国伦敦E20 3BS；埃克塞特大学计算机科学系, 英国埃克塞特EX4 4QE

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

ADD-C数据集的构建基于六种公开语音数据集，包括Fake-or-Real、Wavefake、LJSpeech、MLAAD、M-AILABS和ASVspoof2021 Logical Access。为确保数据一致性，所有数据集被统一转换为16kHz采样率的单通道16位PCM格式。数据集包含六种评估条件（C0-C5），其中C0为干净音频条件，C1-C5模拟了真实通信场景中的音频编解码压缩和丢包率（PLR）效应。具体而言，C1-C5通过六种广泛使用的语音编解码器和五种不同PLR（0%、1%、5%、10%、20%）模拟真实通信环境。

特点

ADD-C数据集的主要特点在于其全面覆盖了真实通信场景中的多种音频质量退化情况。数据集包含130,041条真实语音和240,373条伪造语音，涉及36种不同的深度伪造算法。通过引入多种编解码器（如AMR-WB、EVS、OPUS等）和不同PLR条件，ADD-C能够有效评估音频深度伪造检测系统在复杂通信环境下的鲁棒性。此外，数据集的平衡设计确保了每种条件下真实与伪造语音的比例均等，为模型评估提供了客观基准。

使用方法

ADD-C数据集主要用于评估音频深度伪造检测（ADD）系统在真实通信场景中的鲁棒性。研究人员可通过该数据集测试模型在不同编解码压缩和丢包率条件下的性能表现。使用ADD-C时，建议采用交叉验证方法，将数据集分为训练集和测试集以评估模型泛化能力。此外，数据集支持多种评估指标，如等错误率（EER）、曲线下面积（AUC）和F1分数，便于全面分析模型性能。为提升系统鲁棒性，可结合论文提出的数据增强策略，通过模拟多种通信条件扩展训练数据多样性。

背景与挑战

背景概述

ADD-C数据集由Loughborough University London和University of Exeter的研究团队于2025年发布，旨在解决真实通信场景下音频深度伪造检测（ADD）系统的鲁棒性问题。随着AI语音合成技术的滥用风险加剧，该数据集通过模拟VoLTE/VoIP通信中的编解码压缩和包丢失效应，填补了现有ADD基准在现实环境适应性评估上的空白。其核心价值体现在首次系统量化了6种语音编解码器和5种丢包率对36类深度伪造算法检测性能的影响，为构建安全可靠的语音认证系统提供了关键实验平台。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决语音质量退化导致的特征失真问题，包括编解码压缩造成的高频信息丢失、包丢失引发的音频断续等，这些因素使传统基于洁净音频训练的ADD模型性能下降超过5.3%；在构建过程中，需精确模拟真实通信链路的复合效应，协调AMR-WB/EVS等异构编解码器的参数配置，并设计包含24000条样本的5种丢包场景，确保测试条件既符合3GPP标准又覆盖极端网络状况。

常用场景

经典使用场景

在音频深度伪造检测（ADD）领域，ADD-C数据集被广泛应用于评估检测模型在真实通信场景下的鲁棒性。该数据集通过模拟多种音频编解码器和丢包率（PLR）条件，为研究者提供了一个标准化的测试平台，用于验证模型在复杂通信环境中的性能表现。特别是在VoLTE和VoIP等实际通信系统中，ADD-C能够有效模拟音频质量下降的情况，帮助研究者识别和解决模型在真实场景中的性能瓶颈。

实际应用

ADD-C数据集在实际应用中具有广泛的价值，特别是在安全关键领域。例如，在金融诈骗检测中，ADD-C可以帮助开发能够识别经过通信系统传输的伪造音频的检测模型，从而防止类似利用深度伪造音频进行的诈骗行为。此外，该数据集还可用于优化语音助手、智能家居设备等依赖音频识别的系统，确保其在复杂通信环境中的可靠性和安全性。

衍生相关工作

ADD-C数据集的推出催生了一系列相关研究，特别是在音频深度伪造检测的鲁棒性提升方面。基于ADD-C，研究者提出了多种数据增强方法和模型优化策略，例如结合编解码模拟和丢包率增强的训练框架。此外，ADD-C也为跨领域研究提供了基础，如语音信号处理与无线通信的交叉研究，进一步推动了音频伪造检测技术在真实场景中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集