CodecDeepfakeDetection (CDD)

Name: CodecDeepfakeDetection (CDD)
Creator: 斯图加特大学·自然语言处理研究所; AppTek有限公司
Published: 2026-02-18 18:29:07
License: 暂无描述

arXiv2026-02-18 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/Flux9665/CodecDeepfakeDetection

下载链接

链接失效反馈

官方服务：

资源简介：

CodecDeepfakeDetection是由斯图加特大学和AppTek联合构建的高挑战性音频深度伪造检测数据集，作为ASVspoof 5的扩展版本。该数据集包含36,000条样本，覆盖训练集、开发集和测试集，数据来源包括真实语音、基于神经音频编解码器（如EnCodec、Mimi等）重合成的音频，以及6种先进文本转语音系统生成的伪造音频。数据集通过严格划分说话人重叠比例和平衡编解码器类型，模拟了真实场景中编解码器在传输压缩与语音合成中的双重应用。其核心价值在于为解决编解码重合成音频的标签歧义问题提供基准，推动音频伪造检测模型在复杂场景下的鲁棒性研究。

CodecDeepfakeDetection is a highly challenging audio deepfake detection dataset jointly developed by the University of Stuttgart and AppTek, serving as an extended version of ASVspoof 5. This dataset consists of 36,000 samples across training, development, and test splits, with data sources encompassing real speech, resynthesized audio generated via neural audio codecs (e.g., EnCodec, Mimi, etc.), and forged audio produced by six state-of-the-art text-to-speech systems. By strictly regulating the speaker overlap ratio and balancing codec types, the dataset simulates the dual application of audio codecs in transmission compression and speech synthesis in real-world scenarios. Its core value lies in providing a benchmark for addressing the label ambiguity problem of codec-resynthesized audio, and facilitating research on the robustness of audio deepfake detection models in complex scenarios.

提供机构：

斯图加特大学·自然语言处理研究所; AppTek有限公司

创建时间：

2026-02-18

搜集汇总

数据集介绍

构建方式

在音频深度伪造检测领域，CodecDeepfakeDetection（CDD）数据集的构建遵循了ASVspoof 5贡献协议，并作为其扩展版本。该数据集通过选择六种流行的开源文本到语音系统（如Llasa 8B、MARS5、CSM等）及其对应的神经音频编解码器（如XCodec2、EnCodec、Mimi等）生成伪造音频。真实语音部分则采用相同编解码器进行重合成，以模拟传输场景中的编码压缩效应。数据划分严格遵循训练、开发和测试集的标准协议，确保了说话人重叠规则的一致性，从而构建了一个具有挑战性的基准数据集。

使用方法

研究人员可利用该数据集训练和评估音频深度伪造检测模型，特别是在处理编解码器基础攻击时。使用时应遵循标准的数据分割，分别使用训练集进行模型训练，开发集进行超参数调优，测试集进行最终性能评估。实验设计可探讨将编解码器重合成音频标注为真实或伪造对检测性能的影响，从而研究最佳标注策略。数据集支持对特定编解码器伪影的分析，并有助于开发能够区分压缩与合成用途的鲁棒检测方法。

背景与挑战

背景概述

随着神经音频编解码器在语音合成领域的广泛应用，音频深度伪造检测面临新的挑战。CodecDeepfakeDetection数据集由斯图加特大学自然语言处理研究所与AppTek GmbH的研究团队于2026年构建，旨在探究神经音频编解码器在音频传输与语音生成中的双重角色。该数据集基于ASVspoof 5协议扩展构建，包含来自六种先进文本转语音系统的伪造音频及多种编解码器重合成的真实语音，核心研究问题聚焦于编解码器重合成数据的标注策略对检测性能的影响，为音频伪造检测领域提供了重要的基准数据。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，需解决神经音频编解码器双重用途带来的检测困境——当同一编解码器既用于音频压缩传输又用于语音生成时，检测器难以区分真实的重合成语音与伪造音频。在构建过程中，面临数据标注策略的复杂性挑战，需平衡将编解码器重合成数据标注为真实或伪造的利弊，同时确保数据分布的多样性与代表性，涵盖不同设计目标的编解码器及未见过的攻击系统，以评估检测模型的泛化能力与鲁棒性。

常用场景

经典使用场景

在音频深度伪造检测领域，CodecDeepfakeDetection数据集为研究神经音频编解码器在真实与伪造音频中的双重角色提供了关键实验平台。该数据集通过整合多种主流编解码器与语音合成系统，构建了包含原始真实音频、编解码器重合成音频以及基于编解码器的伪造音频的复杂样本集合。研究者利用这一数据集，能够系统评估检测模型在面对编解码器重合成音频时应如何标注的挑战，从而探索最优的标注策略以提升检测性能。

解决学术问题

该数据集核心解决了音频深度伪造检测中由神经音频编解码器双重功能引发的学术难题。编解码器既用于音频压缩传输，又服务于语音合成，导致重合成音频的标注模糊性。通过提供大规模、多样化的编解码器相关样本，数据集使研究者能够实证分析不同标注选择对检测模型泛化能力的影响，揭示了编解码器设计目标与检测性能之间的内在关联，为构建更鲁棒的检测系统提供了理论依据。

实际应用

在实际应用中，CodecDeepfakeDetection数据集直接服务于提升音频安全系统的防御能力。随着基于编解码器的语音合成技术在媒体娱乐、社交平台及实时通信中的普及，伪造音频的威胁日益严峻。该数据集训练的检测模型可部署于内容审核平台、金融身份验证系统及司法取证工具中，有效识别由先进合成技术生成的深度伪造音频，保障数字音频内容的真实性与可信度。

数据集最近研究