CFAD

Name: CFAD
Creator: 中国科学院自动化研究所模式识别国家重点实验室
Published: 2023-07-18 12:21:40
License: 暂无描述

arXiv2023-07-18 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/8122764

下载链接

链接失效反馈

官方服务：

资源简介：

CFAD数据集是由中国科学院自动化研究所模式识别国家重点实验室创建的，用于研究假音频检测。该数据集包含347,400条音频，涵盖了12种主流语音生成技术生成的假音频，以及真实音频。为了模拟真实环境，数据集中的音频添加了三种噪声数据集的噪声，并在五种不同的信噪比下进行了处理。此外，还考虑了六种音频编码器进行音频转码。CFAD数据集不仅适用于假音频检测，还可用于音频取证中的假语音算法识别。该数据集的发布旨在推动假音频检测领域的进步，特别是在未知类型和复杂条件下的检测方法的泛化能力。

The CFAD dataset was developed by the State Key Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences for fake audio detection research. This dataset consists of 347,400 audio clips, including both fake audios generated by 12 mainstream speech synthesis technologies and authentic human audios. To simulate real-world environments, audios in the dataset are corrupted with noises from three noise datasets and processed under five different signal-to-noise ratios (SNRs). Additionally, six audio encoders are adopted for audio transcoding. The CFAD dataset is not only suitable for fake audio detection, but also can be applied to the recognition of fake speech algorithms in audio forensics. The release of this dataset aims to advance the development of the fake audio detection field, particularly the generalization capability of detection methods against unknown attack types and complex scenarios.

提供机构：

中国科学院自动化研究所模式识别国家重点实验室

创建时间：

2022-07-12

搜集汇总

数据集介绍

构建方式

在语音合成技术日益精进的背景下，虚假音频检测成为保障信息安全的关键环节。CFAD数据集的构建过程体现了对现实场景复杂性的高度模拟。其构建始于纯净版本，从六个不同的中文语音语料库中采集真实音频，涵盖多种口音和录制环境，以增强真实类别的多样性。虚假音频则通过十二种主流语音生成技术合成，包括传统声码器和神经声码器系统，并特别引入了部分伪造类型以评估模型的泛化能力。随后，基于纯净版本，通过添加来自三个噪声数据库的干扰信号，在五个不同信噪比下生成噪声版本，模拟真实环境中的背景噪声。同时，利用六种编解码器对纯净音频进行格式转换，生成编解码版本，以模拟社交媒体中常见的音频处理操作。整个数据集划分为训练集、开发集和测试集，测试集进一步分为可见和不可见子集，确保了对模型泛化性和鲁棒性的全面评估。

使用方法

CFAD数据集的设计支持虚假音频检测和伪造算法识别等多类研究任务。在虚假音频检测方面，研究者可利用数据集的三个版本分别训练和评估模型，通过可见与不可见测试集的划分，系统考察模型对未知虚假类型及噪声、编解码等失配条件的泛化能力。数据集提供的详细标签允许自定义实验设置，例如针对特定虚假类型或信噪比进行针对性分析。对于伪造算法识别任务，数据集支持对虚假音频生成技术的分类研究，有助于音频取证等应用场景。基线实验已展示了LFCC-GMM、LFCC-LCNN和RawNet2等模型在数据集上的性能，为后续研究提供了参考基准。研究者可基于公开的数据和代码，进一步开发新颖的检测方法，推动虚假音频检测领域的发展。

背景与挑战

背景概述

随着语音合成技术的飞速发展，其带来的安全隐患日益凸显，伪造音频的恶意使用可能误导公众舆论或实施欺诈。在此背景下，中国科学院自动化研究所模式识别国家重点实验室的研究团队于2021年推出了首个公开的中文伪造音频检测数据集CFAD。该数据集旨在填补复杂条件下中文标准数据集的空白，通过集成十二种主流语音生成技术，并模拟真实场景中的噪声干扰与音频转码，为研究更具泛化性的检测方法提供了坚实基础。CFAD不仅支持伪造音频检测，还可用于音频取证中的算法识别，推动了语音安全领域的研究进展。

当前挑战

CFAD数据集致力于解决伪造音频检测领域中的核心挑战，即模型在未知类型及不匹配条件下的泛化能力不足。具体而言，现有检测方法在面对未见过的伪造技术、多样化的背景噪声或不同的媒体编解码器时，性能显著下降。在数据构建过程中，研究团队需克服多重困难：一是确保真实音频来源的多样性，从六个不同语料库中采集数据以减少单一数据库带来的偏差；二是模拟真实噪声环境，需从多个噪声数据库中选取信号，并在五种信噪比下进行添加；三是处理音频转码的复杂性，涉及六种不同编解码器的格式转换与回退操作，以全面评估模型的鲁棒性。

常用场景

经典使用场景

在语音合成技术日益普及的背景下，CFAD数据集为中文伪造音频检测研究提供了标准化评估平台。该数据集通过整合十二种主流语音生成技术，并模拟真实场景中的噪声干扰与音频转码操作，构建了包含纯净、噪声和编码三个版本的多样化语料库。其经典使用场景聚焦于评估检测模型在未知伪造类型、复杂噪声环境及不同编码格式下的泛化能力与鲁棒性，为研究者提供了系统化的实验基准。

解决学术问题

CFAD数据集有效解决了伪造音频检测领域中的若干关键学术问题。针对现有方法在跨领域和未见场景中泛化能力不足的挑战，该数据集通过引入部分伪造音频和多样化的真实音频源，促进了模型对未知攻击类型的识别研究。同时，其精细标注的噪声与编码条件支持了模型在复杂干扰下的鲁棒性分析，填补了中文公开数据集中缺乏标准复杂环境语料的空白，推动了检测技术向实际应用场景的迁移。

实际应用

在实际应用层面，CFAD数据集为社交媒体内容审核、司法语音取证和金融身份验证等场景提供了技术支撑。例如，在司法取证中，该数据集不仅能辅助鉴定音频真伪，还可通过伪造算法识别功能追溯合成语音的技术来源，增强证据的可解释性。此外，其模拟的噪声和转码条件贴合网络传播中的音频失真现象，有助于开发适用于现实环境的检测系统，提升对恶意伪造音频的防范能力。

数据集最近研究