five

AudioSpoof 虚假音频检测数据集

收藏
github2025-04-22 更新2025-04-23 收录
下载链接:
https://github.com/huhuhushou/AudioSpoof
下载链接
链接失效反馈
官方服务:
资源简介:
随着TTS(Text-to-Speech)技术的快速发展,当前语音克隆模型生成的声音已难以通过简单听觉判断真伪。然而,针对中文场景的音频伪造检测领域仍存在显著空白:1️⃣ 缺乏基于最新语音合成技术生成的伪造音频数据集(Audio Spoofing Dataset)2️⃣ 现有检测方法对零样本语音克隆攻击的防御能力不足。为此,我们基于 MagicData 中文普通话语料库,通过四大前沿开源TTS模型进行零样本语音克隆: NaturalSpeech3, CosyVoice, F5-TTS, Spark-TTS, 构建首个专注于中文场景的多模型伪造音频检测基准数据集。采用零样本克隆,可以获取较高质量的、较多人数的伪造音频数据集。

With the rapid development of Text-to-Speech (TTS) technology, voices generated by current voice cloning models can hardly be distinguished from genuine speech through casual auditory inspection. However, there remain significant gaps in the field of audio spoofing detection for Chinese scenarios: 1) There is a lack of spoofing audio datasets (Audio Spoofing Dataset) generated using state-of-the-art speech synthesis technologies; 2) Existing detection methods lack sufficient defense capabilities against zero-shot voice cloning attacks. To address these issues, we conducted zero-shot voice cloning with four cutting-edge open-source TTS models: NaturalSpeech3, CosyVoice, F5-TTS, and Spark-TTS, based on the Mandarin Chinese speech corpus from MagicData, and constructed the first benchmark dataset for multi-model audio spoofing detection focused on Chinese scenarios. Adopting zero-shot cloning enables us to obtain spoofing audio datasets with high quality and a large number of speakers.
创建时间:
2025-04-21
原始信息汇总

AudioSpoof 虚假音频检测数据集概述

数据集背景

  • 针对中文场景的音频伪造检测领域存在的空白:
    • 缺乏基于最新语音合成技术生成的伪造音频数据集
    • 现有检测方法对零样本语音克隆攻击的防御能力不足

数据来源

  • 基于MagicData中文普通话语料库
  • 使用四大前沿开源TTS模型进行零样本语音克隆:
    • NaturalSpeech3
    • CosyVoice
    • F5-TTS
    • Spark-TTS

数据集下载

  • 托管平台:
    • Hugging Face: https://huggingface.co/datasets/HuShou-ZMZN/audiofake
    • zenodo: https://zenodo.org/records/15259855

数据构建方法

基础数据源

  • 从原始数据集中分层抽样构建核心语料:
    • 开发集:2人,每人随机选取10%录音
    • 测试集:4人,同比例采样
    • 训练集:20人,保持相同采样率

语音克隆流程

  • 采用零样本克隆技术生成样本

数据结构

AudioSpoof/ ├── metadata/ │ └── SPKINFO.txt ├── wav/ │ ├── dev/
│ ├── test/
│ ├── train/
│ ├── dev-naturalspeech3/
│ ├── test-naturalspeech3/
│ ├── train-naturalspeech3/ │ ├── dev-cosyvoice/
│ ├── test-cosyvoice/ │ ├── train-cosyvoice/ │ ├── dev-F5TTS/
│ ├── test-F5TTS/ │ ├── train-F5TTS/ │ └── dev-sparktts/
│ ├── test-sparktts/ │ └── train-sparktts/ └── text/ ├── dev.txt
├── test.txt
└── train.txt

数据统计

子集 说话人数 真实音频数 伪造音频数(×4模型) 总样本数
dev 2 118 472 590
test 4 180 720 900
train 20 1105 4,420 5,525

总计:26人 | 1,403真实 | 5,612伪造 | 7,015总样本

关键说明

  1. 每个克隆模型生成的三组目录(dev/test/train)保持原始音频目录结构
  2. 语音克隆目录命名统一采用{子集}-{model_name}格式
  3. 克隆音频文件保留原始命名,仅通过目录路径区分不同模型的输出
搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成技术迅猛发展的背景下,AudioSpoof数据集针对中文场景下的音频伪造检测需求,采用分层抽样方法从MagicData中文普通话语料库中构建核心语料。开发集、测试集和训练集分别抽取不同比例的说话人和录音,确保数据分布的均衡性。通过NaturalSpeech3、CosyVoice、F5-TTS和Spark-TTS四大前沿开源TTS模型进行零样本语音克隆,生成高质量的伪造音频样本,最终形成包含7,015个样本的多模型伪造音频检测基准数据集。
特点
AudioSpoof数据集作为首个专注于中文场景的多模型伪造音频检测基准数据集,具有显著的学术价值和应用潜力。其特点在于覆盖了四大主流TTS模型的零样本克隆结果,提供了1,403个真实音频和5,612个伪造音频的对比样本。数据集结构清晰,按模型和子集分类存储,保留了原始音频的目录结构和命名方式,便于研究者进行模型性能对比和分析。数据规模适中,说话人分布合理,为中文音频伪造检测研究提供了重要的基准资源。
使用方法
AudioSpoof数据集的使用方法较为直观。研究者可通过Hugging Face或zenodo平台获取完整数据集。数据集按开发集、测试集和训练集划分,每个子集下又按不同TTS模型分类存储克隆结果。使用时需注意克隆音频文件通过目录路径区分不同模型的输出,而文件名保持与原始音频一致。配套的文本文件提供了语音转录内容,可用于端到端的检测模型训练。该数据集特别适合用于零样本语音克隆攻击的防御研究,以及跨模型泛化能力的评估。
背景与挑战
背景概述
AudioSpoof虚假音频检测数据集诞生于语音合成技术迅猛发展的时代背景下,由国内研究团队基于MagicData中文普通话语料库构建。该数据集创建于2023年,旨在填补中文场景下音频伪造检测的研究空白。研究团队整合了NaturalSpeech3、CosyVoice等四大前沿开源TTS模型,采用零样本克隆技术生成高质量伪造音频,构建了首个面向中文场景的多模型伪造音频检测基准。该数据集包含7,015个样本,其中1,403个真实音频和5,612个伪造音频,为语音安全领域提供了重要的研究资源,对提升中文语音伪造检测能力具有显著推动作用。
当前挑战
在音频伪造检测领域,AudioSpoof数据集主要应对两大核心挑战:一是解决现有检测方法对零样本语音克隆攻击防御不足的技术瓶颈,二是突破中文场景下缺乏基于最新语音合成技术生成伪造音频数据集的资源限制。在构建过程中,研究团队面临多重技术难题:如何确保不同TTS模型生成的伪造音频具有足够的多样性;如何保持克隆音频与原始音频在语料结构和命名上的一致性;以及如何通过分层抽样策略在有限数据规模下保证数据集的代表性和平衡性。这些挑战的解决为后续研究提供了重要的技术参考。
常用场景
经典使用场景
在语音伪造检测领域,AudioSpoof数据集为研究人员提供了一个标准化的评估平台。该数据集通过整合多种前沿TTS模型生成的伪造音频,模拟了真实场景中可能遇到的各种语音克隆攻击。研究人员可以利用该数据集训练和评估检测模型的性能,特别是在零样本语音克隆场景下的表现。数据集的结构化设计和丰富样本量为算法比较提供了可靠基础。
实际应用
在实际应用中,AudioSpoof数据集可服务于语音身份认证系统的安全评估。金融机构和智能设备厂商可利用该数据集测试其声纹识别系统对伪造攻击的抵抗能力。数据集涵盖的多种TTS模型生成的样本,能够模拟攻击者可能采用的不同技术手段,帮助开发更鲁棒的防御方案。此外,该数据集也可用于培训语音安全检测人员。
衍生相关工作
基于AudioSpoof数据集,研究者已开展多项重要工作。包括开发针对零样本克隆攻击的检测算法、探索跨模型伪造音频的特征表示方法等。该数据集还促进了语音伪造检测竞赛的举办,吸引了学术界和工业界的广泛参与。相关研究成果已应用于改进声纹识别系统的安全性,并为制定语音安全标准提供了数据依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务