deepfake-audio-detection

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/garystafford/deepfake-audio-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,224个音频样本（612个真实，612个合成），用于训练深度伪造音频检测模型。它专门设计用于二元分类任务，以区分真实的人类语音和AI生成的合成音频。数据集中的真实音频来自YouTube录音，合成音频则使用Amazon Polly TTS、ElevenLabs语音合成、Hexgrad Kokoro TTS、Luvvoice TTS和Speechify TTS等多种平台生成。所有音频文件均经过复杂的双通道分割算法处理，确保音频片段长度在2.5至13秒之间，具有自然的语音边界。数据集格式为FLAC（无损音频压缩，16kHz单声道），适用于英语语言的音频分类任务。

This dataset contains 1,224 audio samples (612 real, 612 synthetic) for training deepfake audio detection models. It is specifically designed for binary classification tasks to distinguish between real human speech and AI-generated synthetic audio. The real audio in the dataset is sourced from YouTube recordings, while the synthetic audio was generated using multiple platforms including Amazon Polly TTS, ElevenLabs Text-to-Speech, Hexgrad Kokoro TTS, Luvvoice TTS, and Speechify TTS. All audio files have been processed with a sophisticated dual-channel segmentation algorithm to ensure the audio clips have a duration ranging from 2.5 to 13 seconds with natural speech boundaries. The dataset is formatted as FLAC (lossless audio compression, 16 kHz mono) and is applicable for English-language audio classification tasks.

创建时间：

2025-12-25

原始信息汇总

Deepfake Audio Detection Dataset (v3) 概述

数据集基本信息

名称：Deepfake Audio Detection Dataset (v3)
发布者：Gary Stafford
发布日期：2025年
发布平台：HuggingFace
数据集地址：https://huggingface.co/datasets/garystafford/deepfake-audio-detection
许可协议：Creative Commons Attribution 4.0 International License (CC-BY-4.0)
任务类别：音频分类
语言：英语
标签：deepfake, synthetic-speech, audio, tts, voice-cloning
数据规模：1K<n<10K

数据集描述

该数据集包含1,224个音频样本（612个真实，612个合成），用于训练深度伪造音频检测模型。它专为二元分类任务设计，旨在区分真实人声与AI生成的合成音频。

版本3的新特性

规模扩大近2倍：样本数量从620个增至1,224个（数据量增加97%）。
高级处理：采用复杂的双通道音频分割算法并进行拼接。
更好的数据利用：通过智能拼接（通道1.5）挽救短音频片段。
一致的质量：所有音频块时长在2.5至13秒之间，且具有自然的语音边界。
可追溯的来源：文件命名规则表明了处理方法（_c_ 表示拼接，_p2_ 表示子块分割）。

数据集摘要

总样本数：1,224个FLAC音频文件。
真实音频：612个样本，源自YouTube录音。
合成音频：612个样本，使用以下技术生成：
- Amazon Polly TTS（前缀：po_）
- ElevenLabs语音合成（前缀：el_）
- Hexgrad Kokoro TTS（前缀：hg_）
- Luvvoice TTS（前缀：lv_）
- Speechify TTS（前缀：sp_）
格式：FLAC（无损音频压缩，16kHz单声道）。
音频块时长：2.5-13秒（为模型训练优化）。
语言：英语。
任务：二元音频分类（真实 vs 伪造）。

数据集结构

data/ ├── fake/ # 612个合成音频样本 │ ├── el_.flac # ElevenLabs生成 │ ├── hg_.flac # Hexgrad Kokoro生成 │ ├── lv_.flac # Luvvoice生成 │ ├── po_.flac # Amazon Polly生成 │ └── sp_.flac # Speechify生成 └── real/ # 612个真实音频样本 └── yt_.flac # YouTube录音

音频处理

所有音频文件均使用复杂的双通道分割算法进行处理：

通道1 - 静音检测：使用静音检测（-40 dBFS下300ms阈值）在自然停顿处分割音频。
通道1.5 - 拼接：组合短片段（<2.5秒）以达到最小时长，从伪造音频源中创建更多可用的训练数据。
通道2 - VAD子块分割：使用语音活动检测在语音边界处智能分割长片段（>13秒）。

文件命名规则：

常规音频块：filename_part_001.flac（直接来自通道1）。
拼接音频块：filename_c_part_002.flac（组合的短片段）。
子块分割片段：filename_p2_part_003.flac（VAD分割的长片段）。

数据收集

真实音频（YouTube）

来源：公开的YouTube视频。
内容：来自不同说话者和语境的自然人声。
处理流程：
1. 使用FFmpeg从MP4视频中提取音频。
2. 转换为FLAC格式（16kHz单声道）。
3. 使用静音检测分割成2.5-13秒的音频块。
4. 进行平衡以匹配合成样本数量。

合成音频

使用多个TTS平台从相同源文本生成，以确保多样性：

Amazon Polly：标准和神经TTS语音，具有多个说话者配置文件。
ElevenLabs：高质量语音合成，具有多种语音预设和情感语调。
Hexgrad Kokoro：开放权重的TTS模型，具有8200万个参数。
Luvvoice：在线文本转语音，具有多种语音选项。
Speechify：商业TTS服务，具有自然声音。

处理流程：

使用每个TTS平台从文本生成音频。
转换为FLAC格式（16kHz单声道）。
使用双通道算法（静音检测 + 拼接）进行分割。
最终得到612个平衡的合成样本。

预期用途

主要用例

训练用于深度伪造音频检测的二元分类器。
微调预训练的音频模型（如Wav2Vec2、HuBERT等）。
合成语音检测研究。
音频真实性检测系统的基准测试。

超出范围的用途

该数据集相对较小，应用于微调或评估，而非从头开始训练。
不适用于说话人识别或验证任务。
仅限于英语样本。

局限性

数据集规模：虽然已增至1,224个样本，但对于从头开始训练而言仍然相对较小。最适合用于微调预训练模型。
TTS平台覆盖范围：仅限于五个特定的TTS平台。可能无法泛化到所有合成语音生成技术或更新的模型。
语言：仅限英语，可能无法泛化到其他语言。
时间偏差：样本收集于2025年12月，更新的TTS系统可能产生不同的伪影。
音频特征：
- 所有音频块时长为2.5-13秒（可能无法代表长形式的深度伪造音频）。
- 部分伪造音频块由较短片段拼接而成（标记为 _c_）。
- 背景噪音或声学多样性有限。
检测军备竞赛：深度伪造生成技术发展迅速；基于此数据训练的模型可能无法检测未来的合成音频。

伦理考量

该数据集旨在用于防御目的，以改进合成音频的检测。用户应：

负责任地用于研究和检测系统。
不用于创建误导性或有害的合成音频。
在使用真实音频样本时考虑隐私影响。
意识到基于此数据训练的检测系统可能存在局限性。

引用

如果使用该数据集，请引用： bibtex @dataset{deepfake_audio_detection_v3_2025, author = {Gary Stafford}, title = {Deepfake Audio Detection Dataset v3}, year = {2025}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/garystafford/deepfake-audio-detection} }

搜集汇总

数据集介绍

构建方式

在语音伪造检测领域，数据集的构建需兼顾真实性与多样性。该数据集通过精心设计的双阶段处理流程，整合了来自公开YouTube视频的真实人声与五种主流文本转语音平台生成的合成音频。真实音频经过FFmpeg提取与格式转换，并采用基于静默检测的智能分割算法，确保语音片段的自然边界；合成音频则源自相同文本内容，通过多平台生成以覆盖不同合成技术特征。处理过程中引入创新的拼接机制，将短片段智能融合为可用训练样本，最终形成包含1224个均衡样本的高质量集合。

使用方法

针对音频分类任务，该数据集可与现代深度学习框架无缝集成。通过HuggingFace Datasets库直接加载后，数据自动划分为音频数组与二元标签（0代表真实，1代表伪造）。研究者可将其与Wav2Vec2等预训练模型结合，利用特征提取器将音频转换为频谱特征输入。在实际应用中，建议采用迁移学习策略，以本数据集对预训练模型进行微调，而非从头训练，以克服数据规模限制。这种使用方法特别适用于开发轻量级检测系统或作为合成语音检测研究的评估基准。

背景与挑战

背景概述

随着人工智能语音合成技术的飞速发展，深度伪造音频的生成能力日益逼真，对数字媒体真实性构成了严峻威胁。在此背景下，Deepfake Audio Detection数据集应运而生，由研究人员Gary Stafford于2025年创建并发布。该数据集旨在为音频真实性检测领域提供基准资源，核心研究问题聚焦于如何有效区分真实人声与AI生成的合成语音，从而支撑二进制分类模型的训练与评估。通过整合来自YouTube的真实语音及五种主流文本转语音平台生成的合成样本，该数据集不仅推动了音频深度伪造检测算法的进步，也为相关安全防御技术的研究奠定了数据基础。

当前挑战

该数据集致力于解决音频深度伪造检测这一领域核心问题，其挑战在于合成语音的生成技术持续快速演进，导致模型泛化能力受限，难以有效识别新兴或未知的伪造方法。在构建过程中，研究人员面临多重挑战：数据集规模相对有限，仅包含1224个样本，需依赖精细的两阶段音频分割与拼接算法来优化数据利用率；同时，合成音频仅覆盖五种特定TTS平台，且样本语言局限于英语，可能无法充分代表多样化的语音特征与跨语言场景。此外，音频片段时长被约束在2.5至13秒之间，缺乏长时对话或复杂声学环境的多样性，这些因素共同制约了检测系统在现实复杂场景中的鲁棒性与适应性。

常用场景

经典使用场景

在音频取证与多媒体安全领域，深度伪造音频检测数据集为二元分类任务提供了关键资源。该数据集最经典的使用场景是训练和评估深度学习模型，以区分真实人类语音与AI生成的合成音频。研究者通常利用其平衡的真实与伪造样本，结合预训练模型如Wav2Vec2或HuBERT进行微调，从而构建高效的音频真实性鉴别系统。其精心处理的音频片段（2.5-13秒）和多样化的TTS平台覆盖，确保了模型在有限数据下仍能学习到有效的声学特征与伪造痕迹。

解决学术问题

该数据集直接应对了合成语音检测中的核心学术挑战，即如何在小规模、高质量的数据集上实现可靠的泛化性能。它解决了传统研究中因数据稀缺或多样性不足导致的模型过拟合问题，并通过涵盖多种主流TTS技术（如Amazon Polly、ElevenLabs等），为探索跨平台伪造音频的通用检测特征提供了基础。其意义在于推动了音频取证领域从依赖大型、私有数据向标准化、可复现研究的转变，促进了检测算法在对抗性环境下的鲁棒性评估。

实际应用

在实际应用中，该数据集支撑了多个关键场景的防御系统开发。例如，在社交媒体内容审核中，可用于自动识别并标记潜在的伪造语音信息；在金融安全领域，辅助检测基于语音克隆的欺诈行为；同时，也为司法取证中的音频证据真实性验证提供了技术参考。尽管数据集规模有限，但其精心平衡的样本结构使得基于迁移学习的检测模型能够在资源受限的环境中部署，有效应对日益增长的深度伪造音频威胁。

数据集最近研究