Codecfake Dataset
收藏数据集概述
数据集名称
- Codecfake Dataset
数据集描述
- Codecfake Dataset 是一个用于深度伪造音频普遍检测的数据集,由多个子集组成,包括训练集、开发集和测试集。
数据集子集
| 子集名称 | 描述 | 链接 |
|---|---|---|
| 训练集 (part 1 of 3) & 标签 | train_split.zip & train_split.z01 - train_split.z06 | 链接 |
| 训练集 (part 2 of 3) | train_split.z07 - train_split.z14 | 链接 |
| 训练集 (part 3 of 3) | train_split.z15 - train_split.z19 | 链接 |
| 开发集 | dev_split.zip & dev_split.z01 - dev_split.z02 | 链接 |
| 测试集 (part 1 of 2) | Codec test: C1.zip - C6.cip & ALM test: A1.zip - A3.zip | 链接 |
| 测试集 (part 2 of 2) | Codec unseen test: C7.zip | 链接 |
数据集许可
- CC BY-NC-ND 4.0
数据集结构
-
数据集应按照以下目录结构组织:
├── Codecfake │ ├── label │ │ └── *.txt │ ├── train │ │ └── *.wav (740,747 samples) │ ├── dev │ │ └── *.wav (92,596 samples) │ ├── test │ │ └── C1 │ │ │ └── *.wav (26,456 samples) │ │ └── C2 │ │ │ └── *.wav (26,456 samples) │ │ └── C3 │ │ │ └── *.wav (26,456 samples) │ │ └── C4 │ │ │ └── *.wav (26,456 samples) │ │ └── C5 │ │ │ └── *.wav (26,456 samples) │ │ └── C6 │ │ │ └── *.wav (26,456 samples) │ │ └── C7 │ │ │ └── *.wav (145,505 samples) │ │ └── A1 │ │ │ └── *.wav (8,902 samples) │ │ └── A2 │ │ │ └── *.wav (8,902 samples) │ │ └── A3 │ │ │ └── *.wav (99,112 samples)
使用建议
- 若需与ASVspoof2019数据集联合训练,请先从ASVspoof2019 LA Database下载相应的训练、开发和评估集。
预训练模型
- 提供了多种预训练模型,包括Vocoder-trained ADD模型、Codec-trained ADD模型和Co-trained ADD模型,具体模型文件存储于
./pretrained_model目录下。
引用信息
-
若使用此数据集,请引用以下文献:
@article{xie2024codecfake, title={The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio}, author={Xie, Yuankun and Lu, Yi and Fu, Ruibo and Wen, Zhengqi and Wang, Zhiyong and Tao, Jianhua and Qi, Xin and Wang, Xiaopeng and Liu, Yukun and Cheng, Haonan and others}, journal={arXiv preprint arXiv:2405.04880}, year={2024} }




