Codecfake Dataset|深度伪造音频检测数据集|机器学习数据集
收藏数据集概述
数据集名称
- Codecfake Dataset
数据集描述
- Codecfake Dataset 是一个用于深度伪造音频普遍检测的数据集,由多个子集组成,包括训练集、开发集和测试集。
数据集子集
子集名称 | 描述 | 链接 |
---|---|---|
训练集 (part 1 of 3) & 标签 | train_split.zip & train_split.z01 - train_split.z06 | 链接 |
训练集 (part 2 of 3) | train_split.z07 - train_split.z14 | 链接 |
训练集 (part 3 of 3) | train_split.z15 - train_split.z19 | 链接 |
开发集 | dev_split.zip & dev_split.z01 - dev_split.z02 | 链接 |
测试集 (part 1 of 2) | Codec test: C1.zip - C6.cip & ALM test: A1.zip - A3.zip | 链接 |
测试集 (part 2 of 2) | Codec unseen test: C7.zip | 链接 |
数据集许可
- CC BY-NC-ND 4.0
数据集结构
-
数据集应按照以下目录结构组织:
├── Codecfake │ ├── label │ │ └── *.txt │ ├── train │ │ └── *.wav (740,747 samples) │ ├── dev │ │ └── *.wav (92,596 samples) │ ├── test │ │ └── C1 │ │ │ └── *.wav (26,456 samples) │ │ └── C2 │ │ │ └── *.wav (26,456 samples) │ │ └── C3 │ │ │ └── *.wav (26,456 samples) │ │ └── C4 │ │ │ └── *.wav (26,456 samples) │ │ └── C5 │ │ │ └── *.wav (26,456 samples) │ │ └── C6 │ │ │ └── *.wav (26,456 samples) │ │ └── C7 │ │ │ └── *.wav (145,505 samples) │ │ └── A1 │ │ │ └── *.wav (8,902 samples) │ │ └── A2 │ │ │ └── *.wav (8,902 samples) │ │ └── A3 │ │ │ └── *.wav (99,112 samples)
使用建议
- 若需与ASVspoof2019数据集联合训练,请先从ASVspoof2019 LA Database下载相应的训练、开发和评估集。
预训练模型
- 提供了多种预训练模型,包括Vocoder-trained ADD模型、Codec-trained ADD模型和Co-trained ADD模型,具体模型文件存储于
./pretrained_model
目录下。
引用信息
-
若使用此数据集,请引用以下文献:
@article{xie2024codecfake, title={The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio}, author={Xie, Yuankun and Lu, Yi and Fu, Ruibo and Wen, Zhengqi and Wang, Zhiyong and Tao, Jianhua and Qi, Xin and Wang, Xiaopeng and Liu, Yukun and Cheng, Haonan and others}, journal={arXiv preprint arXiv:2405.04880}, year={2024} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录