Codecfake Dataset|深度伪造音频检测数据集|机器学习数据集

github2024-05-16 更新2024-05-31 收录

深度伪造音频检测

机器学习

下载链接：

https://github.com/xieyuankun/Codecfake

下载链接

链接失效反馈

资源简介：

Codecfake数据集及其针对深度伪造音频的普遍检测的反制措施。该数据集由于平台对zenodo仓库大小的限制，被分为多个子集，包括训练集、开发集和测试集等。

The Codecfake dataset and its countermeasures for the universal detection of deepfake audio. Due to platform size limitations on the Zenodo repository, this dataset is divided into multiple subsets, including training sets, development sets, and test sets.

创建时间：

2024-05-08

原始信息汇总

数据集概述

数据集名称

Codecfake Dataset

数据集描述

Codecfake Dataset 是一个用于深度伪造音频普遍检测的数据集，由多个子集组成，包括训练集、开发集和测试集。

数据集子集

子集名称	描述	链接
训练集 (part 1 of 3) & 标签	train_split.zip & train_split.z01 - train_split.z06	链接
训练集 (part 2 of 3)	train_split.z07 - train_split.z14	链接
训练集 (part 3 of 3)	train_split.z15 - train_split.z19	链接
开发集	dev_split.zip & dev_split.z01 - dev_split.z02	链接
测试集 (part 1 of 2)	Codec test: C1.zip - C6.cip & ALM test: A1.zip - A3.zip	链接
测试集 (part 2 of 2)	Codec unseen test: C7.zip	链接

数据集许可

CC BY-NC-ND 4.0

数据集结构

数据集应按照以下目录结构组织：

├── Codecfake │ ├── label │ │ └── *.txt │ ├── train │ │ └── *.wav (740,747 samples) │ ├── dev │ │ └── *.wav (92,596 samples) │ ├── test │ │ └── C1 │ │ │ └── *.wav (26,456 samples) │ │ └── C2 │ │ │ └── *.wav (26,456 samples) │ │ └── C3 │ │ │ └── *.wav (26,456 samples) │ │ └── C4 │ │ │ └── *.wav (26,456 samples) │ │ └── C5 │ │ │ └── *.wav (26,456 samples) │ │ └── C6 │ │ │ └── *.wav (26,456 samples) │ │ └── C7 │ │ │ └── *.wav (145,505 samples) │ │ └── A1 │ │ │ └── *.wav (8,902 samples） │ │ └── A2 │ │ │ └── *.wav (8,902 samples） │ │ └── A3 │ │ │ └── *.wav (99,112 samples）

使用建议

若需与ASVspoof2019数据集联合训练，请先从ASVspoof2019 LA Database下载相应的训练、开发和评估集。

预训练模型

提供了多种预训练模型，包括Vocoder-trained ADD模型、Codec-trained ADD模型和Co-trained ADD模型，具体模型文件存储于./pretrained_model目录下。

引用信息

若使用此数据集，请引用以下文献：

@article{xie2024codecfake, title={The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio}, author={Xie, Yuankun and Lu, Yi and Fu, Ruibo and Wen, Zhengqi and Wang, Zhiyong and Tao, Jianhua and Qi, Xin and Wang, Xiaopeng and Liu, Yukun and Cheng, Haonan and others}, journal={arXiv preprint arXiv:2405.04880}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

在构建Codecfake数据集时，研究者们精心设计了数据的分段存储与管理策略。由于数据量庞大，数据集被分割为多个子集，包括训练集、开发集和测试集，每个子集又进一步细分为多个部分，以适应存储平台的限制。这种分段存储方式不仅确保了数据的高效管理，还为后续的模型训练和评估提供了灵活性。此外，数据集的标签信息与音频文件分离存储，确保了数据集的结构清晰且易于访问。

特点

Codecfake数据集的显著特点在于其针对深度伪造音频的检测而设计，涵盖了多种音频处理技术，包括Codec和ALM。数据集不仅包含了大量的真实音频样本，还生成了多种伪造音频，以模拟实际应用中的各种伪造场景。此外，数据集的多样性和规模使其成为研究深度伪造音频检测技术的理想选择。通过提供详细的标签信息和预处理脚本，Codecfake数据集极大地简化了研究者的数据准备过程。

使用方法

使用Codecfake数据集时，首先需按照指定的目录结构下载并组织数据。随后，通过运行预处理脚本，提取音频特征并保存为模型可用的格式。在训练阶段，用户可以根据需求选择不同的任务进行模型训练，如针对ASVspoof2019数据集的联合训练。测试阶段，用户可利用预训练模型对不同数据集进行评估，并生成相应的检测结果。此外，数据集还提供了多种预训练模型，方便用户在不同条件下进行快速测试和验证。

背景与挑战

背景概述

在深度伪造技术日益成熟的背景下，音频伪造的检测成为一个紧迫的研究课题。Codecfake数据集由Xie等人于2024年创建，旨在为深度伪造音频的检测提供一个全面且多样化的数据资源。该数据集包含了多种音频伪造技术的样本，涵盖了从训练集到测试集的多个子集，为研究人员提供了一个标准化的评估平台。其核心研究问题是如何在不同伪造技术下实现音频的真实性检测，这对于保障信息安全和防止虚假信息的传播具有重要意义。

当前挑战

Codecfake数据集在构建过程中面临了多个挑战。首先，数据集的多样性和规模要求高，需要涵盖多种伪造技术和不同类型的音频样本，这增加了数据收集和处理的复杂性。其次，音频伪造技术的不断更新和变化，使得数据集需要持续更新以保持其前沿性和实用性。此外，数据集的标注和分类也是一个挑战，需要确保标签的准确性和一致性。最后，如何在保持数据集开放性的同时，确保数据的安全性和隐私保护，也是一个需要解决的问题。

常用场景

经典使用场景

在音频深度伪造检测领域，Codecfake数据集被广泛应用于训练和验证深度学习模型。该数据集包含了大量经过处理的音频样本，涵盖了多种伪造技术，如Codec和ALM。研究者通过使用这些数据，能够开发出高效且鲁棒的音频伪造检测算法，从而在训练集、开发集和测试集上进行全面的性能评估。

解决学术问题

Codecfake数据集解决了音频深度伪造检测中的关键学术问题，包括如何有效区分真实音频与伪造音频、如何提高检测算法的泛化能力以及如何在不同伪造技术下保持检测性能的稳定性。该数据集的引入为学术界提供了一个标准化的测试平台，推动了相关领域的研究进展，并为实际应用中的音频安全提供了理论支持。

衍生相关工作

基于Codecfake数据集，研究者们开展了一系列相关工作，包括但不限于改进音频特征提取方法、优化深度学习模型结构以及开发多模态融合检测技术。这些工作不仅提升了音频伪造检测的准确性和效率，还推动了相关技术的标准化和产业化进程。此外，该数据集还激发了跨学科的研究兴趣，促进了音频伪造检测技术与其他安全领域的融合与创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。