Urdu Deepfake Audio Dataset

github2024-06-05 更新2024-06-25 收录

下载链接：

https://github.com/CSALT-LUMS/urdu-deepfake-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于构建和评估一个专门的乌尔都语深度伪造音频数据集，用于训练深度伪造检测模型。数据集包括两种欺骗攻击——Tacotron和VITS TTS，以及用于比较的真实音频样本。数据集的构建确保了音素的覆盖和平衡。

This dataset focuses on constructing and evaluating a dedicated Urdu deepfake audio dataset for training deepfake detection models. It includes two types of spoofing attacks—Tacotron and VITS TTS—as well as genuine audio samples for comparison. The construction of this dataset ensures comprehensive and balanced coverage of phonemes.

创建时间：

2024-06-03

原始信息汇总

Urdu Deepfake Audio Dataset

概述

该数据集是针对乌尔都语的深度伪造音频数据集，由ACL 2024论文《Deepfake Defense: Constructing and Evaluating a Specialized Urdu Deepfake Audio Dataset》引入。数据集专注于两种欺骗攻击——Tacotron和VITS TTS，并包含真实的音频样本进行比较。数据集的构建确保了音素覆盖和平衡，适合用于训练乌尔都语的深度伪造检测模型。

数据集统计

数据集包含以下四个部分：

Bonafide Part 1
Bonafide Part 2
Tacotron
VITS TTS

各部分的统计数据如下：

指标	Bonafide Part 1	Bonafide Part 2	Tacotron	VITS TTS
总时长（分钟）	1,302.66	1,271.65	1,061.96	1,340.79
最大样本时长（分钟）	112.42	120.75	80.34	111.01
最小样本时长（分钟）	61.73	56.45	44.64	65.53
平均样本时长（分钟）	76.63	74.80	62.47	78.87
每个说话人的文件数	708个音频文件	495个音频文件	495个音频文件	495个音频文件

结构

数据集按文件夹组织，每个文件夹包含相应部分的音频文件。文件夹名称根据其部分命名（例如，Bonafide_Part1、Tacotron等）。

使用

数据集可通过以下链接在Huggingface上获取：

Huggingface Dataset: https://huggingface.co/datasets/CSALT/deepfake_detection_dataset_urdu

引用

@inproceedings{sheza-etal-2024-deepfake, title = "Deepfake Defense: Constructing and Evaluating a Specialized Urdu Deepfake Audio Dataset", author = "Sheza Munir, Wassay Sajjad, Mukeet Raza, Emaan Mujahid Abbas, Abdul Hameed Azeemi, Ihsan Ayyub Qazi, and Agha Ali Raza", booktitle = "Findings of the Association for Computational Linguistics: ACL 2024", year = "2024", publisher = "Association for Computational Linguistics", }

法律

数据集在HuggingFace和Google Drive上托管的数据采用CC BY-NC 4.0许可证。

搜集汇总

数据集介绍

构建方式

在构建乌尔都语深度伪造音频数据集时，研究团队精心设计了数据集的结构，确保涵盖了两种主要的伪造攻击方式——Tacotron和VITS TTS，并同时包含了真实的音频样本以供对比。数据集的构建过程中，特别注重了音素的覆盖和平衡，以确保数据集能够有效地用于训练乌尔都语深度伪造检测模型。

特点

该数据集的显著特点在于其针对乌尔都语的深度伪造音频进行了专门设计，包含了两种常见的伪造技术Tacotron和VITS TTS，以及相应的真实音频样本。数据集的统计数据显示了其广泛的覆盖范围和均衡的样本分布，使得该数据集在训练和评估深度伪造检测模型时具有高度的实用性和可靠性。

使用方法

使用该数据集时，用户可以通过Huggingface平台访问，数据集被组织成多个文件夹，每个文件夹对应不同的部分，如‘Bonafide_Part1’、‘Tacotron’等。每个文件夹内包含相应的音频文件，用户可以根据需要选择和使用这些数据。此外，数据集的使用遵循CC BY-NC 4.0许可协议，确保了数据的合法使用和共享。

背景与挑战

背景概述

近年来，深度伪造技术迅速发展，对语音和音频领域的真实性构成了严重威胁。在此背景下，Urdu Deepfake Audio Dataset于2024年由Sheza Munir等研究人员在ACL会议上提出，旨在为乌尔都语的深度伪造音频检测提供一个专门的数据集。该数据集聚焦于两种常见的伪造攻击方法——Tacotron和VITS TTS，并包含了真实的音频样本以供对比。通过确保音素覆盖和平衡，该数据集为训练乌尔都语深度伪造检测模型提供了坚实的基础，对提升语音识别系统的安全性具有重要意义。

当前挑战

构建Urdu Deepfake Audio Dataset面临的主要挑战包括：首先，确保数据集中音素的全面覆盖和平衡，以避免模型训练中的偏差；其次，处理和生成高质量的伪造音频样本，以模拟真实世界的攻击场景；最后，确保数据集的多样性和代表性，以应对不断变化的伪造技术。此外，数据集的构建还需考虑隐私和伦理问题，确保所有音频样本的合法性和道德性。这些挑战共同构成了该数据集在实际应用中的主要障碍。

常用场景

经典使用场景

在语音合成与深度伪造检测领域，Urdu Deepfake Audio Dataset 被广泛用于训练和评估针对乌尔都语的深度伪造音频检测模型。该数据集特别关注两种常见的伪造攻击方法——Tacotron 和 VITS TTS，并包含了真实的音频样本以供对比。通过确保音素覆盖和平衡，该数据集为研究人员提供了一个理想的平台，用于开发和验证能够有效识别乌尔都语深度伪造音频的算法。

实际应用

在实际应用中，Urdu Deepfake Audio Dataset 为乌尔都语社区提供了强大的工具，用于检测和防范深度伪造音频的滥用。例如，在新闻媒体、司法鉴定和社交媒体等领域，该数据集训练出的模型可以有效识别和过滤伪造音频，确保信息的真实性和可靠性。此外，该数据集还支持开发语音识别和合成技术，进一步提升了乌尔都语语音处理的应用水平。

衍生相关工作

基于 Urdu Deepfake Audio Dataset，许多相关研究工作得以展开。例如，有研究者利用该数据集开发了新的深度学习模型，显著提升了乌尔都语深度伪造音频的检测准确率。此外，该数据集还激发了跨语言深度伪造检测的研究，推动了多语言环境下深度伪造检测技术的统一和标准化。这些衍生工作不仅丰富了学术研究，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集