five

VoiceWukong|深度伪造语音检测数据集

收藏
arXiv2024-09-10 更新2024-09-12 收录
深度伪造语音检测
下载链接:
https://voicewukong.github.io
下载链接
链接失效反馈
资源简介:
VoiceWukong是由华中科技大学创建的一个综合性的深度伪造语音检测基准数据集,旨在评估深度伪造语音检测器的性能。该数据集包含265,200个英语和148,200个中文的深度伪造语音样本,涵盖了19种商业工具和15种开源工具生成的语音。数据集通过六种类型的操作创建了38种数据变体,旨在模拟真实世界中的语音操作。VoiceWukong的应用领域主要集中在深度伪造语音检测,旨在解决当前检测方法在实际应用中的泛化能力不足的问题。
提供机构:
华中科技大学
创建时间:
2024-09-10
原始信息汇总

VoiceWukong 数据集概述

数据集名称

  • VoiceWukong

数据集描述

  • 一个综合性的深度伪造语音检测基准。

相关链接

AI搜集汇总
数据集介绍
main_image_url
构建方式
VoiceWukong数据集的构建始于对19种先进的商业工具和15种开源工具产生的语音样本的收集。这些工具涵盖了文本到语音(TTS)和语音转换(VC)两种主要生成深度伪造语音的方法。随后,为了模拟现实世界中可能遇到的多种语音处理操作,研究人员对原始语音样本进行了六种类型的处理,包括噪声注入、音量控制、时间拉伸、采样率变化、重放和淡入淡出效果。这些处理产生了38种数据变体,为深度伪造语音检测提供了全面的评估数据集。VoiceWukong最终包含了265,200个英文和148,200个中文的深度伪造语音样本,旨在为深度伪造语音检测提供一个全面且直观的基准。
特点
VoiceWukong数据集的特点在于其全面性和多样性。该数据集涵盖了英语和中文两种最广泛使用的语言,并使用了19种先进的商业工具和15种开源模型生成的语音样本。通过六种类型的语音处理操作,数据集包含了38种数据变体,为深度伪造语音检测提供了广泛的评估场景。此外,VoiceWukong是首个广泛包含处理变体并编译了最大规模的商业生成语音样本的数据集。
使用方法
VoiceWukong数据集的使用方法包括对其中的深度伪造语音样本进行评估和检测。研究人员首先在ASVspoof2019-LA数据集上训练了12种先进的深度伪造语音检测器,并使用原始作者提供的超参数和设置重新训练了模型,以确保每个检测器的最优性能。然后,所有检测器都在VoiceWukong数据集上进行预测,以评估它们在不同语音处理操作下的性能。此外,研究人员还进行了一项大规模的用户研究,以评估深度伪造语音在不同欺骗级别上的欺骗效果,并将检测器的性能与人类判断进行了比较。
背景与挑战
背景概述
随着文本到语音(TTS)和语音转换(VC)等技术的快速发展,检测深度伪造声音变得日益重要。然而,学术界和工业界缺乏一个全面直观的基准来评估检测器的性能。现有的数据集在语言多样性和现实世界生产环境中遇到的操作方面存在局限性。为了填补这一空白,我们提出了VoiceWukong,一个旨在评估深度伪造声音检测器性能的基准。为了构建数据集,我们首先收集了由19种先进且广为人知的商业工具和15种开源工具生成的深度伪造声音。然后,我们创建了38个数据变体,涵盖了六种类型的操作,为深度伪造声音检测构建了评估数据集。VoiceWukong因此包括265,200个英语和148,200个中文深度伪造声音样本。使用VoiceWukong,我们评估了12个最先进的检测器。AASIST2实现了13.50%的最佳等错误率(EER),而其他所有检测器的EER都超过了20%。我们的发现揭示了这些检测器在现实世界应用中面临的重大挑战,性能显著下降。此外,我们还进行了超过300名参与者的用户研究。结果与12个检测器和多模型大型语言模型(MLLM),即Qwen2-Audio的性能进行了比较,其中不同检测器和人类在不同欺骗级别的深度伪造声音中表现出不同的识别能力,而LALM则完全没有检测能力。此外,我们还提供了一个深度伪造声音检测排行榜,公开可在https://voicewukong.github.io获得。
当前挑战
深度伪造声音检测的挑战包括:1)解决领域问题的挑战,例如,VoiceWukong数据集解决的领域问题是深度伪造声音检测;2)构建过程中所遇到的挑战,例如,收集不同语言和操作类型的深度伪造声音样本,以及确保数据集的真实性和可靠性。
常用场景
经典使用场景
VoiceWukong 数据集主要用于评估深度伪造语音检测器的性能。它包含了由19种高级商业工具和15种开源工具生成的深度伪造语音,并涵盖了六种类型的操作,包括噪声注入、音量控制、时间拉伸、采样率变化、重放和淡入淡出效果。这使得VoiceWukong成为一个全面的基准,用于评估深度伪造语音检测器在各种现实世界场景下的性能。
衍生相关工作
VoiceWukong 数据集的发布促进了一系列相关工作的开展。例如,研究人员使用VoiceWukong 数据集评估了多种深度伪造语音检测器的性能,并发现了一些检测器的性能在真实世界场景中有所下降。此外,VoiceWukong 数据集还促进了用户研究,以了解人类对深度伪造语音的识别能力。
数据集最近研究
最新研究方向
随着文本到语音(TTS)和语音转换(VC)技术的快速发展,检测深度伪造语音变得日益重要。VoiceWukong数据集应运而生,旨在为深度伪造语音检测提供一个全面的评估基准。该数据集涵盖了多种语言,并包含了由先进商业工具和开源模型生成的语音样本,为评估深度伪造语音检测器的性能提供了丰富的资源。通过引入多种语音操纵,VoiceWukong能够更好地模拟现实世界中的攻击场景,为研究者提供了一个更加真实和全面的评估平台。该数据集的提出填补了现有数据集在语言多样性和操纵多样性方面的不足,有助于推动深度伪造语音检测技术的发展,提高检测器的鲁棒性和实用性。
相关研究论文
  • 1
    VoiceWukong: Benchmarking Deepfake Voice Detection华中科技大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Movies Dataset

这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录