SONAR

Name: SONAR
Creator: 福特汉姆大学
Published: 2024-10-09 00:32:49
License: 暂无描述

arXiv2024-10-09 更新2024-10-09 收录

下载链接：

https://github.com/Jessegator/SONAR

下载链接

链接失效反馈

官方服务：

资源简介：

SONAR数据集由福特汉姆大学和IBM研究团队创建，旨在评估和区分最先进的AI合成音频内容。该数据集包含来自9个不同音频合成平台的合成语音，涵盖了领先的TTS服务提供商和最新的TTS模型。数据集的创建过程包括使用多个先进的TTS服务提供商和开源API生成合成语音，并从多个TTS模型中收集合成音频。SONAR数据集主要应用于AI合成音频检测领域，旨在解决AI合成音频的识别和防范问题，特别是在防止恶意用途如深度伪造、欺诈和传播虚假信息方面。

The SONAR dataset was developed by researchers from Fordham University and IBM Research, with the core objective of evaluating and differentiating state-of-the-art AI-synthesized audio content. This dataset contains synthesized speech from nine distinct audio synthesis platforms, covering leading text-to-speech (TTS) service providers and cutting-edge TTS models. The dataset construction process involves generating synthesized speech using multiple leading TTS service providers and open-source APIs, as well as collecting synthesized audio from various TTS models. The SONAR dataset is primarily applied in the field of AI-synthesized audio detection, aiming to address the issues of identifying and guarding against AI-generated audio, particularly to prevent malicious uses such as deepfakes, fraud, and the spread of disinformation.

提供机构：

福特汉姆大学

创建时间：

2024-10-06

原始信息汇总

SONAR: A Synthetic AI-Audio Detection Framework and Benchmark

数据集

该数据集包括以下几个子数据集：

数据集的目录结构应如下所示：

data ├── LJSpeech-1.1 │ ├── wavs │ ├── metadata.csv │ └── README ├── wavefake │ ├── ljspeech_full_band_melgan │ ├── ljspeech_hifiGAN │ ├── ... │ └── ljspeech_waveglow ├── LibriSeVoc │ ├── diffwave │ ├── gt │ ├── ... │ └── wavernn ├── in_the_wild │ ├── 0.wav │ ├── ... │ ├── 31778.wav │ └── meta.csv

使用示例

训练传统模型

运行 main_tm.py 文件进行训练。

参数：
- --config：不同模型的配置文件。
训练 AASIST 模型：

python main_tm.py --config ./config/AASIST.conf
评估模型（修改配置文件中的 model_path）：

python main_tm.py --config ./config/AASIST.conf --eval

微调基础模型

运行 main_fm.py 文件进行微调。

微调 Wave2Vec2BERT 模型：

python main_fm.py --model wave2vec2bert

致谢

该项目基于以下开源项目构建：

搜集汇总

数据集介绍

构建方式

SONAR数据集的构建方式独具匠心，通过整合来自9个不同音频合成平台的合成语音数据，涵盖了领先的文本到语音（TTS）服务提供商和最先进的TTS模型。这一数据集的生成过程包括使用OpenAI、xTTS和AudioGen等先进服务进行语音数据生成，以及从Seed-TTS、VALL-E、PromptTTS2、NaturalSpeech3、VoiceBox和FlashSpeech等模型中收集合成语音数据。这种多源数据的整合确保了数据集的多样性和广泛性，为评估AI合成音频检测技术提供了全面的基础。

使用方法

SONAR数据集的使用方法灵活多样，适用于多种AI合成音频检测模型的评估和比较。研究者可以通过该数据集对不同检测模型的性能进行基准测试，分析其在不同数据集上的泛化能力。此外，SONAR数据集还支持少样本微调实验，以探索在特定数据集上提升检测性能的有效性。通过这些实验，研究者可以深入了解模型在面对最新TTS技术时的表现，并为开发更鲁棒的检测算法提供有力支持。

背景与挑战

背景概述

近年来，随着文本到语音（TTS）和语音转换（VC）技术的快速发展，生成式人工智能（AI）技术已经能够生成高质量、逼真的人类语音。这一进步为区分AI合成的语音与真实人类语音带来了显著挑战，并可能引发潜在的恶意用途，如身份冒充、欺诈、传播虚假信息、深度伪造和诈骗。为了应对这些挑战，研究人员开发了SONAR数据集，这是一个合成AI音频检测框架和基准，旨在提供对最先进的AI合成听觉内容的全面评估。SONAR数据集包括来自9个不同音频合成平台的合成语音，涵盖了领先的TTS服务提供商和最先进的TTS模型。该数据集的创建旨在填补现有检测技术在跨多样数据集上的泛化能力不足的空白，并揭示基础模型在音频深度伪造检测中的强大泛化能力。

当前挑战

SONAR数据集的构建过程中面临的主要挑战包括：1) 现有检测技术在跨多样数据集上的泛化能力不足；2) 现有检测模型在不同音频特征和评估数据集上的比较复杂性；3) 缺乏对最新TTS模型进行有效性评估的综合评估。此外，尽管基础模型在泛化能力上表现出色，但在检测由最先进TTS服务提供商生成的合成音频时仍存在显著困难。这表明，随着TTS技术的快速演进，当前的音频深度伪造检测方法的有效性存在巨大差距，迫切需要开发更鲁棒和可靠的检测算法。

常用场景

经典使用场景

SONAR数据集在AI合成音频检测领域中扮演着关键角色，其经典应用场景主要集中在评估和提升现有检测模型的泛化能力。通过包含来自9个不同音频合成平台的多样化数据，SONAR数据集使得研究者能够系统地测试和比较传统与基于基础模型的深度伪造音频检测系统。这种全面的评估不仅揭示了现有检测方法的局限性，还展示了基础模型在处理复杂和多样化音频数据时的优越性。

解决学术问题

SONAR数据集解决了当前AI合成音频检测研究中的一个关键问题，即检测模型在不同数据集间的泛化能力不足。通过提供一个包含多种先进文本到语音（TTS）模型生成音频的综合基准，SONAR数据集帮助学术界识别和克服现有检测方法的局限性。这不仅推动了检测技术的进步，还为开发更具鲁棒性和适应性的检测算法提供了理论和实践基础。

实际应用

在实际应用中，SONAR数据集为开发和部署AI合成音频检测系统提供了宝贵的资源。例如，在安全通信领域，检测系统可以用于识别和过滤可能包含合成音频的通信内容，从而保护用户免受欺诈和虚假信息的侵害。此外，SONAR数据集还可以用于训练和验证个性化检测系统，这些系统能够针对特定实体或个人进行定制化检测，从而在法律和安全领域发挥重要作用。

数据集最近研究