HAD

arXiv2023-12-16 更新2024-07-30 收录

下载链接：

https://zenodo.org/records/10377492

下载链接

链接失效反馈

官方服务：

资源简介：

HAD数据集涉及在语音中仅改变几个单词，这些单词的音频使用最新的语音合成技术生成。该数据集不仅用于检测虚假语音，还能定位语音中的操纵区域。

The HAD Dataset involves modifying only a few words in speech, with the audio of these modified words generated using state-of-the-art speech synthesis technologies. This dataset is not only utilized for fake speech detection, but also capable of locating the manipulated regions within the speech.

创建时间：

2021-04-08

搜集汇总

数据集介绍

构建方式

在语音合成技术快速发展的背景下，HAD数据集的构建旨在填补部分伪造音频检测领域的空白。该数据集以AISHELL-3多说话人普通话语料库为基础，通过精心设计的编辑策略生成部分伪造音频。具体构建过程包含三个核心步骤：首先对真实语音的文本内容进行编辑，主要采用随机替换命名实体或态度词反义词的策略；随后利用基于全局风格令牌Tacotron和LPCNet声码器的先进语音合成技术，生成对应编辑文本的完整合成音频；最后通过强制对齐技术定位关键词时间戳，将合成音频中的对应片段精准替换到原始真实音频中，形成仅包含少量伪造词段的半真音频。

使用方法

该数据集主要用于推动伪造音频检测与媒体取证领域的研究，特别侧重于部分伪造音频的检测与定位。研究者可利用其进行语句级和片段级的两类任务评估：语句级任务通过等错误率（EER）指标评估模型对整个音频真伪的二元分类性能；片段级任务则通过精确率、召回率和F1分数来评估模型对音频中伪造区域的定位能力。数据集已划分标准的训练集、开发集和测试集（包括未见测试集），并提供了基于高斯混合模型和轻量级卷积神经网络的基准实验结果，为后续研究提供了可靠的性能对比基线。

背景与挑战

背景概述

随着深度学习技术的飞速发展，语音合成技术已能生成高度逼真的人声，这为音频伪造检测领域带来了严峻挑战。在此背景下，中国科学院自动化研究所模式识别国家重点实验室的研究团队于2023年推出了HAD（Half-Truth Audio Detection）数据集，旨在解决以往数据集中被忽视的部分伪造音频检测问题。该数据集的核心研究聚焦于识别隐藏在真实语音中的微小伪造片段，此类攻击通过替换语句中的少数词汇实现，极大增加了检测难度。HAD数据集的构建基于AISHELL-3语料库，采用最新的语音合成技术生成伪造音频，不仅支持整句真伪判断，还提供了伪造片段的定位功能，为音频取证和媒体安全研究提供了重要的实验平台。

当前挑战

HAD数据集致力于应对部分伪造音频检测这一新兴领域问题，其核心挑战在于如何从整体语音中精准识别并定位微小的伪造片段，这些片段往往仅涉及少数词汇的替换，与上下文高度融合，使得传统针对完全伪造音频的检测方法效能显著下降。在数据构建过程中，研究团队面临多重技术难题：首先，需设计合理的文本编辑策略，通过替换命名实体或反义词以改变语义，确保伪造片段的自然性与隐蔽性；其次，利用端到端语音合成模型生成高质量伪造音频时，需保持与原始语音在音色、韵律上的一致性；此外，通过强制对齐技术精确标注伪造片段的时间戳，并确保数据集的多样性与平衡性，涵盖不同口音与未见过的合成模型，以评估检测系统的泛化能力。

常用场景

经典使用场景

在语音合成技术迅猛发展的背景下，HAD数据集为半真音频检测研究提供了关键支持。该数据集最经典的使用场景是评估和优化针对部分伪造音频的检测与定位算法，其中伪造片段仅涉及语音中少数词语的替换。研究者利用HAD的标注信息，能够训练模型在完整语音流中精准识别并定位被篡改的音频区域，从而应对日益隐蔽的音频伪造攻击。

解决学术问题

HAD数据集主要解决了音频伪造检测领域中被忽视的部分伪造场景问题。传统数据集多关注完全伪造的语音检测，而HAD引入了半真音频的挑战，即真实语音中嵌入小型伪造片段。这推动了学术界开发更精细的检测方法，不仅要求判断整体音频的真伪，还需定位篡改区域，提升了检测任务的复杂性与实用性，为媒体取证和安全研究提供了新的评估基准。

实际应用

在实际应用中，HAD数据集可服务于媒体内容真实性验证、司法语音证据分析以及社交媒体虚假信息防范等领域。例如，在新闻广播或政治演讲中，攻击者可能通过替换关键词语篡改原意，HAD支持的检测技术能够帮助平台或机构快速识别此类篡改，维护信息环境的可信度与公共安全。

数据集最近研究