MIST (Multi-region Inpainting Speech Tampering)

Name: MIST (Multi-region Inpainting Speech Tampering)
Creator: 邮政电信技术研究院
Published: 2026-05-04 12:54:29
License: 暂无描述

arXiv2026-05-04 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/tung2308/MIST

下载链接

链接失效反馈

官方服务：

资源简介：

MIST是由越南邮政电信技术研究院构建的大规模多语言语音修复检测数据集，覆盖6种语言（含英语、越南语等），包含59.8万条语音样本。该数据集通过LLM引导的语义替换和神经语音克隆技术生成，每条语音包含1-3个独立修复的单词片段，伪造内容仅占单条语音时长的2%-7%。数据源自Multilingual LibriSpeech和LEMAS-Dataset语料库，采用严格的跨语言语音克隆与边界优化流程生成，主要应用于音频取证领域，旨在解决多区域局部语音篡改的检测与定位难题。

MIST is a large-scale multilingual speech forgery detection dataset constructed by the Vietnam Posts and Telecommunications Institute of Technology. It covers 6 languages including English, Vietnamese and others, and contains 598,000 speech samples. Generated via LLM-guided semantic replacement and neural speech cloning technologies, each speech sample includes 1 to 3 independent forged word segments, with the forged content accounting for only 2% to 7% of the total duration of a single speech clip. The dataset is sourced from the Multilingual LibriSpeech and LEMAS-Dataset corpora, and is produced through a rigorous cross-lingual speech cloning and boundary optimization pipeline. It is primarily applied in the field of audio forensics, aiming to address the challenges of detecting and localizing multi-regional partial speech tampering.

提供机构：

邮政电信技术研究院

创建时间：

2026-05-04

搜集汇总

数据集介绍

构建方式

MIST数据集基于多语言、多区域语音修补的取证需求构建而成。为确保数据真实性，研究人员从Multilingual LibriSpeech与LEMAS-Dataset两大开源语料库中选取了英语、法语、德语、意大利语、西班牙语及越南语共六种语言的原始语音。针对每条语句，首先依据词长、音长及间距约束，自动挑选1至3个待替换的目标词；随后利用Gemini 2.0 Flash大语言模型生成语义相斥的替换词；再通过CosyVoice 3.0（英语等五种语言）或ZipVoice（越南语）进行零样本语音克隆合成；最后经静音裁剪、均方根振幅匹配、余弦交叉淡入拼接等步骤将伪造片段嵌入原始波形，从而模拟出最真实的局部篡改场景。

特点

MIST数据集最显著的特点在于其开创性地支持多区域、细粒度的语音修补取证。不同于以往仅包含单一伪造区域的基准，MIST中的每条篡改语音均含有1至3个独立伪造的词级片段，且伪造内容占比仅为整句话的2%至7%，最大程度还原了真实攻击的隐蔽性与危险性。数据集中每种语言贡献约30GB音频，总计近50万条虚假语句，并附有精准的词级时间戳标注，便于定位任务训练与评估。同时，数据集的构建跨越了六种类型各异的语言，涵盖罗曼语族、日耳曼语族及声调语言越南语，迫使检测方法必须摆脱对特定语言声学线索的依赖。

使用方法

MIST数据集的使用方法聚焦于推动多区域语音局部篡改的检测与定位研究。研究者既可直接加载原始音频及对应的词级标签，用于训练或评估端到端的篡改定位模型；也可将其作为基准，结合论文提出的迭代片段分析框架ISA，无需预设伪造区域数量即可完成粗扫、候选区域合并与边界精修。此外，论文还定义了基于时间交并比的片段级F1指标SF1@τ，用于联合评估区域计数准确度与定位精度，建议搭配该指标进行模型性能的全面衡量。全部数据集、ISA代码及评估工具均已开源发布，便于社区复现与扩展。

背景与挑战

背景概述

随着神经文本转语音与语音转换技术的迅猛发展，音频深度伪造的威胁日益严峻，其中部分语音修补作为一种精细化的操纵手段尤为危险。该技术仅替换话语中少量关键词语，保留说话人身份、韵律及录音环境，却能彻底改变语义。然而，现有检测基准多聚焦于整句二分类或单一区域篡改，尚无法应对多区域、未知数量修补段的定位问题。为填补这一空白，来自越南邮电技术研究所的研究团队于近年来构建了MIST数据集，这是一个大规模多语种基准，涵盖英、法、德、意、西、越六种语言，包含近60万条话语，每条话语中嵌入1至3个独立修补的词级片段，伪造内容仅占2%至7%。该数据集借助大型语言模型驱动的语义替换与神经语音克隆生成，并提供了精确的词级时间注释，首次系统性地评估多区域局部修补检测，对音频取证领域具有里程碑式的影响力。

当前挑战

MIST数据集所面临的核心挑战源于检测与定位的高度复杂性。领域层面上，现有深度伪造检测器在整句合成语音上表现优异，但面对局部修补时，仅2%至7%的伪造比例使得分类器几乎无法捕捉到异常信号，零样本评估中伪造概率趋近于零，构成了亟需解决的开放难题。构建过程中亦遭遇多重困难：首先是多语种覆盖下的高保真语音克隆，尤其是越南语等声调语言需专用模型实现音调准确性与说话人一致性；其次是生成流程的设计，须确保替换词语在语义上合理且语法正确，同时避免相邻替换合并为单一可检测伪影；此外，音频拼接时需最小化边界伪影，通过静音修剪、均方根归一化及余弦交叉淡入等技术实现无缝过渡。这些挑战共同决定了数据集的构建与检测方法的开发均需创新性突破。

常用场景

经典使用场景

在音频取证领域，MIST数据集最经典的应用场景是评估和推动多区域语音修补检测与定位技术的发展。该数据集提供了跨越六种语言、包含1至3个独立修补片段的 utterances，为研究者提供了一个精细化的基准平台。其字级时间标注使得算法可以不仅仅判断音频真伪，更能在时间维度上精确定位多个被篡改的单词位置，从而填补了以往仅支持单区域或整句分类的研究空白。

衍生相关工作

MIST数据集的出现催生了多项相关经典工作。例如，其提出的ISA（Iterative Segment Analysis）框架为未知数量篡改区域的定位提供了一种通用范式，可适配多种骨干网络并无需额外训练参数，激发了后续基于迭代和粗到细策略的音频定位研究。此外，SF1@τ指标被广泛借鉴用于评估音频篡改定位任务的区域计数与边界精度。研究者们还将MIST作为微调骨干网络（如Wav2Vec2-AASIST）的基准，显著提升了细粒度检测性能，推动了面向部分语音修补的深度伪造检测新方向。

数据集最近研究