TeleAntiFraud-28k

Name: TeleAntiFraud-28k
Creator: 中国移动互联网有限公司
Published: 2025-04-02 21:32:22
License: 暂无描述

arXiv2025-04-02 更新2025-04-02 收录

下载链接：

https://github.com/JimmyMa99/TeleAntiFraud

下载链接

链接失效反馈

官方服务：

资源简介：

TeleAntiFraud-28k是一个由中国人民移动互联网有限公司创建的开源音频文本慢思考数据集，专为电信欺诈检测设计。该数据集通过三种策略构建：使用自动语音识别技术生成隐私保护的文本样本，利用大型语言模型进行语义增强，以及通过多智能体对抗框架模拟新型欺诈策略。数据集包含28511个经过严格处理的语音文本对，并提供了详细的欺诈推理注释。数据集分为三种任务：场景分类、欺诈检测、欺诈类型分类，并为研究者提供了一个统一评估平台TeleAntiFraud-Bench，用于评估不同模型在电信欺诈检测任务中的性能。

TeleAntiFraud-28k is an open-source audio-text slow-thinking dataset created by China People's Mobile Internet Co., Ltd., specifically tailored for telecom fraud detection. This dataset is constructed via three strategies: 1) generating privacy-preserving text samples using automatic speech recognition (ASR) technology, 2) performing semantic enhancement with large language models (LLMs), and 3) simulating novel fraud tactics through a multi-agent adversarial framework. It comprises 28,511 rigorously processed audio-text pairs, accompanied by detailed fraud reasoning annotations. The dataset encompasses three task types: scenario classification, fraud detection, and fraud type classification, and provides researchers with a unified evaluation platform named TeleAntiFraud-Bench for evaluating the performance of various models on telecom fraud detection tasks.

提供机构：

中国移动互联网有限公司

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

在电信诈骗检测领域，高质量多模态训练数据的稀缺长期制约着研究进展。TeleAntiFraud-28k数据集通过三重创新策略构建：首先采用自动语音识别技术对匿名通话录音进行转录，结合文本转语音模型重构语音样本，确保数据隐私性与真实性；其次基于大语言模型的自指令采样机制对真实ASR输出进行语义增强，通过TTS技术扩展音频数据多样性；最后设计多智能体对抗框架，模拟预设通信场景中的新型诈骗话术。该流程最终产出28,511组经过严格处理的语音-文本对，每条数据均包含诈骗推理所需的详细标注信息。

使用方法

该数据集支持多层次的研究应用：基础层面可直接用于训练跨模态诈骗检测模型，音频与文本的平行输入使模型能同步分析语义内容与语音特征；进阶应用可聚焦慢思维标注的迁移学习，利用<think>标签内的专业推理链提升模型可解释性；评估阶段建议采用官方基准TeleAntiFraud-Bench，其按比例采样的设计能客观反映模型在真实场景下的泛化能力。开源的数据处理框架支持研究者进行自定义扩展，特别适用于模拟新型诈骗话术的对抗训练场景。

背景与挑战

背景概述

TeleAntiFraud-28k是由中国移动互联网有限公司的研究团队于2025年推出的首个开源音频-文本慢思考数据集，专注于电信诈骗检测领域。该数据集由Zhiming Ma和Peidong Wang等学者主导开发，旨在解决传统电信诈骗检测方法在音频信号处理和文本推理融合方面的不足。作为多模态反欺诈研究的基础设施，数据集包含28,511个经过严格处理的语音-文本对，涵盖场景分类、欺诈判定和欺诈类型识别三大核心任务。其创新性地采用真实通话ASR处理、基于大语言模型的模仿增强和多智能体对抗生成三种策略构建，显著提升了数据隐私保护和场景多样性。TeleAntiFraud-28k的发布填补了音频语言模型在反欺诈领域缺乏专业训练数据的空白，为智能反欺诈系统的开发提供了重要资源。

当前挑战

在领域问题层面，电信诈骗检测面临动态演变的欺诈策略与静态检测模型间的矛盾，传统ASR转换导致音频特征丢失的问题，以及跨模态信息融合的技术瓶颈。具体表现为：语音中的语调、停顿等副语言信息难以通过文本完全保留；现有模型对新型诈骗手法的泛化能力不足；多模态特征协同推理机制尚不成熟。在构建过程中，研究团队需解决三大核心挑战：隐私保护与数据效用的平衡要求对原始通话进行匿名化处理的同时保持语义完整性；场景覆盖的全面性需要通过多智能体对抗框架模拟新兴诈骗话术；标注质量的可靠性依赖慢思考机制实现专家级推理链的标准化重构。这些挑战使得数据集的构建必须兼顾技术先进性与工程可行性。

常用场景

经典使用场景

TeleAntiFraud-28k数据集在电信诈骗检测领域具有广泛的应用价值，尤其在多模态融合分析方面表现突出。该数据集通过整合音频信号与推理导向的文本分析，为研究者提供了丰富的训练样本，涵盖了多种诈骗场景和正常通话场景。其经典使用场景包括通信场景分类、诈骗判定和诈骗类型识别三大任务，这些任务能够全面评估模型在电信诈骗检测中的性能。

解决学术问题

TeleAntiFraud-28k数据集解决了电信诈骗检测领域中的多个关键学术问题。首先，它填补了高质量多模态训练数据的空白，通过整合音频和文本信息，克服了传统方法仅依赖文本分析的局限性。其次，数据集引入了慢思考机制，模拟了反诈骗专家的分析过程，提升了模型的推理能力和解释性。此外，数据集通过多代理对抗框架和LLM增强技术，显著扩展了诈骗场景的覆盖范围，为模型应对新兴诈骗手法提供了有力支持。

实际应用

在实际应用场景中，TeleAntiFraud-28k数据集为电信运营商和金融机构开发智能反诈骗系统提供了重要支持。基于该数据集训练的模型可以实时分析通话内容，识别潜在的诈骗行为，并及时向用户发出预警。此外，数据集中的多模态特征（如语音情感、语调变化等）可以帮助系统更准确地捕捉诈骗线索，降低误报率。这些应用显著提升了电信诈骗的检测效率，为保护用户财产安全做出了重要贡献。

数据集最近研究