five

TeleAntiFraud-28k

收藏
arXiv2025-04-02 更新2025-04-02 收录
下载链接:
https://github.com/JimmyMa99/TeleAntiFraud
下载链接
链接失效反馈
资源简介:
TeleAntiFraud-28k是一个由中国人民移动互联网有限公司创建的开源音频文本慢思考数据集,专为电信欺诈检测设计。该数据集通过三种策略构建:使用自动语音识别技术生成隐私保护的文本样本,利用大型语言模型进行语义增强,以及通过多智能体对抗框架模拟新型欺诈策略。数据集包含28511个经过严格处理的语音文本对,并提供了详细的欺诈推理注释。数据集分为三种任务:场景分类、欺诈检测、欺诈类型分类,并为研究者提供了一个统一评估平台TeleAntiFraud-Bench,用于评估不同模型在电信欺诈检测任务中的性能。

TeleAntiFraud-28k is an open-source audio-text slow-thinking dataset developed by China People's Mobile Internet Co., Ltd., specifically designed for telecom fraud detection. This dataset is constructed through three strategies: generating privacy-preserving text samples using Automatic Speech Recognition (ASR) technology, performing semantic enhancement with Large Language Models (LLMs), and simulating novel fraud strategies via a multi-agent adversarial framework. The dataset contains 28,511 rigorously processed audio-text pairs, along with detailed fraud reasoning annotations. It encompasses three tasks: scene classification, fraud detection, and fraud type classification, and provides researchers with a unified evaluation platform named TeleAntiFraud-Bench to evaluate the performance of various models on telecom fraud detection tasks.
提供机构:
中国移动互联网有限公司
创建时间:
2025-03-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
在电信诈骗检测领域,高质量多模态训练数据的稀缺长期制约着研究进展。TeleAntiFraud-28k数据集通过三重创新策略构建:首先采用自动语音识别技术对匿名通话录音进行转录,结合文本转语音模型重构语音样本,确保数据隐私性与真实性;其次基于大语言模型的自指令采样机制对真实ASR输出进行语义增强,通过TTS技术扩展音频数据多样性;最后设计多智能体对抗框架,模拟预设通信场景中的新型诈骗话术。该流程最终产出28,511组经过严格处理的语音-文本对,每条数据均包含诈骗推理所需的详细标注信息。
使用方法
该数据集支持多层次的研究应用:基础层面可直接用于训练跨模态诈骗检测模型,音频与文本的平行输入使模型能同步分析语义内容与语音特征;进阶应用可聚焦慢思维标注的迁移学习,利用<think>标签内的专业推理链提升模型可解释性;评估阶段建议采用官方基准TeleAntiFraud-Bench,其按比例采样的设计能客观反映模型在真实场景下的泛化能力。开源的数据处理框架支持研究者进行自定义扩展,特别适用于模拟新型诈骗话术的对抗训练场景。
背景与挑战
背景概述
TeleAntiFraud-28k是由中国移动互联网有限公司的研究团队于2025年推出的首个开源音频-文本慢思考数据集,专注于电信诈骗检测领域。该数据集由Zhiming Ma和Peidong Wang等学者主导开发,旨在解决传统电信诈骗检测方法在音频信号处理和文本推理融合方面的不足。作为多模态反欺诈研究的基础设施,数据集包含28,511个经过严格处理的语音-文本对,涵盖场景分类、欺诈判定和欺诈类型识别三大核心任务。其创新性地采用真实通话ASR处理、基于大语言模型的模仿增强和多智能体对抗生成三种策略构建,显著提升了数据隐私保护和场景多样性。TeleAntiFraud-28k的发布填补了音频语言模型在反欺诈领域缺乏专业训练数据的空白,为智能反欺诈系统的开发提供了重要资源。
当前挑战
在领域问题层面,电信诈骗检测面临动态演变的欺诈策略与静态检测模型间的矛盾,传统ASR转换导致音频特征丢失的问题,以及跨模态信息融合的技术瓶颈。具体表现为:语音中的语调、停顿等副语言信息难以通过文本完全保留;现有模型对新型诈骗手法的泛化能力不足;多模态特征协同推理机制尚不成熟。在构建过程中,研究团队需解决三大核心挑战:隐私保护与数据效用的平衡要求对原始通话进行匿名化处理的同时保持语义完整性;场景覆盖的全面性需要通过多智能体对抗框架模拟新兴诈骗话术;标注质量的可靠性依赖慢思考机制实现专家级推理链的标准化重构。这些挑战使得数据集的构建必须兼顾技术先进性与工程可行性。
常用场景
经典使用场景
TeleAntiFraud-28k数据集在电信诈骗检测领域具有广泛的应用价值,尤其在多模态融合分析方面表现突出。该数据集通过整合音频信号与推理导向的文本分析,为研究者提供了丰富的训练样本,涵盖了多种诈骗场景和正常通话场景。其经典使用场景包括通信场景分类、诈骗判定和诈骗类型识别三大任务,这些任务能够全面评估模型在电信诈骗检测中的性能。
解决学术问题
TeleAntiFraud-28k数据集解决了电信诈骗检测领域中的多个关键学术问题。首先,它填补了高质量多模态训练数据的空白,通过整合音频和文本信息,克服了传统方法仅依赖文本分析的局限性。其次,数据集引入了慢思考机制,模拟了反诈骗专家的分析过程,提升了模型的推理能力和解释性。此外,数据集通过多代理对抗框架和LLM增强技术,显著扩展了诈骗场景的覆盖范围,为模型应对新兴诈骗手法提供了有力支持。
实际应用
在实际应用场景中,TeleAntiFraud-28k数据集为电信运营商和金融机构开发智能反诈骗系统提供了重要支持。基于该数据集训练的模型可以实时分析通话内容,识别潜在的诈骗行为,并及时向用户发出预警。此外,数据集中的多模态特征(如语音情感、语调变化等)可以帮助系统更准确地捕捉诈骗线索,降低误报率。这些应用显著提升了电信诈骗的检测效率,为保护用户财产安全做出了重要贡献。
数据集最近研究
最新研究方向
在电信诈骗检测领域,TeleAntiFraud-28k数据集的最新研究方向聚焦于多模态慢思考机制的深度整合与优化。该数据集通过融合语音信号与文本分析的跨模态特征,构建了首个支持渐进式推理的音频-文本对数据库,为基于大语言模型(LLMs)和大音频语言模型(LALMs)的诈骗检测系统提供了关键训练基础。当前研究热点集中在三个维度:一是探索语音特征(如语调、停顿模式)与文本语义的协同推理机制,通过自注意力架构实现多模态特征的动态权重分配;二是开发对抗性生成框架以模拟新型诈骗话术,利用多智能体交互系统动态扩充诈骗场景覆盖范围;三是优化隐私保护技术路线,采用ASR-TTS联合匿名化方案解决真实通话数据的使用伦理问题。这些突破性进展显著提升了模型在场景分类、欺诈判定和类型识别三项核心任务中的解释性,其中经微调的AntiFraud-Qwen2Audio模型在基准测试中达到84.78%的F1值,较未优化模型提升45%。该数据集通过开源的TeleAntiFraud-Bench评估体系,正推动行业建立跨模态反欺诈研究的标准化范式。
相关研究论文
  • 1
    TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection中国移动互联网有限公司 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作