five

TeleAntiFraud-28k|电信欺诈检测数据集|通信数据分析数据集

收藏
arXiv2025-04-02 更新2025-04-02 收录
电信欺诈检测
通信数据分析
下载链接:
https://github.com/JimmyMa99/TeleAntiFraud
下载链接
链接失效反馈
资源简介:
TeleAntiFraud-28k是一个由中国人民移动互联网有限公司创建的开源音频文本慢思考数据集,专为电信欺诈检测设计。该数据集通过三种策略构建:使用自动语音识别技术生成隐私保护的文本样本,利用大型语言模型进行语义增强,以及通过多智能体对抗框架模拟新型欺诈策略。数据集包含28511个经过严格处理的语音文本对,并提供了详细的欺诈推理注释。数据集分为三种任务:场景分类、欺诈检测、欺诈类型分类,并为研究者提供了一个统一评估平台TeleAntiFraud-Bench,用于评估不同模型在电信欺诈检测任务中的性能。
提供机构:
中国移动互联网有限公司
创建时间:
2025-03-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
在电信诈骗检测领域,高质量多模态训练数据的稀缺长期制约着研究进展。TeleAntiFraud-28k数据集通过三重创新策略构建:首先采用自动语音识别技术对匿名通话录音进行转录,结合文本转语音模型重构语音样本,确保数据隐私性与真实性;其次基于大语言模型的自指令采样机制对真实ASR输出进行语义增强,通过TTS技术扩展音频数据多样性;最后设计多智能体对抗框架,模拟预设通信场景中的新型诈骗话术。该流程最终产出28,511组经过严格处理的语音-文本对,每条数据均包含诈骗推理所需的详细标注信息。
使用方法
该数据集支持多层次的研究应用:基础层面可直接用于训练跨模态诈骗检测模型,音频与文本的平行输入使模型能同步分析语义内容与语音特征;进阶应用可聚焦慢思维标注的迁移学习,利用<think>标签内的专业推理链提升模型可解释性;评估阶段建议采用官方基准TeleAntiFraud-Bench,其按比例采样的设计能客观反映模型在真实场景下的泛化能力。开源的数据处理框架支持研究者进行自定义扩展,特别适用于模拟新型诈骗话术的对抗训练场景。
背景与挑战
背景概述
TeleAntiFraud-28k是由中国移动互联网有限公司的研究团队于2025年推出的首个开源音频-文本慢思考数据集,专注于电信诈骗检测领域。该数据集由Zhiming Ma和Peidong Wang等学者主导开发,旨在解决传统电信诈骗检测方法在音频信号处理和文本推理融合方面的不足。作为多模态反欺诈研究的基础设施,数据集包含28,511个经过严格处理的语音-文本对,涵盖场景分类、欺诈判定和欺诈类型识别三大核心任务。其创新性地采用真实通话ASR处理、基于大语言模型的模仿增强和多智能体对抗生成三种策略构建,显著提升了数据隐私保护和场景多样性。TeleAntiFraud-28k的发布填补了音频语言模型在反欺诈领域缺乏专业训练数据的空白,为智能反欺诈系统的开发提供了重要资源。
当前挑战
在领域问题层面,电信诈骗检测面临动态演变的欺诈策略与静态检测模型间的矛盾,传统ASR转换导致音频特征丢失的问题,以及跨模态信息融合的技术瓶颈。具体表现为:语音中的语调、停顿等副语言信息难以通过文本完全保留;现有模型对新型诈骗手法的泛化能力不足;多模态特征协同推理机制尚不成熟。在构建过程中,研究团队需解决三大核心挑战:隐私保护与数据效用的平衡要求对原始通话进行匿名化处理的同时保持语义完整性;场景覆盖的全面性需要通过多智能体对抗框架模拟新兴诈骗话术;标注质量的可靠性依赖慢思考机制实现专家级推理链的标准化重构。这些挑战使得数据集的构建必须兼顾技术先进性与工程可行性。
常用场景
经典使用场景
TeleAntiFraud-28k数据集在电信诈骗检测领域具有广泛的应用价值,尤其在多模态融合分析方面表现突出。该数据集通过整合音频信号与推理导向的文本分析,为研究者提供了丰富的训练样本,涵盖了多种诈骗场景和正常通话场景。其经典使用场景包括通信场景分类、诈骗判定和诈骗类型识别三大任务,这些任务能够全面评估模型在电信诈骗检测中的性能。
解决学术问题
TeleAntiFraud-28k数据集解决了电信诈骗检测领域中的多个关键学术问题。首先,它填补了高质量多模态训练数据的空白,通过整合音频和文本信息,克服了传统方法仅依赖文本分析的局限性。其次,数据集引入了慢思考机制,模拟了反诈骗专家的分析过程,提升了模型的推理能力和解释性。此外,数据集通过多代理对抗框架和LLM增强技术,显著扩展了诈骗场景的覆盖范围,为模型应对新兴诈骗手法提供了有力支持。
实际应用
在实际应用场景中,TeleAntiFraud-28k数据集为电信运营商和金融机构开发智能反诈骗系统提供了重要支持。基于该数据集训练的模型可以实时分析通话内容,识别潜在的诈骗行为,并及时向用户发出预警。此外,数据集中的多模态特征(如语音情感、语调变化等)可以帮助系统更准确地捕捉诈骗线索,降低误报率。这些应用显著提升了电信诈骗的检测效率,为保护用户财产安全做出了重要贡献。
数据集最近研究
最新研究方向
在电信诈骗检测领域,TeleAntiFraud-28k数据集的最新研究方向聚焦于多模态慢思考机制的深度整合与优化。该数据集通过融合语音信号与文本分析的跨模态特征,构建了首个支持渐进式推理的音频-文本对数据库,为基于大语言模型(LLMs)和大音频语言模型(LALMs)的诈骗检测系统提供了关键训练基础。当前研究热点集中在三个维度:一是探索语音特征(如语调、停顿模式)与文本语义的协同推理机制,通过自注意力架构实现多模态特征的动态权重分配;二是开发对抗性生成框架以模拟新型诈骗话术,利用多智能体交互系统动态扩充诈骗场景覆盖范围;三是优化隐私保护技术路线,采用ASR-TTS联合匿名化方案解决真实通话数据的使用伦理问题。这些突破性进展显著提升了模型在场景分类、欺诈判定和类型识别三项核心任务中的解释性,其中经微调的AntiFraud-Qwen2Audio模型在基准测试中达到84.78%的F1值,较未优化模型提升45%。该数据集通过开源的TeleAntiFraud-Bench评估体系,正推动行业建立跨模态反欺诈研究的标准化范式。
相关研究论文
  • 1
    TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection中国移动互联网有限公司 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Set5

Set5数据集是一个包含5张图像的图像超分辨率测试数据集,包括'baby', 'bird', 'butterfly', 'head', 'woman',通常用于评估图像超分辨率模型的性能。

huggingface 收录

The Global Forest Watch (GFW)

The Global Forest Watch (GFW) 是一个全球森林监测平台,提供关于森林覆盖变化、火灾、森林砍伐和土地利用的实时数据和分析。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。

globalforestwatch.org 收录

CHFS中国家庭金融调查数据

  中国家庭金融调查(China Household Finance Survey, CHFS)是中国家庭金融调查与研究中心(以下简称“中心”)在全国范围内开展的抽样调查项目,旨在收集有关家庭金融微观层次的相关信息,主要内容包括:人口特征与就业、资产与负债、收入与消费、社会保障与保险以及主观态度等相关信息,对家庭经济、金融行为进行了全面细致刻画。  CHFS基线调查始于2011年,目前已分别在2011、2013、2015、2017和2019年成功实施五轮全国范围内的抽样调查项目,2021年第六轮调查还在进行中。CHFS最新公开的2019年第五轮调查数据,样本覆盖全国29个省(自治区、直辖市),343个区县,1360个村(居)委会,样本规模达34643户,数据具有全国及省级代表性。

CnOpenData 收录