five

Voice Phishing Dataset

收藏
arXiv2025-06-06 更新2025-06-11 收录
下载链接:
https://github.com/kufany/VP_detector_SLM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由韩国交通大学的研究团队创建,旨在用于训练和评估语音钓鱼检测模型。数据集包含真实的语音钓鱼通话记录,以及由人类专家创建的模拟语音钓鱼通话记录。此外,还包括了大量非语音钓鱼通话记录,如金融咨询、日常对话等,用于提高检测模型的鲁棒性。数据集的总条数为1377条,其中包括219条真实语音钓鱼通话记录、35条由人类专家创建的模拟语音钓鱼通话记录,以及1223条非语音钓鱼通话记录。数据集的创建旨在解决语音钓鱼诈骗问题,并通过自然语言处理技术提高检测模型的准确性和鲁棒性。

This dataset was developed by a research team from Korea University of Transportation for the purpose of training and evaluating voice phishing detection models. It comprises real voice phishing call records, as well as simulated voice phishing call records created by human experts. Additionally, it includes a large volume of non-voice phishing call records such as financial advisory calls and daily conversations, to enhance the robustness of the detection models. The total number of records in this dataset is 1377, consisting of 219 real voice phishing call records, 35 simulated voice phishing call records created by human experts, and 1223 non-voice phishing call records. This dataset was created to address the issue of voice phishing scams, and to improve the accuracy and robustness of detection models via natural language processing technologies.
提供机构:
韩国交通大学
创建时间:
2025-06-06
搜集汇总
数据集介绍
main_image_url
构建方式
在语音钓鱼检测领域,数据集的构建面临真实样本稀缺的挑战。本研究通过多源数据融合策略,构建了包含1377条转录文本的对抗性数据集。数据来源包括金融监管机构公开的219条真实语音钓鱼记录、从AI Hub等平台获取的1165条非钓鱼对话,以及人工创建的35条新型钓鱼脚本和58条易混淆的对抗样本。采用双重校验机制,由专业人员对语音转文本结果进行语义修复和隐私脱敏处理,确保数据质量与合规性。针对类别不平衡问题,通过合成过采样技术将钓鱼与非钓鱼样本比例控制在1:4.4。
特点
该数据集的核心价值体现在其对抗性测试框架的设计。通过模拟警察传唤通知、金融产品推销等7类高混淆场景,构建了具有挑战性的评估基准。数据标注采用GPT-4o生成的0-10分钓鱼可能性分数,并经过人工复核验证。独特之处在于整合了11项专家制定的钓鱼评估标准,涵盖低息贷款诱导、执法机构冒充等关键特征,这些标准通过逻辑运算符精炼为可计算的判别规则。数据块长度设计为100-2500字符的弹性区间,支持模型在不同上下文窗口下的性能测试。
使用方法
使用本数据集需遵循两阶段处理流程。第一阶段将文本按预设长度分块,输入经LoRA微调的Llama3-8B模型,获取各块的钓鱼可能性评分。第二阶段采用加权平均算法整合全局预测,公式为¯𝐴=∑(𝐴𝑖×𝐿𝑖)/∑𝐿𝑖,其中𝐴𝑖和𝐿𝑖分别表示第i块的评分和字符数。建议优先采用包含评估标准的提示模板,在500字符块长时达到94.64%的对抗测试准确率。研究人员可通过调整阈值𝜀平衡查全率与误报率,或尝试CoT思维链提示策略探索模型推理过程。数据集支持与KoBERT等传统模型的对比实验,但需注意其56.25%的对抗测试表现显著低于大模型方案。
背景与挑战
背景概述
Voice Phishing Dataset由韩国国立交通大学的JU YONG SIM和SEONG HWAN KIM于2025年创建,旨在通过微调小型语言模型(如Llama3)来检测语音钓鱼(VP)行为。语音钓鱼作为一种全球性犯罪,近年来造成了巨大的经济损失,例如美国2023年因此类诈骗损失达27亿美元。该数据集通过整合真实的VP通话记录和人工合成的VP脚本,解决了VP转录本稀缺的问题,并构建了对抗性测试数据集以评估模型的鲁棒性。其核心研究问题在于如何利用小型语言模型高效识别VP行为,同时避免使用专有大型语言模型带来的高成本和隐私风险。该数据集的发布为自然语言处理领域提供了重要的研究资源,尤其在金融犯罪预防和语音欺诈检测方面具有显著影响力。
当前挑战
Voice Phishing Dataset面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,语音钓鱼行为具有高度动态性和欺骗性,诈骗者常模仿权威机构或金融从业人员,使得模型需具备极强的上下文理解和语义推理能力才能准确识别。此外,VP行为的地域性和文化依赖性也增加了模型泛化的难度。在构建过程中,主要挑战包括:1)真实VP转录本的稀缺性,因其涉及敏感犯罪调查数据;2)对抗性数据集的构建需平衡真实性与挑战性,避免模型过拟合或欠拟合;3)数据预处理中需人工修正语音转文本的错误和不完整句子,确保数据质量;4)类别不平衡问题,正常通话样本远多于VP样本,可能导致模型偏差。这些挑战需要通过创新的数据增强技术和精细的模型设计来解决。
常用场景
经典使用场景
在语音钓鱼检测领域,Voice Phishing Dataset数据集被广泛用于训练和评估小型语言模型(SLM)的性能。该数据集通过精心设计的语音钓鱼评估标准和思维链(CoT)技术,显著提升了模型在复杂场景下的检测能力。特别是在对抗性测试数据集上的应用,展示了模型在具有挑战性条件下的鲁棒性,为语音钓鱼检测研究提供了可靠的基准。
解决学术问题
该数据集有效解决了语音钓鱼检测中数据稀缺和模型泛化能力不足的学术难题。通过合成虚拟语音钓鱼文本和构建对抗性样本,弥补了真实数据不足的缺陷。同时,研究证实将专家知识融入提示词的设计比单纯使用CoT技术更能提升小型语言模型的性能,为资源受限场景下的高效检测提供了新思路。
衍生相关工作
该数据集衍生了多个重要研究方向,包括基于Llama3-8B的知识蒸馏框架和对抗样本生成技术。韩国科学技术院团队进一步开发了融合多模态特征的检测系统,将音频特征与文本分析相结合。此外,Meta研究院利用该数据集的对抗样本改进了Llama3.1的语义理解能力,相关成果被扩展应用于金融欺诈检测和社交媒体内容审核领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作