scam-classification-multiclass
收藏Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/Shade63/scam-classification-multiclass
下载链接
链接失效反馈官方服务:
资源简介:
Scam Text Classification - Multi-Class数据集是一个用于细粒度诈骗检测的多类别文本分类数据集。该数据集是原始二元诈骗分类数据集的增强版本,将诈骗消息进一步细分为5个具体类别,以支持更精确的诈骗识别与分析。数据集包含14,000条印度语境下的短信或邮件风格文本消息,涵盖印度银行、UPI支付、Aadhaar身份系统、政府机构等特定领域。数据集中包含5个类别:legit(合法消息,如真实的银行通知、充值确认、物流更新)、government_impersonation(政府冒充诈骗,伪装成TRAI、所得税部门、CBI、禁毒局、警察、最高法院等机构)、financial_fraud(金融诈骗,包括彩票诈骗、投资骗局、加密货币欺诈、居家工作骗局、处理费诈骗)、bank_phishing(银行钓鱼诈骗,如虚假银行警报、KYC诈骗、密码重置诈骗、卡片停用诈骗)以及romance_parcel_sextortion(浪漫诈骗/包裹诈骗/性勒索,涉及浪漫骗局、海关包裹诈骗、性勒索和敲诈勒索)。数据分布为:合法消息5,600条(40.0%)、政府冒充诈骗2,905条(20.8%)、金融诈骗3,080条(22.0%)、银行钓鱼诈骗1,875条(13.4%)、浪漫包裹性勒索诈骗540条(3.9%)。数据集提供完整版本(包含id、text、label、category、category_name所有列)和清洗版本(仅含text和label两列,适用于训练)。该数据集适用于多类别文本分类任务,特别是诈骗检测、网络安全、自然语言处理等领域的研究与应用,并针对使用DistilBERT等Transformer模型进行训练提供了具体的实践建议。
The Scam Text Classification - Multi-Class dataset is a multi-category text classification dataset for fine-grained scam detection. It is an enhanced version of the original binary scam classification dataset, further subdividing scam messages into five specific categories to support more precise scam identification and analysis. The dataset contains 14,000 text messages or email-style texts in an Indian context, covering specific domains such as Indian banks, UPI payments, Aadhaar identity systems, government agencies, etc. It includes five categories: legit (legitimate messages, such as real bank notifications, recharge confirmations, logistics updates), government_impersonation (government impersonation scams, pretending to be agencies like TRAI, income tax departments, CBI, narcotics bureaus, police, Supreme Court), financial_fraud (financial fraud, including lottery scams, investment scams, cryptocurrency fraud, work-from-home scams, processing fee scams), bank_phishing (bank phishing scams, such as fake bank alerts, KYC scams, password reset scams, card deactivation scams), and romance_parcel_sextortion (romance scams/parcel scams/sextortion, involving romance scams, customs parcel scams, sextortion, and blackmail). The data distribution is: legitimate messages 5,600 (40.0%), government impersonation scams 2,905 (20.8%), financial fraud 3,080 (22.0%), bank phishing scams 1,875 (13.4%), romance parcel sextortion scams 540 (3.9%). The dataset provides a full version (including all columns: id, text, label, category, category_name) and a cleaned version (with only text and label columns, suitable for training). It is applicable to multi-category text classification tasks, especially in scam detection, cybersecurity, natural language processing research and applications, and offers specific practical recommendations for training with Transformer models like DistilBERT.
创建时间:
2026-05-12
原始信息汇总
Scam Text Classification - Multi-Class Dataset
数据集概述
该数据集是原始二元诈骗分类数据集的增强版本,将类别扩展为 5个多类类别,用于更细粒度的诈骗检测。数据集中包含印度背景的短信/邮件风格文本,涵盖印度银行、UPI、Aadhaar、政府机构等领域。
数据集结构
原始数据集
- 14,000 行 印度背景的短信/邮件风格文本
- 二元标签:0(合法)/ 1(诈骗)
- 领域特定:印度银行、UPI、Aadhaar、政府机构
多类类别详情
| 类别编号 | 类别名称 | 样本数量 | 描述 |
|---|---|---|---|
| 0 | legit(合法) |
5,600 | 真实的银行通知、充值、物流更新 |
| 1 | government_impersonation(政府冒充) |
2,905 | 伪造的 TRAI、所得税、CBI、缉毒局、警察、最高法院 |
| 2 | financial_fraud(金融诈骗) |
3,080 | 彩票、投资诈骗、加密货币欺诈、居家工作、手续费 |
| 3 | bank_phishing(银行钓鱼) |
1,875 | 虚假银行警报、KYC 诈骗、密码重置、卡停用 |
| 4 | romance_parcel_sextortion(爱情/包裹/色情敲诈) |
540 | 爱情诈骗、包裹/海关欺诈、色情敲诈、勒索 |
文件说明
sentinel_dataset_multiclass.csv— 完整数据集,包含所有列(id, text, label, category, category_name)sentinel_dataset_multiclass_clean.csv— 用于训练的干净版本(text, label)
标签分布
| 类别 | 样本数 | 占比 |
|---|---|---|
| legit(合法) | 5,600 | 40.0% |
| government_impersonation(政府冒充) | 2,905 | 20.8% |
| financial_fraud(金融诈骗) | 3,080 | 22.0% |
| bank_phishing(银行钓鱼) | 1,875 | 13.4% |
| romance_parcel_sextortion(爱情/包裹/色情敲诈) | 540 | 3.9% |
使用示例
python from datasets import load_dataset
加载完整数据集
dataset = load_dataset("Shade63/scam-classification-multiclass", split="train")
或从CSV加载
df = pd.read_csv("sentinel_dataset_multiclass_clean.csv")
训练建议
针对 DistilBERT:
- 使用
sentinel_dataset_multiclass_clean.csv进行训练 - 分割比例:80% 训练 / 10% 验证 / 10% 测试
- 使用类别权重或对类别4进行过采样以处理类别不平衡
- 预期准确率:85-92%(使用合适的超参数)
推荐超参数:
- 学习率:2e-5
- 批次大小:32
- 训练轮数:3-5
- 最大序列长度:128
- 权重衰减:0.01
许可协议
与原数据集相同。
搜集汇总
数据集介绍

构建方式
该数据集是在原始二分类诈骗短信数据集基础上扩展而来的多分类版本,原始数据包含约14,000条针对印度语境的短信与电子邮件风格文本,涵盖了银行、UPI支付、Aadhaar身份系统及政府机构等典型诈骗场景。研究人员通过精细化的类别划分,将原有二元标签(合法/诈骗)重构为五个细粒度类别,分别为合法消息、政府冒充、金融欺诈、银行钓鱼以及浪漫包裹与性勒索,从而实现了从粗粒度检测向细粒度分类的跃升。
特点
数据集在类别分布上呈现出显著的长尾特征,其中合法类别样本量达5,600条,占比40%,而浪漫包裹与性勒索类别仅含540条样本(3.9%),这种不均衡分布真实反映了现实世界诈骗类型的发生频率差异。每个类别均具有明确的语义定义和典型场景描述,例如政府冒充类别涵盖TRAI、税务、CBI等权威机构仿冒,金融欺诈包含彩票、加密货币、居家办公等骗局,为模型学习提供了丰富的语义线索。
使用方法
用户可通过HuggingFace Datasets库直接加载完整数据集或使用清理后的训练版本,推荐采用80%训练、10%验证、10%测试的分割策略。针对类别不平衡问题,建议在训练DistilBERT等预训练模型时引入类别权重或对少样本类别进行过采样。典型超参数配置包括学习率2e-5、批大小32、训练轮次3至5轮、最大序列长度128及权重衰减0.01,在此设置下预期可达到85%至92%的分类准确率。
背景与挑战
背景概述
在数字通信技术迅猛发展的当下,短信与电子邮件已成为人们日常信息交互的重要载体,然而,各类诈骗信息亦随之泛滥,严重威胁社会信任体系与个人财产安全。针对这一严峻形势,Shade63团队于近期构建了scam-classification-multiclass多类别诈骗文本分类数据集,旨在实现更为精细化的诈骗检测。该数据集是对原有二元诈骗分类数据集的显著升级,由14,000条源自印度语境的短信及邮件风格信息组成,涵盖合法通知、政府冒充、金融欺诈、银行钓鱼以及浪漫包裹敲诈等五大类别。其核心研究问题在于,通过多粒度分类提升反欺诈系统的识别能力与鲁棒性,为安全AI应用与反欺诈模型的发展提供了极具领域针对性的标注资源。该数据集的发布,对推动面向新兴经济体语境的诈骗检测研究具有重要启示与实用价值。
当前挑战
该数据集当前面临的核心挑战体现在多个维度。首先,从领域问题来看,传统二元诈骗分类模型难以捕捉诈骗行为的多样性与隐蔽性,而多类别分类任务需应对类别间高度语义重叠的难题,如政府冒充与银行钓鱼常共享类似的社会工程学话术,导致模型区分难度显著增加。其次,在数据构建过程中,非均衡分布问题尤为突出,浪漫包裹敲诈类别仅占比3.9%,样本极度稀缺,易引发模型对该类别的严重欠拟合。此外,原数据集高度依赖印度本地化语境(如UPI、Aadhaar等),导致跨地域、跨语言的泛化能力受限,且基于规则或关键词的标注策略可能错漏未见变异诈骗模式,进一步增加了模型鲁棒性与迁移学习的挑战。
常用场景
经典使用场景
在金融科技与网络安全领域,短文本欺诈检测一直是至关重要的研究课题。scam-classification-multiclass数据集专为多类别诈骗信息分类任务而设计,其覆盖了合法通知、政府冒充、金融欺诈、银行钓鱼以及情感勒索等五大细粒度类别。研究者常利用该数据集训练和评估基于Transformer的轻量级模型,如DistilBERT,以实现对短信或电子邮件内容的高效自动甄别。典型实验流程包括数据清洗、类别不平衡处理(如对少数类进行过采样)、序列长度限制为128 Token的微调,最终在验证集上达到85%至92%的准确率,从而验证模型在诈骗文本多分类上的泛化能力。
解决学术问题
该数据集直面印度语境下电信与网络诈骗文本分类中存在的细粒度不足和领域适配性差等学术痛点。通过将传统二元分类升级为五元分类体系,它解决了诈骗类型识别模糊化的问题,使模型能精准区分政府冒充、金融诈骗与银行钓鱼等高度相似的欺诈模式。这为跨类别欺诈行为分析提供了标准化的基准,推动了自然语言处理技术在社会安全监测中的精细化应用。数据集还通过开源形式和明确的类别分布统计,降低了复现和对比研究的门槛,促进了可信赖人工智能在反诈骗领域的算法迭代与性能评估。
衍生相关工作
基于scam-classification-multiclass数据集,学界已衍生出多项代表性工作。一方面,研究者利用该数据集的细粒度标签开发了类别感知的注意力机制模型,改进对样本量极少的‘情感勒索’类的识别敏感度。另一方面,该数据集被用于验证对抗性攻击下的模型鲁棒性,例如通过在诈骗文本中插入合法词汇来测试分类器的容错边界。此外,部分工作将其与印度本地语言(如印地语)的诈骗数据集联合训练,探索跨语言迁移学习对欺诈检测的提升效果。这些衍生研究不仅丰富了多类别诈骗文本分析的方法论,也为实际系统部署前的风险评估提供了可复用的实验基线。
以上内容由遇见数据集搜集并总结生成



