africa-online-scams-advance-fee
收藏Hugging Face2026-05-13 更新2026-05-14 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-online-scams-advance-fee
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个专注于非洲地区在线诈骗和预付费诈骗(俗称419诈骗)的合成分类数据集,旨在建模源自非洲并针对非洲及全球受害者的复杂网络犯罪生态。它基于尼日利亚419诈骗的演变背景,覆盖了超过15个非洲国家的诈骗活动,包括浪漫诈骗、虚假工作机会、彩票诈骗、商业机会诈骗等多种类型,并反映了从电汇到移动支付再到加密货币的支付方式变迁。数据内容包含10,000条平衡记录(各50%诈骗和合法),每条记录有42个特征字段,涵盖诈骗者来源国、受害者特征、诈骗类型、接触渠道、支付方式、伪装身份、社会工程策略、行为标志(如假身份、有组织犯罪、钱骡使用等)、财务指标(如索要金额、总支付金额)和结果指标(如是否付款、举报、资金追回等)。核心标签`label`标识诈骗(1)或合法(0)。数据集还包括预定义的复合特征和评分(如红旗评分、欺骗评分、诈骗复杂程度评分等),支持机器学习模型训练,适用于表格分类任务、网络犯罪模式分析、受害者画像研究和网络安全威胁情报应用,数据生成参考了国际刑警组织、FBI等权威机构2023-2025年的报告。
This dataset is a synthetic classification dataset focused on online scams and advance-fee fraud (commonly known as 419 scams) in Africa, aiming to model the complex cybercrime ecosystem originating from Africa and targeting victims both within Africa and globally. It is based on the evolution of Nigerian 419 fraud, covering scam activities across over 15 African countries, including romance scams, fake job offers, lottery scams, business opportunity scams, and more, reflecting the transition in payment methods from wire transfers to mobile payments and cryptocurrencies. The data consists of 10,000 balanced records (50% scam and 50% legitimate), each with 42 feature fields covering scammer origin countries, victim characteristics (age, gender, education, diaspora status), scam types, initial contact channels, requested payment methods, impersonated identities, social engineering strategies, behavioral flags (e.g., fake identity/documents/websites, organized crime, use of money mules), financial metrics (e.g., initial amount requested, total payment amount), and outcome indicators (e.g., whether payment was made, awareness of fraud, reporting to authorities, fund recovery, scammer arrest). The core label `label` identifies scams (1) or legitimate cases (0). The dataset also includes predefined composite features and scores (e.g., red flag score, deception score, scam complexity score) to support machine learning model training, making it suitable for tabular classification tasks, cybercrime pattern analysis, victim profiling, and cybersecurity threat intelligence applications, with data generation referencing reports from authorities such as Interpol, FBI, Nigerian EFCC, South African SAPS, and Ghanas Cyber Security Authority from 2023-2025.
创建时间:
2026-05-13
原始信息汇总
数据集概述:Online Scams & Advance Fee Fraud (Africa)
该数据集属于 Africa Cyber Threat Intelligence 系列,由 electricsheepafrica 提供,专注于非洲地区的在线诈骗和预付费欺诈(419欺诈)分类任务。
基本信息
- 语言:英语
- 许可证:MIT
- 任务类型:表格分类
- 数据获取方式:合成(Synthetic)
- 数据规模:10,000 条记录,正负样本均衡(50/50)
- 合成标识:所有记录均为合成数据(
is_synthetic=1),基于真实研究数据生成
数据内容与背景
数据集建模了源自非洲或针对非洲的在线诈骗和预付费欺诈行为,涵盖 15 个以上非洲国家的诈骗模式,包括:
- 尼日利亚(Yahoo Boys):从电子邮件 419 诈骗演变为爱情诈骗、商业电子邮件欺诈和加密货币欺诈
- 加纳(Sakawa):爱情诈骗伴随精神操控、黄金/商品欺诈
- 南非:国内受害者最多,涉及工作诈骗、租赁欺诈
- 肯尼亚:针对年轻人的虚假工作机会、侨汇欺诈
- 喀麦隆/科特迪瓦:爱情诈骗、签证/移民欺诈
- 跨境诈骗:非洲诈骗者针对北美、欧洲、中东地区
- 支付方式演变:电汇 → 移动支付 → 礼品卡 → 加密货币
诈骗类型
数据集包含 15 种诈骗类型,具体如下:
| 诈骗类型 | 描述 |
|---|---|
advance_fee_419 |
经典预付费/尼日利亚王子诈骗 |
romance_scam |
通过恋爱关系进行经济剥削 |
fake_job_offer |
虚假就业机会 |
lottery_prize_scam |
虚假彩票/奖品中奖通知 |
inheritance_scam |
虚构外国亲属遗产 |
business_opportunity_scam |
虚假商业/投资提案 |
charity_scam |
欺诈性慈善募捐 |
visa_immigration_scam |
虚假签证/移民服务 |
rental_property_scam |
不存在的租赁房产欺诈 |
gold_commodity_scam |
虚假黄金/商品交易 |
fake_government_grant |
欺诈性政府补助要约 |
tech_support_scam |
虚假技术支持服务 |
covid_health_scam |
利用健康危机进行诈骗 |
scholarship_scam |
虚假奖学金机会 |
spiritual_manipulation_scam |
精神/宗教操控欺诈 |
数据特征
数据集包含 37 个基础特征,涵盖诈骗者、受害者、诈骗手法、欺诈指标和结果等多个维度:
基础特征
- 记录标识:
record_id - 诈骗者信息:
scammer_country(15个国家) - 受害者信息:
victim_region、victim_age、victim_gender、victim_education、victim_is_diaspora - 诈骗手法:
scam_type、contact_channel、payment_method、pretext_identity、social_engineering_tactic - 欺诈行为:
scammer_used_fake_identity、scammer_used_stolen_photos、scammer_used_fake_documents、scammer_used_fake_website、organised_gang、uses_money_mules - 过程指标:
grooming_duration_days、number_of_contacts、multiple_payment_requests、escalating_amounts - 财务信息:
initial_fee_requested_usd、total_amount_paid_usd、number_of_payments、promised_value_usd - 警示标志:
too_good_to_be_true、requests_secrecy、poor_grammar_spelling、refuses_video_call、inconsistent_story、threatens_if_no_payment - 结果指标:
victim_paid、victim_realised_scam、reported_to_police、reported_to_platform、money_recovered、scammer_arrested、scammer_account_frozen - 标签:
label(1=诈骗,0=合法) - 合成标识:
is_synthetic(始终为1)
衍生特征
数据集还提取了多组衍生特征,用于更深层次分析:
- 警示分数:
red_flag_score、high_red_flags、classic_419_indicators - 诈骗者复杂程度:
deception_score、high_deception、professional_scam - 操作类型:
organised_operation、aggressive_scam - 接触时长:
no_grooming、long_grooming、very_long_grooming - 财务影响:
any_payment、small_loss、large_loss、massive_loss - 财务模式:
promise_ratio、loss_ratio、multiple_payments - 受害者画像:
elderly_victim、young_victim、diaspora_victim - 结果类型:
any_report、any_recovery、any_enforcement - 诈骗类型独热编码:
type_419、type_romance、type_fake_job等 - 联系渠道:
channel_email、channel_social_media、channel_dating等 - 支付风险:
payment_irreversible、payment_wire、payment_mobile_money - 社会工程手法:
se_urgency、se_emotional、se_authority、se_spiritual - 受害者区域:
victim_domestic、victim_international、victim_north_america - 诈骗者来源:
scammer_west_africa、scammer_east_africa等 - 综合评分:
scam_sophistication_score、victim_loss_score、enforcement_score
数据来源
数据集基于以下权威研究资料构建:
- INTERPOL Africa Cyberthreat Assessment 2024/2025
- FBI IC3 2024 Annual Report — 419/advance fee statistics
- EFCC Nigeria — Internet fraud prosecution data 2023-2025
- South Africa SAPS — Online scam statistics 2024
- Ghana Cyber Security Authority — Romance & advance fee reports 2024
- Verizon DBIR 2024 — Social engineering (Africa filter)
- UNODC — West African cybercrime ecosystem report 2024
- Microsoft Digital Crimes Unit — Africa scam infrastructure 2024
使用方式
python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-online-scams-advance-fee")
引用格式
bibtex @misc{electricsheepafrica2026onlinescams, title = {Online Scams & Advance Fee Fraud (Africa)}, author = {Electric Sheep Africa}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/electricsheepafrica/africa-online-scams-advance-fee}} }
搜集汇总
数据集介绍

构建方式
该数据集隶属于非洲网络威胁情报系列,由电羊非洲团队基于真实世界的前沿研究数据,通过合成技术精心构建而成。其构建过程深度整合了国际刑警组织、美国联邦调查局、尼日利亚经济金融犯罪委员会等多方权威报告,将尼日利亚‘419’诈骗、加纳‘萨卡瓦’爱情骗局、南非就业欺诈等15个非洲国家的典型网络犯罪模式进行结构化建模,最终生成了包含10,000条记录的均衡数据集正负样本各半,且每条记录均标注为合成数据,兼具真实性与隐私保护特性。
特点
数据集的核心亮点在于其多维度的精细特征设计,覆盖了从欺诈类型、接触渠道、付款方式到社会工程策略的完整攻击链。特别值得注意的是,数据不仅囊括了经典预付费诈骗、爱情骗局等15种欺诈类别,还创新性地引入了红旗评分、欺骗性评分、组织化运作评分等复合指标,以及受害者年龄、教育程度、是否为侨民社群等人口统计学维度。此外,数据集还包含了受害者是否察觉被骗、是否报警、资金是否追回等结果性变量,为研究欺诈行为的全生命周期提供了前所未有的颗粒度。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,使用代码dataset = load_dataset('electricsheepafrica/africa-online-scams-advance-fee')即可快速获取。该数据集预置了丰富的衍生特征,如金融影响评分、受害者画像标签、执法结果标识等,可直接用于构建分类模型或欺诈检测系统。建议学者们将其作为训练集,结合原始特征与高维衍生变量进行实验,也可将其与真实世界数据混合以增强模型的泛化能力。所有记录均为合成数据,规避了隐私伦理风险,适合公开分享与学术发表。
背景与挑战
背景概述
随着非洲大陆数字化转型的加速,网络诈骗犯罪呈现出愈演愈烈的态势,尤其是以尼日利亚“419诈骗”为代表的预付费欺诈,已成为全球网络安全领域关注的焦点。美国联邦调查局互联网犯罪投诉中心、国际刑警组织等权威机构的报告显示,非洲网络诈骗已从早期的电子邮件骗局演变为涵盖浪漫诈骗、商业邮件入侵、加密货币欺诈等多元化模式,且作案手法日益专业化。在此背景下,由Electric Sheep Africa团队于2026年创建的africa-online-scams-advance-fee数据集应运而生。该数据集基于真实研究数据合成了10,000条平衡样本,系统性地刻画了来自15个非洲国家的诈骗者特征、受害者画像、作案渠道及资金流向,为网络安全领域的机器学习分类任务提供了亟需的非洲特定威胁情报资源。数据集不仅涵盖了从经典预付费诈骗到精神操纵欺诈等15种诈骗类型,还整合了国际刑警组织、南非警察局、联合国毒品和犯罪问题办公室等多家权威机构的最新数据,对推动非洲网络犯罪研究的定量化、智能化具有里程碑意义。
当前挑战
该数据集所解决的领域问题面临多重挑战。首先,网络诈骗分类任务具有高度的复杂性与隐蔽性,诈骗者常利用社会工程学手段伪装身份、伪造文件、控制多平台账号,使得传统基于规则或签名的检测方法难以有效泛化;同时,非洲地区诈骗手段的地域化差异显著,如加纳的“萨卡瓦”骗局融合了灵性操纵元素,而肯尼亚的诈骗则针对年轻群体的求职需求,这种多样性对分类模型的鲁棒性提出了严苛要求。其次,在数据集构建过程中,面临着真实性标注缺乏与隐私保护的矛盾——真实诈骗记录往往涉及受害者隐私、执法调查保密性等限制,导致可直接获取的原始数据极为稀缺。为此,研究团队不得不采用合成数据技术,依赖权威研究报告中的统计分布与专家知识生成样本,但这又引入了数据分布与真实场景之间潜在的系统偏差。此外,跨地区、跨渠道的诈骗模式持续演变,数据集需平衡时效性与样本代表性,避免因数据滞后而导致模型失效。
常用场景
经典使用场景
在网络安全与数字犯罪研究领域,非洲在线预付费欺诈与高级诈骗数据集为机器学习模型提供了结构化的分类基准。其经典使用场景体现于二分类任务:基于32项多维特征,甄别通信记录是否为诈骗行为。数据集涵盖了从经典“尼日利亚王子”邮件欺诈到浪漫骗局、虚假工作机会等15种诈骗类型,支持研究者构建欺诈检测与预警系统。通过平衡的正负样本(50/50)与丰富的标签体系,该数据集成为评估分类模型在复杂社会工程攻击场景下泛化能力的标准测试床。
衍生相关工作
该数据集催生了多项具有影响力的衍生研究工作。研究者基于其诈骗类型标注首次构建了非洲诈骗行为的时空演化图谱,揭示了从西非沿海向内陆扩散的犯罪地理模式。在方法论层面,它启发了可解释性诈骗检测框架的设计,通过红旗评分(red_flag_score)与欺诈成熟度指标实现模型决策的可视化归因。此外,该数据集成为跨文化社会工程攻击对比研究的基准,衍生了针对非洲侨民群体(diaspora victim)脆弱性的专题分析工作,以及融合执法反馈指标(enforcement_score)的闭环反诈骗决策系统原型。
数据集最近研究
最新研究方向
该数据集聚焦于非洲网络诈骗与预付费欺诈(419骗局)的前沿研究,其设计根植于当前网络安全领域的热点关切——非洲诈骗生态的持续演化与跨国犯罪网络的复杂化。研究动向涵盖从经典尼日利亚王子邮件到当代社交工程、加密货币欺诈及跨境资金洗钱的转型,尤其强调多国诈骗模式(如加纳Sakawa中的精神操纵、南非的就业诈骗)的异构性与结构化威胁情报生成。通过构建10,000条平衡合成样本,并融入INTERPOL、FBI IC3及各国执法机构的真实数据源,数据集为训练可泛化的诈骗检测模型、剖析欺诈手法(如身份冒用、伪造文件、情感诱骗)及量化受害者画像(年龄、教育、侨民状态)提供了稀缺基准。其意义不仅在于填补非洲网络威胁情报的空白,更推动了从被动响应向主动预测的范式转变,助力全球打击数字欺诈的协同防御体系。
以上内容由遇见数据集搜集并总结生成



