africa-crypto-fraud

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-crypto-fraud

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为‘Cryptocurrency & Digital Asset Fraud (Africa)’，是‘Africa Cyber Threat Intelligence’系列的一部分，专注于模拟和分析针对非洲用户的加密货币与数字资产欺诈行为。非洲是全球增长最快的加密货币市场，其高移动货币普及率、对P2P平台的依赖以及特定的银行限制创造了独特的欺诈漏洞。数据集旨在捕捉这些区域特性，涵盖了尼日利亚的P2P支付逆转欺诈、南非的大额欺诈案、肯尼亚的移动货币-加密货币桥接欺诈以及加纳的混合型诈骗等关键模式。数据集包含10,000条合成数据记录，正负样本平衡（50/50），所有记录均标记为合成数据（is_synthetic=1），但其生成基于真实的行业研究报告和数据。数据以表格形式呈现，适用于表格分类任务。核心特征包括37个字段，详细描述了每个欺诈事件的多个维度：唯一标识符（record_id）、发生国家（country）、具体的欺诈类型（fraud_type，共12种，如庞氏骗局、杀猪盘、假交易所、拉地毯骗局等）、使用的平台（platform）、涉及的加密资产（crypto_asset）、受害者招募渠道（recruitment_channel）、支付方式（payment_method）、受害者人口统计信息（年龄、性别、教育、收入等）、投资与损失详情（初始投资、总损失、承诺回报率）、欺诈持续时间（duration_days）、一系列欺诈‘危险信号’指标（如不切实际的回报、无监管许可、高压推销、阻止提现、使用假推荐、克隆网站等共19个二进制指标）、以及事件结果（资金是否追回、是否报案等）。最终的目标标签（label）为二进制，1代表欺诈，0代表合法。此外，数据集还包含一系列从原始特征中提取的复合特征，用于增强分析，例如：综合危险信号评分（red_flag_score）、欺诈可能性评分（fraud_likelihood_score）、受害者风险评分（victim_risk_score）、投资规模分类、持续时间分类、欺诈类型的一热编码、平台类型标识、区域标识（西非、东非等）以及涉及资金混币器、跨链转移等技术性可疑指标。该数据集适用于机器学习模型训练，用于加密货币欺诈检测、网络安全威胁情报分析、以及针对非洲金融科技环境的风险评估研究。

The dataset is named Cryptocurrency & Digital Asset Fraud (Africa), and is part of the Africa Cyber Threat Intelligence series, focusing on simulating and analyzing cryptocurrency and digital asset fraud targeting African users. Africa is the worlds fastest-growing cryptocurrency market, with its high mobile money penetration, reliance on P2P platforms, and specific banking restrictions creating unique fraud vulnerabilities. The dataset aims to capture these regional characteristics, covering key patterns such as P2P payment reversal fraud in Nigeria, large-scale fraud cases in South Africa, mobile money-cryptocurrency bridging fraud in Kenya, and hybrid scams in Ghana. It contains 10,000 synthetic data records, with a balanced positive/negative sample ratio (50/50). All records are labeled as synthetic (is_synthetic=1), but their generation is based on real industry research reports and data. The data is presented in tabular format and is suitable for tabular classification tasks. Core features include 37 fields that detail multiple dimensions of each fraud event: unique identifier (record_id), country of occurrence (country), specific fraud type (fraud_type, with 12 types such as Ponzi schemes, pig butchering, fake exchanges, rug pulls, etc.), platform used (platform), crypto asset involved (crypto_asset), victim recruitment channel (recruitment_channel), payment method (payment_method), victim demographic information (age, gender, education, income, etc.), investment and loss details (initial investment, total loss, promised return rate), fraud duration (duration_days), a series of fraud red flag indicators (such as unrealistic returns, lack of regulatory licenses, high-pressure sales tactics, withdrawal blocking, use of fake testimonials, cloned websites, etc., totaling 19 binary indicators), and event outcomes (whether funds were recovered, whether reported, etc.). The final target label (label) is binary, with 1 representing fraud and 0 representing legitimate. Additionally, the dataset includes a series of extracted composite features from the original features to enhance analysis, such as: comprehensive red flag score (red_flag_score), fraud likelihood score (fraud_likelihood_score), victim risk score (victim_risk_score), investment scale classification, duration classification, one-hot encoding of fraud types, platform type identifiers, regional identifiers (West Africa, East Africa, etc.), and technical suspicious indicators involving money mixers and cross-chain transfers. The dataset is suitable for machine learning model training, for cryptocurrency fraud detection, cybersecurity threat intelligence analysis, and risk assessment research in the African fintech environment.

创建时间：

2026-05-12

原始信息汇总

非洲加密货币与数字资产欺诈数据集

数据集概况

数据集名称：Cryptocurrency & Digital Asset Fraud (Africa)
所属项目：Africa Cyber Threat Intelligence（非洲网络威胁情报）
数据性质：合成数据（基于真实研究数据生成）
数据规模：10,000条记录（正负样本平衡，50/50）
语言：英语
许可证：MIT

任务类型

表格分类（tabular-classification）

地域背景

该数据集针对非洲用户的加密货币及数字资产欺诈行为建模，涵盖14个非洲国家。非洲是全球增长最快的加密货币市场，主要特点包括：

尼日利亚：P2P支付逆转欺诈、庞氏骗局、虚假交易所
南非：单次损失最大（Africrypt 36亿美元、Mirror Trading 5.88亿美元）
肯尼亚：移动货币到加密货币桥接欺诈、DeFi rug pulls
加纳：浪漫骗局与加密货币混合欺诈、WhatsApp投资群组
全非洲：社交媒体杀猪盘、虚假空投、名人冒充

欺诈类型（12类）

欺诈类型	描述
ponzi_scheme	金字塔/庞氏骗局，承诺不切实际的回报
pig_butchering	基于长期关系的投资欺诈
fake_exchange	欺诈性加密货币交易平台
rug_pull	DeFi/代币项目融资后放弃
romance_crypto_scam	浪漫骗局引导至加密投资
p2p_payment_reversal	P2P加密购买后的银行逆转
phishing_wallet_drain	钓鱼攻击窃取钱包凭证
fake_airdrop	虚假代币空投要求连接钱包
pump_and_dump	协调性代币价格操纵
sim_swap_wallet_theft	SIM卡交换侵入加密交易账户
fake_mining_scheme	虚构的云挖矿操作
nft_scam	虚假或无价值的NFT欺诈

数据特征（46列）

基础信息

特征	类型	描述
record_id	str	唯一标识符
country	str	非洲国家（14国）
fraud_type	str	欺诈类型或"none"
platform	str	使用的加密平台
crypto_asset	str	涉及的加密货币/代币
recruitment_channel	str	受害者的招募渠道
payment_method	str	使用的支付方式

受害者信息

特征	类型	描述
victim_age	int64	受害者年龄
victim_gender	str	受害者性别
victim_crypto_experience_months	int64	加密经验月数
is_first_time_investor	int64	是否为首次投资
victim_education	str	教育水平
victim_income_level	str	收入等级

欺诈行为指标

特征	类型	描述
promised_return_pct	int64	承诺回报率
initial_investment_usd	int64	初始投资金额（美元）
total_loss_usd	int64	总财务损失（美元）
duration_days	int64	欺诈持续天数
unrealistic_returns	int64	承诺回报>30%
no_regulatory_license	int64	平台无牌照
anonymous_team	int64	团队身份隐藏
pressure_to_invest	int64	高压营销
withdrawal_blocked	int64	阻止提现
fake_testimonials	int64	使用虚假成功案例
clone_website	int64	克隆合法网站
uses_celebrity_endorsement	int64	虚假名人背书
requires_recruitment	int64	需要推荐发展下线
no_whitepaper	int64	无技术白皮书
smart_contract_verified	int64	合约已验证

链上及资金追踪

特征	类型	描述
wallet_age_days	int64	诈骗者钱包存续天数
new_wallet	int64	钱包<30天
multiple_victim_wallets	int64	资金分散至多个钱包
mixer_used	int64	使用混币器
cross_chain_transfer	int64	跨链桥转移
money_recovered	int64	资金追回
reported_to_police	int64	向警方报案
reported_to_platform	int64	向平台举报
scammer_identified	int64	诈骗者身份已识别
label	int64	1=欺诈，0=合法
is_synthetic	int64	1=合成数据

衍生特征（18组）

数据集还包含从原始特征中提取的多组衍生特征，包括：

风险评分：红旗指标汇总、欺诈可能性评分、受害者脆弱性评分
分类指标：投资规模分级、期限分类、回报率分类
类型编码：欺诈类型独热编码、平台类型、招募渠道标识
区域标识：西非、东非、南部非洲、北非
技术指标：链上异常分数、资金混淆/洗钱标识

数据来源

Chainalysis 2024加密货币犯罪报告——非洲章节
INTERPOL非洲网络威胁评估2025
Luno非洲加密货币采用报告2024
KuCoin非洲加密货币报告2023
CBN/SEC尼日利亚加密货币监管报告2023-2024
南非FSCA加密资产欺诈警告2024
联合国关于非洲加密货币骗局的报告2024

搜集汇总

数据集介绍

构建方式

该数据集源自非洲网络威胁情报体系，由Electric Sheep Africa基于真实研究数据合成构建。数据采集基于Chainalysis 2024加密货币犯罪报告、INTERPOL非洲网络威胁评估2025等权威来源，并结合非洲独特金融生态进行建模。数据集包含10,000条平衡样本（正负样本各50%），覆盖尼日利亚、南非、肯尼亚等14个非洲国家，针对性地复现了P2P支付逆转、庞氏骗局、杀猪盘等11种典型欺诈模式。每条记录包含从受害者画像、交易特征到链上指标的多维字段，并通过特征工程生成了红旗评分、欺诈可能性得分等衍生变量，形成对非洲加密货币欺诈的全面模拟。

使用方法

该数据集的使用便捷且灵活，可通过HuggingFace的datasets库直接加载：from datasets import load_dataset; dataset = load_dataset("electricsheepafrica/africa-crypto-fraud")。适用于二分类任务（欺诈vs合法）以及多分类任务（预测具体欺诈类型）。依托丰富的特征体系，研究者可构建基于红旗评分的规则检测模型、利用链上异常指标进行资金流动分析，或结合受害者特征进行脆弱性评估。特别是地域标志和平台类型特征，支持针对特定国家或交易模式的精细化建模。数据集以MIT许可证发布，并建议引用相应BibTeX条目以尊重原创贡献。

背景与挑战

背景概述

随着非洲大陆成为全球加密货币增长最快的市场，尼日利亚一国的加密资产接收规模便高达567亿美元（Chainalysis 2024），该地区的数字资产交易活动日益活跃。由Electric Sheep Africa研究团队于2026年创建的africa-crypto-fraud数据集，聚焦于非洲特有的加密货币与数字资产欺诈行为，涵盖尼日利亚、南非、肯尼亚、加纳等国家的P2P支付逆转、庞氏骗局、冒充交易所、社交工程投资骗局等模式。该数据集基于真实研究数据合成的10000条平衡样本，旨在推动非洲网络安全威胁智能分析，成为构建面向新兴市场的欺诈检测系统的重要基准资源。

当前挑战

该数据集所解决的领域问题核心在于非洲加密货币市场高移动货币采用率和银行限制带来的独特欺诈风险，如P2P平台支付逆转、移动钱包与加密货币桥接漏洞等，传统欺诈检测模型难以直接应用。构建过程中面临诸多挑战：首先，真实欺诈样本稀缺且标注成本高，需依赖合成数据技术确保样本分布真实；其次，欺诈手法迭代迅速，需维持数据集的时效性和多样性；最后，跨国家的欺诈类型、平台与受害者画像差异显著，要求特征设计兼顾通用性与区域特异性，确保模型具备泛化能力。

常用场景

经典使用场景

在非洲大陆加密货币市场迅猛扩张的背景下，该数据集成为检测与分类加密货币欺诈行为的经典基准资源。研究者们通常将其用于训练和评估多类欺诈识别模型，涵盖从庞氏骗局、杀猪盘到伪造交易所、DeFi地毯拉拽等12种典型欺诈类型。数据集中包含丰富的受害者画像、交易行为特征及欺诈红旗指标，使得基于表格分类的监督学习任务能够有效区分欺诈交易与合法交易。该数据集平衡的正负样本分布（50/50）为模型性能评估提供了可靠基础，而合成数据的特性则允许研究者规避隐私风险，专注于特征工程与算法优化。

解决学术问题

长期以来，非洲加密货币市场的学术研究受限于高质量标注数据的匮乏，尤其是针对非洲特有欺诈模式（如移动货币-加密货币桥接欺诈、P2P支付撤销诈骗）的系统性分析近乎空白。该数据集填补了这一关键缺口，使学者得以量化分析不同欺诈类型的分布规律、受害者脆弱性特征以及区域差异化模式。通过引入诸如红灯积分、技术可疑度评分等衍生特征，研究者能够深入探讨欺诈行为中的可预测信号，验证经典金融欺诈理论在数字资产领域的适用性，并推动跨学科研究——例如结合行为经济学与网络犯罪学，揭示非洲高移动支付渗透率下新型欺诈的涌现机理。

实际应用

在实际应用中，该数据集为非洲金融机构、加密货币交易平台及网络安全公司提供了切实可行的欺诈防御工具。例如，银行可利用数据集训练实时交易监控系统，识别P2P支付撤销欺诈的早期信号；加密货币交易所则可基于红灯积分与受害者风险评分，自动标记高风险账户并触发二次验证。此外，非洲各国监管机构（如尼日利亚SEC、南非FSCA）可借助数据集制定更精准的投资者保护政策，例如针对高风险欺诈类型（如杀猪盘）设计定向公众教育方案。隐私保护数据合成特性还允许这些组织在不暴露真实用户信息的前提下，构建符合本地法规的欺诈检测原型。

数据集最近研究