five

africa-dark-web-data-trading

收藏
Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-dark-web-data-trading
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一个合成数据集,旨在模拟在暗网市场和地下论坛中交易的非洲相关数据。它属于“非洲网络威胁情报”系列的一部分,专门用于研究非洲地区的数据泄露和非法数据交易模式。数据集包含10,000条平衡记录(正负样本各50%),所有记录均为基于现实世界研究数据生成的合成数据。数据集内容涵盖了多种在暗网上交易的非洲数据,包括银行凭证、信用卡全信息、各国国民身份系统记录(如南非ID号、尼日利亚NIN/BVN、肯尼亚Huduma Namba、加纳GhanaCard等)、移动货币账户数据(如M-Pesa)、电子邮件密码组合、企业数据库转储、政府数据库泄露、生物特征数据、健康记录、电信用户数据等。数据特征非常丰富,包含43个字段,详细描述了每条数据列表的属性,例如数据来源国家、数据类型、出现的暗网市场、泄露源所属部门、威胁行为者类型、支付方式、记录数量、价格、数据新鲜度、是否包含个人身份信息、财务数据、生物特征数据、国民ID数据、移动货币数据等敏感信息标志。此外,还包含卖方信息(如声誉评分、交易次数)、数据已知的滥用用途(如欺诈、身份盗窃、账户接管、SIM交换、贷款欺诈),以及执法和响应情况(如列表是否被撤下、执法部门是否介入、受害者是否被告知)。数据集还包含一系列从原始特征中提取的复合特征,用于表示数据规模、定价情报、新鲜度、敏感性、非洲特异性、卖方画像、下游利用风险和执法差距等维度。该数据集适用于表格分类任务(如区分暗网交易与合法数据列表),也可用于网络安全、威胁情报分析、数据泄露研究、非洲区域网络安全风险评估以及机器学习模型在合成数据上的训练和验证。

This dataset is a synthetic dataset designed to simulate Africa-related data traded on dark web markets and underground forums. It is part of the Africa Cyber Threat Intelligence series, specifically for studying data breaches and illegal data trading patterns in the African region. The dataset contains 10,000 balanced records (50% positive and 50% negative samples), all of which are synthetic data generated based on real-world research data. The dataset covers various types of Africa-related data traded on the dark web, including bank credentials, full credit card information, national identity system records (e.g., South African ID numbers, Nigerian NIN/BVN, Kenyan Huduma Namba, Ghana Card, etc.), mobile money account data (e.g., M-Pesa), email-password combinations, corporate database dumps, government database leaks, biometric data, health records, and telecom subscriber data. The data features are very rich, containing 43 fields that detail the attributes of each data listing, such as source country, data type, dark web market involved, sector of the breach source, threat actor type, payment method, record count, price, data freshness, and flags for sensitive information like personally identifiable information, financial data, biometric data, national ID data, and mobile money data. Additionally, it includes seller information (e.g., reputation score, number of transactions), known misuse purposes of the data (e.g., fraud, identity theft, account takeover, SIM swapping, loan fraud), and law enforcement and response details (e.g., whether the listing was taken down, law enforcement involvement, victim notification). The dataset also includes a series of composite features extracted from the original features to represent dimensions such as data scale, pricing intelligence, freshness, sensitivity, Africa-specificity, seller profiling, downstream exploitation risk, and law enforcement gaps. This dataset is suitable for tabular classification tasks (e.g., distinguishing dark web transactions from legitimate data listings) and can be used for cybersecurity, threat intelligence analysis, data breach research, cybersecurity risk assessment in the African region, and training and validation of machine learning models on synthetic data.
创建时间:
2026-05-13
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由 Electric Sheep Africa 团队基于真实威胁情报研究合成构建,整合了卡巴斯基数字足迹情报、Surfshark 数据泄露统计、Privacy Affairs 暗网价格指数、国际刑警组织非洲网络威胁评估、Group-IB 高科技犯罪趋势及非洲 CERT 社区报告等多源权威信息。数据集包含10,000条均衡的二元分类记录,每条记录均标注为合成数据(is_synthetic=1),但充分反映了真实世界暗网交易模式。通过模拟非洲各国独特的数据泄露场景,如南非大范围泄露、尼日利亚BVN数据交易及肯尼亚M-Pesa账户信息倒卖,生成了涵盖19个非洲国家、15种数据类型及多个暗网市场的结构化表格数据,确保了研究数据的安全性与真实性间的平衡。
特点
数据集具备显著的区域特异性与多维度特征体系。其独特之处在于精准捕捉非洲大陆特有的暗网交易模式,包括移动货币数据(M-Pesa、Airtel Money)、国民生物识别身份系统(如南非ID号、尼日利亚NIN/BVN、肯尼亚Huduma Namba)及SIM卡交换数据等新兴威胁向量。特征工程方面,提供了从原始数据列到高阶衍生特征的完整框架,涵盖数据规模分级(如log_records、mega_breach)、定价情报(high_value_listing、free_dump)、敏感性评分、卖方信誉画像及下游利用链条(mobile_money_fraud_chain)等复合指标,同时引入了执法响应缺口评分与暗网威胁综合评分,为深度分析提供了多维视角。
使用方法
用户可通过HuggingFace Datasets库便捷加载,使用标准Python代码从'electricsheepafrica/africa-dark-web-data-trading'获取完整数据集。该数据集主要适用于非洲暗网数据交易分类任务,可直接用于训练二分类模型以区分暗网交易数据与合法数据。其丰富的特征列(40+原生特征及大量衍生特征)支持研究者开展威胁情报分析、风险评分建模、区域交易模式识别及执法效果评估等工作。数据已被预分为均衡的训练集和测试集(50/50比例),可直接用于监督学习流程,同时也可作为非洲网络安全态势感知研究的基准数据集。
背景与挑战
背景概述
在数字化转型浪潮席卷非洲大陆的背景下,地下数据交易已成为网络安全领域日益严峻的威胁。该数据集由Electric Sheep Africa于2026年创建,基于卡巴斯基数字足迹情报、隐私事务暗网价格指数以及国际刑警组织非洲网络威胁评估等多源权威研究报告,系统建模了非洲国家在暗网市场及地下论坛中活跃的数据交易活动。核心研究问题聚焦于南非、尼日利亚、肯尼亚等国的重大数据泄露事件,如Experian和TransUnion的巨量数据泄露、尼日利亚BVN信息交易及肯尼亚M-Pesa移动支付凭证的非法流通。该数据集以10,000条平衡样本涵盖15种数据类型与19个非洲国家,为网络威胁情报分析提供了首个聚焦非洲场景的结构化基准,对理解非洲地下数据经济生态具有开创性影响。
当前挑战
该数据集所应对的领域挑战在于非洲独特的数据交易生态难以被现有全球性模型捕捉。非洲移动支付数据及生物特征ID在暗网上的定价与交易模式(如BVN数据、SIM卡调换链)缺乏系统的分类框架,传统威胁情报模型难以准确识别这些区域化特征。在构建过程中,挑战体现于数据的稀缺性与敏感性:真实交易数据受法律与伦理限制无法直接采集,需依赖多来源合成生成;同时需确保合成的10,000条样本在数据标签、交易模式与地理分布上的真实性,避免引入偏差。此外,跨19个国家的国家ID系统、支付方式及市场类型(如Telegram频道、本地语言论坛)的异构性,要求在设计特征工程时平衡区域特异性与模型泛化能力,这对数据标注与威胁评分体系的设计构成显著挑战。
常用场景
经典使用场景
该数据集主要服务于网络威胁情报分析、暗网交易行为建模及非洲地区网络犯罪生态研究。研究者可借助其中包含的10,000条平衡合成样本,对南非、尼日利亚、肯尼亚等19个非洲国家的数据交易模式进行系统建模。数据集涵盖了银行凭证、移动货币账户、国家生物识别ID、医疗记录等15类核心交易数据类型,并提供了数据来源国、暗网市场、威胁行为者类型、交易价格、数据新鲜度等34项特征。经典用法包括基于暗网威胁评分与数据价值评分构建分类模型,以区分合法交易与恶意数据交易,并进一步识别高风险数据泄露事件,尤其适配针对非洲特定地域特征的网络安全研究。
解决学术问题
该数据集解决的学术问题聚焦于非洲大陆独特的暗网数据交易格局及其衍生威胁,弥补了现有网络安全数据集对非洲地区关注不足的空白。具体而言,它支持研究者探究移动货币数据(如M-Pesa、Airtel Money)、国家ID系统(如南非ID号、尼日利亚BVN与NIN、肯尼亚Huduma Namba)等非洲特有数据资产的交易机制。通过精细标注的数据利用链路——包括欺诈使用、身份盗窃、SIM卡交换、贷款欺诈等下游犯罪行为——该数据集为学术界揭示了非洲暗网数据交易从市场投放到实际危害转化的全过程,推动了针对非洲网络犯罪生态的系统性量化分析与防御策略研究。
衍生相关工作
该数据集衍生了一系列具有代表性的网络安全研究工作。例如,基于其特征工程中提取的'exploitation_score'与'enforcement_gap_score'指标,有学者构建了预测数据泄露事件后续欺诈利用概率的机器学习模型。另一些工作则聚焦于暗网市场中的卖家信誉动态演化,利用seller_reputation_score、seller_transaction_count等特征分析信任机制在不同非洲国家数据交易间的差异。此外,数据集中的'africa_specific_data'与'has_mobile_money'等区域标志物,催生了专注于撒哈拉以南非洲移动货币数据交易网络分析的图论研究,以及比较南非、尼日利亚、肯尼亚三国执法响应效能的地理差异化分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作