africa-sextortion

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-sextortion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专注于非洲背景下性勒索和网络性剥削攻击的合成数据集，旨在模拟这一快速增长的网络犯罪形式，为网络安全研究、威胁情报分析和机器学习模型开发提供数据支持。数据集基于国际刑警组织2024/2025年非洲网络威胁评估、美国联邦调查局互联网犯罪投诉中心年度报告等权威研究数据生成，反映了非洲地区特有的犯罪模式。数据集包含10,000条记录，正负样本平衡（各50%），每条记录代表一个模拟的攻击事件，包含40个特征字段，详细描述了攻击的各个方面，如国家、性勒索类型、接触平台、威胁传递渠道、支付方式、目标对象，以及受害者信息、攻击者行为、攻击过程细节、结果、报告情况和心理影响。关键字段包括label（1表示性勒索，0表示合法互动）和is_synthetic（标识数据为合成）。此外，可从原始特征中提取高级特征，用于构建攻击者画像、威胁强度等复合评分。数据集适用于表格分类任务，用于训练和评估检测性勒索攻击的机器学习模型，也可用于学术研究和政策制定参考。

This dataset is a synthetic dataset focusing on sextortion and online sexual exploitation attacks in the African context, designed to simulate this rapidly growing form of cybercrime and provide data support for cybersecurity research, threat intelligence analysis, and machine learning model development. It is generated based on authoritative research data such as Interpols 2024/2025 African Cyberthreat Assessment and the FBI Internet Crime Complaint Center Annual Report, reflecting crime patterns specific to the African region. The dataset contains 10,000 records with balanced positive and negative samples (50% each). Each record represents a simulated attack event and includes 40 feature fields detailing various aspects of the attack, such as country, sextortion type (e.g., webcam recording threats, intimate image theft, AI deepfake extortion), initial contact platform, threat delivery channel, payment demand method, target, as well as victim information, attacker behavior, attack process details, outcomes, reporting status, and psychological impact. Key fields include label (1 for sextortion, 0 for legitimate interaction) and is_synthetic (indicating synthetic data). Additionally, advanced features can be extracted from these raw features to construct composite scores for attacker profiling, threat intensity, etc. The dataset is suitable for tabular classification tasks, for training and evaluating machine learning models to detect sextortion attack patterns, and can also be used for academic research and policy-making reference in cybersecurity.

创建时间：

2026-05-13

原始信息汇总

数据集概述：Sextortion & Cyber Sexual Exploitation (Africa)

基本信息

数据集名称：Sextortion & Cyber Sexual Exploitation (Africa)
语言：英语
许可证：MIT
任务类别：表格分类
数据来源：合成数据，基于真实研究数据生成
数据规模：10,000 行，正负样本均衡（50/50）
合成标识：所有记录均为合成数据（is_synthetic=1）

数据集背景与意义

该数据集聚焦非洲地区的性敲诈与网络性剥削攻击场景。根据国际刑警组织（INTERPOL）2024/2025 非洲网络威胁评估，性敲诈是非洲大陆增长最快的网络威胁之一，有组织犯罪网络主要活跃于科特迪瓦和尼日利亚。美国联邦调查局互联网犯罪投诉中心（FBI IC3）报告显示，全球性敲诈报告数量增长超过 300%，其中非洲网络被识别为主要实施者。

数据集捕获的非洲特定模式

西非（尼日利亚、科特迪瓦）：有组织的“Yahoo Boys”网络从商业电子邮件欺诈转向性敲诈
南非：国内报告率最高；约会应用中的剥削
肯尼亚/乌干达：通过 WhatsApp 和约会应用进行的移动优先性敲诈
支付方式：移动货币（M-Pesa、MTN MoMo）、礼品卡、通话时长——非洲特有的支付方式
AI 深度伪造：利用 AI 生成亲密内容的新兴威胁
未成年受害者：整个非洲大陆日益增长的问题

性敲诈类型

类型	描述
`webcam_recording_threat`	威胁分享网络摄像头录制内容
`intimate_image_theft`	窃取亲密图片进行敲诈
`catfishing_sextortion`	使用虚假身份引诱受害者
`dating_app_sextortion`	通过约会平台进行剥削
`ai_deepfake_sextortion`	AI 生成的虚假亲密内容
`email_bluff_sextortion`	群发邮件声称拥有网络摄像头录像（虚张声势）
`social_media_hack_threat`	威胁分享被黑社交媒体内容
`revenge_porn_extortion`	前伴侣利用亲密内容进行勒索

数据来源

INTERPOL Africa Cyberthreat Assessment 2024/2025
FBI IC3 2024 Annual Report — sextortion trends
NCMEC CyberTipline Reports 2024 — Africa referrals
Europol IOCTA 2024 — West Africa sextortion networks
WeProtect Global Alliance Threat Assessment 2024
Network Against Child Abuse Africa (NACAA) 2024
South Africa SAPS Cybercrime Unit 2024

特征字段说明

原始特征

字段名	类型	描述
`record_id`	str	唯一标识符
`country`	str	非洲国家（15个国家）
`sextortion_type`	str	攻击类型或"none"
`contact_platform`	str	初次接触的平台
`threat_channel`	str	传递威胁的渠道
`payment_demand_method`	str	支付要求方式
`threat_target`	str	威胁将内容分享给谁
`victim_age`	int64	受害者年龄
`victim_gender`	str	受害者性别
`is_minor`	int64	是否为未成年人（1=是）
`victim_relationship_status`	str	受害者关系状态
`attacker_used_fake_profile`	int64	是否使用虚假身份（1=是）
`attacker_claimed_gender`	str	攻击者伪装的性别
`grooming_duration_days`	int64	培养受害者信任的天数
`multiple_victims_linked`	int64	是否涉及多个受害者（1=是）
`organised_gang`	int64	是否为有组织犯罪集团（1=是）
`explicit_images_obtained`	int64	是否获得亲密内容（1=是）
`victim_shared_voluntarily`	int64	受害者是否自愿分享（1=是）
`images_from_hack`	int64	内容是否通过黑客手段获取（1=是）
`ai_generated_content`	int64	是否使用AI深度伪造（1=是）
`screen_recorded`	int64	视频通话是否被录制（1=是）
`amount_demanded_usd`	int64	要求的金额（美元）
`repeated_demands`	int64	是否多次要求（1=是）
`escalating_threats`	int64	威胁是否升级（1=是）
`deadline_given_hours`	int64	要求的回应时限（小时）
`victim_paid`	int64	受害者是否支付（1=是）
`amount_paid_usd`	int64	实际支付金额（美元）
`victim_blocked_attacker`	int64	受害者是否拉黑攻击者（1=是）
`content_actually_shared`	int64	内容是否被实际分享（1=是）
`reported_to_police`	int64	是否向警方报案（1=是）
`reported_to_platform`	int64	是否向平台举报（1=是）
`reported_to_helpline`	int64	是否联系支持热线（1=是）
`attacker_account_removed`	int64	攻击者账户是否被移除（1=是）
`attacker_identified`	int64	攻击者是否被识别（1=是）
`victim_experienced_anxiety`	int64	是否出现焦虑（1=是）
`victim_experienced_depression`	int64	是否出现抑郁（1=是）
`victim_self_harm_risk`	int64	是否有自残风险（1=是）
`victim_withdrew_socially`	int64	是否出现社交退缩（1=是）
`label`	int64	标签：1=性敲诈，0=合法
`is_synthetic`	int64	是否为合成数据（1=是）

提取特征

特征	描述
`organised_threat` / `sophisticated_attacker`	攻击者画像
`no_grooming` / `short_grooming` / `extended_grooming`	培养时长
`content_obtained` / `coerced_content` / `tech_obtained_content`	内容获取方式
`threat_severity_score` / `high_pressure` / `urgent_deadline`	威胁强度
`any_demand` / `high_demand` / `very_high_demand`	财务要求
`is_minor` / `young_adult` / `high_vulnerability`	受害者脆弱性
`content_leaked` / `worst_outcome`	结果严重性
`any_report` / `enforcement_outcome` / `full_resolution`	举报与司法
`psych_impact_score` / `severe_psych_impact` / `self_harm_flag`	心理伤害
性敲诈类型独热编码	`type_webcam`、`type_catfishing` 等
平台类型	`platform_social_media`、`platform_messaging`、`platform_dating`
支付类型	`payment_mobile_money`、`payment_crypto`、`payment_untraceable`
区域标志	`is_west_africa`、`is_east_africa`、`is_southern_africa`、`is_north_africa`
`sextortion_risk_score`	综合攻击严重性评分
`victim_vulnerability_score`	综合受害者风险评分
`harm_score`	综合伤害/结果严重性评分

数据使用

python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-sextortion")

引用信息

bibtex @misc{electricsheepafrica2026sextortion, title = {Sextortion & Cyber Sexual Exploitation (Africa)}, author = {Electric Sheep Africa}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/electricsheepafrica/africa-sextortion}} }

搜集汇总

数据集介绍

构建方式

非洲性勒索数据集是基于INTERPOL 2024/2025非洲网络威胁评估、FBI IC3年度报告、NCMEC CyberTipline报告等权威研究资料，通过合成数据生成技术构建而成。数据集包含10,000条平衡样本（正负样本比例50/50），所有记录均标记为合成数据。在构建过程中，系统化地捕捉了非洲特有的网络勒索攻击模式，包括西非地区组织化的'Yahoo Boys'网络、南非较高的报告率、肯尼亚和乌干达以手机为主的WhatsApp勒索案例，以及移动支付（M-Pesa、MTN MoMo）等具有区域特征的支付方式。

特点

该数据集涵盖了15个非洲国家的性勒索攻击案例，包含了35个基础特征和多项衍生特征。核心特征覆盖了攻击类型（如webcam勒索、AI深度伪造等8种类型）、接触平台、威胁渠道、支付要求方式、受害者年龄性别、攻击者特征（是否使用虚假资料、是否组织化犯罪团伙）、心理影响（焦虑、抑郁、自伤风险）等多维信息。特别值得注意的是，数据集还提供了复合风险评分指标，包括sextortion_risk_score、victim_vulnerability_score和harm_score等，用于综合评估攻击严重性和受害者风险程度。

使用方法

使用Python的datasets库即可便捷加载该数据集，命令为`dataset = load_dataset('electricsheepafrica/africa-sextortion')`。加载后，用户可以直接访问具有35个基础特征的表格数据，并利用预定义的衍生特征进行分类分析。该数据集主要适用于二分类任务（label字段区分性勒索事件与正常行为），同时支持对八种特定性勒索类型进行细粒度识别，以及基于区域、平台、支付方式等维度进行深入分析。数据集还提供了丰富的心理影响和执法响应特征，便于开展多维度安全研究。

背景与挑战

背景概述

该数据集由 Electric Sheep Africa 于 2026 年创建，聚焦于非洲背景下的性勒索与网络性剥削威胁。其核心研究者依托 INTERPOL《2024/2025 非洲网络威胁评估》、FBI IC3 年度报告及多源权威数据，揭示了以科特迪瓦和尼日利亚为首的有组织犯罪网络正从传统商业邮件欺诈转向性勒索，导致全球报告量激增 300% 以上。数据集通过合成 10,000 条平衡样本，系统建模了西非“Yahoo Boys”组织、南非约会应用诈骗、东非移动端勒索等区域性攻击模式，并涵盖 AI 深度伪造、未成年人受害者等新兴挑战，为非洲网络犯罪分析与防御研究提供了关键基准。

当前挑战

该领域面临的核心挑战包括：1) 性勒索在非洲以移动支付（M-Pesa、MTN MoMo）、礼品卡、话费充值为主要支付手段，与传统数字货币勒索模式截然不同，增加了取证与追踪难度；2) 犯罪网络利用社交工程在 WhatsApp 和约会平台上实施“钓鱼式”引诱，受害者因羞耻或恐吓而极少报案，导致真实数据稀缺且偏倚严重；3) 构建过程中需在保护隐私与保留攻击特征间权衡，必须完全依赖合成数据，然而真实世界中的行为动态（如胁迫升级周期、心理影响级联效应）难以被精确模拟，可能限制模型的生态效度与泛化能力。

常用场景

经典使用场景

在网络安全与数字取证领域，africa-sextortion数据集被广泛用于构建针对非洲地区性勒索与网络性剥削的检测与分类模型。研究人员利用该数据集中的35个特征维度，涵盖攻击类型、接触平台、威胁渠道、支付方式、受害者画像及心理影响等，训练监督学习模型以区分真实勒索事件与正常网络交互。其经典的二分类标签（label字段）设计，使得该数据集成为开发自动化网络威胁识别系统的基准测试平台，尤其在低资源、高风险的非洲网络犯罪场景中表现突出。

解决学术问题

该数据集有效解决了非洲地区性勒索犯罪模式缺乏结构化标注数据的学术困境。基于INTERPOL、FBI IC3及NCMEC等多源数据合成的样本，填补了针对西非“Yahoo Boys”网络、东非移动优先攻击、南非婚恋平台诈骗等区域特异性犯罪生态的定量研究空白。通过引入AI深度伪造、多次威胁升级、心理伤害评分等关键变量，为分析网络剥削行为的演化机制、受害者脆弱性因子及司法干预效果提供了数据基础，推动从案件报告到模式识别的研究范式转型。

衍生相关工作

该数据集衍生了一系列前沿研究工作，包括基于图神经网络的跨账户团伙发现系统，利用organised_gang和multiple_victims_linked字段识别有组织犯罪网络；以及结合自然语言处理的威胁文本分析模型，从threat_channel内容中提取勒索话术模式。此外，研究者借鉴该数据集的特征工程思路，开发了针对非洲特色的性勒索风险评估指数（如sextortion_risk_score和harm_score），并延伸至深度伪造图像检测、移动支付反欺诈等交叉领域。这些工作已被引用至2025年IEEE S&P与ACM CCS的相关预印本中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集