africa-social-media-account-takeover

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-social-media-account-takeover

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“社交媒体账户劫持与平台欺诈（非洲）”，是“非洲网络威胁情报”集合的一部分，由Electric Sheep Africa创建。它是一个合成数据集，专门用于模拟针对非洲用户和组织的社交媒体账户劫持、平台欺诈以及协调的不真实行为。数据集包含10,000条平衡记录（50%攻击，50%合法），所有数据均基于真实世界研究生成（标记为is_synthetic=1）。背景源于非洲社交媒体采用率全球最快增长（WhatsApp主导，TikTok在青年中爆炸式增长，Facebook/Instagram对小企业至关重要），但平台安全意识低、多因素认证采用率低，且非洲特有的欺诈模式（如通过WhatsApp直接消息进行的移动货币诈骗、Yahoo Boy Instagram账户劫持、政治机器人网络）在全球威胁情报中记录不足。数据集捕捉了非洲多个国家的特定模式，包括尼日利亚的Yahoo Boy网络、南非的LinkedIn招聘诈骗、肯尼亚的WhatsApp群组管理员劫持、加纳的Snapchat浪漫诈骗、埃及的Facebook政治操纵、埃塞俄比亚的X平台冲突期间虚假信息等，以及大陆范围内的普遍模式（如WhatsApp作为主导平台、通过社交直接消息的移动货币诈骗链）和独特攻击向量（如WhatsApp二维码劫持、移动货币到社交媒体的诈骗管道）。数据集定义了20种具体的攻击类型，如账户劫持（凭据填充、钓鱼、SIM卡交换）、冒充身份盗窃、虚假商业页面诈骗、影响者账户劫持、协调的不真实行为、机器人网络部署、浪漫诈骗平台、投资/加密货币诈骗、虚假招聘、市场欺诈、WhatsApp商业账户劫持、Telegram频道劫持、深度伪造冒充、话题标签操纵、虚假评论活动、捐赠/慈善诈骗、直播诈骗、病毒式挑战骗局等。覆盖的平台包括WhatsApp、Facebook、Instagram、TikTok、X（Twitter）、Telegram、LinkedIn、Snapchat和YouTube，并描述了它们在非洲的背景。数据特征包括58个列，涵盖基本标识（如record_id、country、attack_type、platform、victim_type、threat_actor、monetisation_method、language）、安全事件指标（如password_reused、no_mfa、phishing_link_clicked、fake_login_page、sim_swap_used等）、内容操纵指标（如deepfake_content、bot_accounts_deployed、coordinated_sharing、hashtag_hijacked、false_information_spread、manipulated_images等）、影响指标（如money_requested、money_sent_by_victim、amount_requested_usd、amount_lost_usd、victims_count、reputation_damaged、mental_health_impact等）、检测与响应指标（如detected、time_to_detect_days、detected_by、reported_to_platform、platform_acted等），以及标签列（label，1表示攻击，0表示合法）和合成数据标识（is_synthetic）。此外，数据集还包含从原始特征中提取的派生特征，如compromise_score、platform_manipulation_score、misinformation_score等复合分数，以及攻击类型、平台、受害者类型、威胁行为者、货币化方法、区域标志等的one-hot编码特征。数据集适用于表格分类任务，特别是网络安全领域的威胁检测、欺诈分析、社交媒体平台滥用研究，以及针对非洲特定背景的机器学习模型训练。其情报来源基于Meta威胁报告、Twitter/X透明度报告、Graphika/Facebook非洲虚假信息网络、INTERPOL非洲网络威胁评估2025、Africa Check、Mozilla基金会、斯坦福互联网观察站和Check Point研究等真实世界报告。

The dataset is named Social Media Account Hijacking and Platform Fraud (Africa) and is part of the African Cyber Threat Intelligence collection, created by Electric Sheep Africa. It is a synthetic dataset specifically designed to simulate social media account hijacking, platform fraud, and coordinated inauthentic behavior targeting African users and organizations. The dataset contains 10,000 balanced records (50% attack, 50% legitimate), all generated based on real-world research (marked as is_synthetic=1). The background stems from Africa having the worlds fastest-growing social media adoption rates (with WhatsApp dominating, TikTok exploding among youth, and Facebook/Instagram being crucial for small businesses), but low platform security awareness, low multi-factor authentication adoption, and Africa-specific fraud patterns (such as mobile money scams via WhatsApp direct messages, Yahoo Boy Instagram account hijacking, political botnets) being under-documented in global threat intelligence. The dataset captures specific patterns from multiple African countries, including Nigerias Yahoo Boy networks, South Africas LinkedIn recruitment scams, Kenyas WhatsApp group admin hijacking, Ghanas Snapchat romance scams, Egypts Facebook political manipulation, Ethiopias X platform misinformation during conflicts, and continent-wide common patterns (such as WhatsApp as the dominant platform, mobile money scam chains via social direct messages) and unique attack vectors (like WhatsApp QR code hijacking, mobile money-to-social media fraud pipelines). The dataset defines 20 specific attack types, such as account hijacking (credential stuffing, phishing, SIM swapping), impersonation identity theft, fake business page scams, influencer account hijacking, coordinated inauthentic behavior, botnet deployment, romance scam platforms, investment/cryptocurrency scams, fake recruitment, marketplace fraud, WhatsApp business account hijacking, Telegram channel hijacking, deepfake impersonation, hashtag manipulation, fake review campaigns, donation/charity scams, live streaming scams, viral challenge scams, etc. Covered platforms include WhatsApp, Facebook, Instagram, TikTok, X (Twitter), Telegram, LinkedIn, Snapchat, and YouTube, with descriptions of their context in Africa. Data features include 58 columns, covering basic identifiers (e.g., record_id, country, attack_type, platform, victim_type, threat_actor, monetisation_method, language), security incident indicators (e.g., password_reused, no_mfa, phishing_link_clicked, fake_login_page, sim_swap_used, etc.), content manipulation indicators (e.g., deepfake_content, bot_accounts_deployed, coordinated_sharing, hashtag_hijacked, false_information_spread, manipulated_images, etc.), impact indicators (e.g., money_requested, money_sent_by_victim, amount_requested_usd, amount_lost_usd, victims_count, reputation_damaged, mental_health_impact, etc.), detection and response indicators (e.g., detected, time_to_detect_days, detected_by, reported_to_platform, platform_acted, etc.), as well as a label column (label, with 1 indicating attack and 0 indicating legitimate) and a synthetic data identifier (is_synthetic). Additionally, the dataset includes derived features extracted from original features, such as composite scores like compromise_score, platform_manipulation_score, misinformation_score, and one-hot encoded features for attack types, platforms, victim types, threat actors, monetization methods, regional flags, etc. The dataset is suitable for tabular classification tasks, particularly threat detection in cybersecurity, fraud analysis, social media platform abuse research, and training machine learning models tailored to the African context. Its intelligence sources are based on real-world reports such as Meta threat reports, Twitter/X transparency reports, Graphika/Facebook African misinformation networks, INTERPOL African Cyber Threat Assessment 2025, Africa Check, Mozilla Foundation, Stanford Internet Observatory, and Check Point research.

创建时间：

2026-05-13

原始信息汇总

数据集概述：Social Media Account Takeover & Platform Fraud (Africa)

基本信息

数据集名称：Social Media Account Takeover & Platform Fraud (Africa)
所属项目：Africa Cyber Threat Intelligence（由 electricsheepafrica 提供）
语言：英语（en）
许可证：MIT
任务类型：表格分类（tabular-classification）
标签：网络安全、非洲、分类、社交媒体、账户接管、平台欺诈、虚假信息、钓鱼攻击

数据规模

总行数：10,000 条（正负样本平衡，比例为 50/50）
生成方式：全部为合成数据（is_synthetic=1），基于真实研究数据生成

数据集背景

该数据集针对非洲用户和组织面临的社交媒体账户接管、平台欺诈和协同不真实行为进行建模。非洲拥有全球增长最快的社交媒体用户群体，但平台安全意识薄弱、MFA（多因素认证）采用率低，且针对非洲特有的欺诈模式（如通过 WhatsApp 进行的移动金融诈骗、Instagram 上的 Yahoo Boy 账户接管、政治机器人网络）在全球威胁情报中记录不足。

针对的非洲国家/地区特有模式

国家/地区	具体模式
尼日利亚	Instagram/Facebook 上的 Yahoo Boy 网络、名人账户接管、网红验证欺诈、通过私信的 "wash wash" 预付费骗局
南非	LinkedIn 招聘诈骗、X 平台政治机器人网络、Facebook 市场欺诈、WhatsApp 商业账户劫持
肯尼亚	WhatsApp 群组管理员接管、通过 Facebook 私信的 M-Pesa 欺诈、TikTok 创作者剥削、Telegram 投资群组
加纳	Snapchat 浪漫骗局、Instagram 身份盗窃、TikTok 虚假赠品、"Sakawa" 网络欺诈团伙
埃及	Facebook 政治操纵、国家关联的影响力行动、Telegram 协同滥用
埃塞俄比亚	冲突期间的 X 平台虚假信息、针对特定种族的仇恨言论放大
非洲大陆整体	WhatsApp 为主导平台（覆盖 90%+ 的非洲互联网用户）、通过社交媒体私信的移动金融欺诈链、低 MFA 采用率、文化/宗教剥削
独特模式	WhatsApp 商业账户二维码劫持、移动金融到社交媒体的欺诈链路、USSD 到社交网络的钓鱼桥梁

攻击类型（19 种）

攻击类型	描述
account_takeover_credential_stuffing	凭证填充攻击
account_takeover_phishing	基于钓鱼的账户接管
account_takeover_sim_swap	SIM 卡交换导致的账户接管
impersonation_identity_theft	身份盗窃用于冒充
fake_business_page_scam	虚假商业页面诈骗
influencer_account_hijack	网红账户劫持
coordinated_inauthentic_behaviour	协同不真实行为 / 水军工厂
bot_network_deployment	机器人网络运营
romance_scam_platform	社交平台上的浪漫骗局
investment_crypto_scam	投资/加密货币骗局
fake_job_recruitment	虚假招聘诈骗
marketplace_fraud	市场/电商欺诈
whatsapp_business_takeover	WhatsApp 商业账户接管
telegram_channel_hijack	Telegram 频道接管
deepfake_impersonation	基于深度伪造的冒充
hashtag_manipulation	标签劫持/操纵
review_fake_positive_negative	虚假评论活动
donation_charity_fraud	虚假慈善/捐款骗局
live_stream_scam	直播欺诈
viral_challenge_hoax	病毒式挑战/恶作剧

覆盖的社交平台（9 个）

平台	非洲背景说明
WhatsApp	主导平台；商业账户接管、群组管理员劫持
Facebook	小企业、市场欺诈、政治协同不真实行为
Instagram	网红欺诈、Yahoo Boy 运营
TikTok	面向青年的诈骗、创作者剥削
X/Twitter	政治机器人、虚假信息
Telegram	加密货币骗局、频道劫持
LinkedIn	招聘诈骗（南非）
Snapchat	浪漫骗局（加纳/尼日利亚）
YouTube	广告收入欺诈、直播诈骗

数据来源（真实情报）

Meta 威胁报告（非洲）2024
Twitter/X 透明度报告
Graphika/Facebook 非洲虚假信息网络报告
INTERPOL 非洲网络安全威胁评估 2025
Africa Check 社交媒体虚假信息
Mozilla Foundation 非洲平台操纵报告
斯坦福互联网观察站
Check Point Research 非洲社交媒体钓鱼报告 2024

特征列说明

基础特征（50+ 列）

列名	类型	描述
record_id	str	唯一标识符
country	str	非洲国家（覆盖 20 个国家）
attack_type	str	攻击类型（或 "none"）
platform	str	社交媒体平台
victim_type	str	受害者类型
threat_actor	str	威胁行为者
monetisation_method	str	变现方式
language	str	使用的语言
password_reused	int64	密码是否重复使用
no_mfa	int64	是否没有多因素认证
phishing_link_clicked	int64	是否点击了钓鱼链接
fake_login_page	int64	是否使用了虚假登录页面
sim_swap_used	int64	是否进行了 SIM 卡交换
session_cookie_stolen	int64	会话 cookie 是否被盗
qr_code_hijack	int64	二维码是否被劫持
backup_codes_stolen	int64	备份代码是否被盗
fake_profile_created	int64	是否创建了虚假资料
cloned_profile	int64	资料是否被克隆
deepfake_content	int64	是否使用了深度伪造内容
bot_accounts_deployed	int64	是否部署了机器人账号
coordinated_sharing	int64	是否有协同分享行为
hashtag_hijacked	int64	标签是否被劫持
paid_ads_used	int64	是否使用了付费广告
verified_badge_faked	int64	验证徽章是否被伪造
false_information_spread	int64	是否传播了虚假信息
manipulated_images	int64	图片是否被操纵
manipulated_videos	int64	视频是否被操纵
ai_generated_content	int64	内容是否为 AI 生成
inflammatory_content	int64	内容是否具有煽动性
cultural_religious_exploitation	int64	是否涉及文化/宗教剥削
election_related	int64	是否与选举相关
health_misinformation	int64	是否涉及健康虚假信息
money_requested	int64	是否要求金钱
money_sent_by_victim	int64	受害者是否汇款
amount_requested_usd	int64	要求的金额（美元）
amount_lost_usd	int64	损失的金额（美元）
victims_count	int64	受害者数量
followers_of_fake_account	int64	虚假账号的粉丝数
account_suspended	int64	账号是否被暂停
reputation_damaged	int64	声誉是否受损
business_lost_customers	int64	企业是否失去客户
mental_health_impact	int64	是否产生心理健康影响
political_discourse_manipulated	int64	政治言论是否被操纵
social_unrest_contributed	int64	是否助长了社会动荡
data_sold	int64	数据是否被出售
account_recovered	int64	账号是否被恢复
detected	int64	是否被检测到
time_to_detect_days	int64	检测所需的天数
detected_by	str	检测来源
reported_to_platform	int64	是否向平台举报
platform_acted	int64	平台是否采取了行动
law_enforcement_contacted	int64	是否联系了执法机构
bank_reversed_transaction	int64	银行是否撤销了交易
public_warning_issued	int64	是否发布了公开警告
label	int64	标签：1=攻击，0=合法
is_synthetic	int64	1=合成数据

提取特征

特征	描述
compromise_score / credential_compromise / weak_account_security	账户安全相关
platform_manipulation_score / inauthentic_behaviour / bot_network	平台滥用相关
misinformation_score / harmful_content / societal_harm	内容危害相关
log_victims / mass_victim / conversion_rate	欺诈规模相关
impact_score / severe_impact	影响严重程度
攻击类型独热编码（20 种）	如 type_ato_phishing、type_cib、type_romance 等
平台独热编码	如 platform_whatsapp、platform_facebook、platform_tiktok
受害者类型独热编码	如 victim_influencer、victim_political、victim_high_profile
威胁行为者独热编码	如 actor_yahoo_boy、actor_state、actor_romance
变现方式独热编码	如 monet_mobile_money、monet_crypto、monet_ransom
区域标志	如 is_west_africa、high_social_media_country 等
social_threat_score	社交媒体威胁综合严重程度评分
account_security_score	账户安全漏洞评分
platform_response_score	平台响应有效性评分

使用方式

python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-social-media-account-takeover")

引用

bibtex @misc{electricsheepafrica2026socialato, title = {Social Media Account Takeover & Platform Fraud (Africa)}, author = {Electric Sheep Africa}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/electricsheepafrica/africa-social-media-account-takeover}} }

搜集汇总

数据集介绍

构建方式

该数据集源自非洲网络安全威胁情报项目，基于真实世界的研究数据，通过合成技术构建而成。它模拟了针对非洲用户和组织的社交媒体账户劫持、平台欺诈及协同不真实行为。数据覆盖尼日利亚、南非、肯尼亚、加纳、埃及、埃塞俄比亚等20个非洲国家，共包含10,000条记录，类别平衡（正负样本各占50%）。每条记录均标记为合成数据（is_synthetic=1），其设计灵感来源于Meta威胁报告、INTERPOL非洲网络威胁评估、斯坦福互联网观察站等权威情报源。

特点

该数据集的核心特色在于聚焦非洲特有的社交媒体安全威胁模式，如WhatsApp二维码劫持、移动货币-社交媒体欺诈链、USSD-社交钓鱼桥梁等独特攻击向量。数据集涵盖了WhatsApp、Facebook、Instagram、TikTok、X（Twitter）、Telegram、LinkedIn、Snapchat、YouTube等主流平台，并详细标注了20种攻击类型。特征工程丰富，包含账户安全指标（如密码复用、MFA缺失、SIM卡交换）、内容操纵指标（如深度伪造、AI生成内容）、影响评估指标（如金钱损失、声誉损害、心理健康影响）以及复合威胁评分（social_threat_score）等。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集，命令为：`from datasets import load_dataset; dataset = load_dataset("electricsheepafrica/africa-social-media-account-takeover")`。数据集适用于表格分类任务，可直接用于训练社交媒体欺诈检测模型、威胁评分系统或非洲区域安全态势分析。其丰富的分类标签（包括20种攻击类型—已进行独热编码）和区域性特征标记（如西非地区标志、高社交媒体普及国家标志）便于用户进行区域定制化模型训练和分析。数据格式为CSV，兼容主流机器学习框架。

背景与挑战

背景概述

随着社交媒体在非洲大陆的迅猛普及，WhatsApp、TikTok、Facebook及Instagram等平台已成为用户日常交流与商业活动的核心支柱。然而，账户劫持、平台欺诈与协调性虚假行为等安全威胁随之激增，且现有全球威胁情报体系对此类非洲特定模式（如移动货币欺诈、Yahoo Boy网络攻击、政治机器人集群）的记录严重不足。在此背景下，非洲网络安全研究机构Electric Sheep Africa于2026年发布了africa-social-media-account-takeover数据集，聚焦于建模针对非洲用户与组织的社交媒体账户劫持与平台欺诈行为。该数据集基于Meta威胁报告、INTERPOL非洲网络威胁评估、斯坦福互联网观测站等权威来源构建，提供了涵盖20种攻击类型及多项安全指标的10,000条合成样本，旨在弥合非洲社交媒体安全威胁的数据鸿沟，为区域化威胁检测与防御研究提供关键支持。

当前挑战

该数据集所面临的挑战主要体现在两个层面。在领域问题层面，其核心在于应对非洲社交媒体生态中高度多样且区域化的威胁模式，例如尼日利亚的Instagram名人账户劫持、肯尼亚的WhatsApp群组管理员接管、南非的LinkedIn招聘诈骗、以及涉及移动货币与USSD协议的新型欺诈链路，这些攻击模式依赖于低MFA采用率与低安全意识的用户环境，导致传统安全模型难以有效泛化。在建构成方面，由于真实攻击数据的稀缺性与隐私敏感性，数据集的10,000条样本完全基于合成生成，这要求在保持现实威胁分布平衡（正负样本各50%）的同时，精确捕捉复杂的非洲本地化特征，包括文化宗教漏洞利用、政治选举相关操纵、以及跨平台支付欺诈链条的模拟，并确保合成数据的可信度与可解释性，以避免引入虚假关联或偏误信息。

常用场景

经典使用场景

在非洲社交媒体安全领域，该数据集被广泛用于构建和评估针对账户接管、平台欺诈及协同不真实行为的分类模型。研究人员可基于其提供的丰富特征，如攻击类型、平台来源、受害者信息及资金损失情况，训练机器学习模型以精准识别恶意活动与正常行为之间的微妙差异。数据集中包含的50余项特征，从账号安全性指标到内容操纵痕迹，为多维度检测提供了坚实的数据基础，尤其适合探索低资源环境下社交媒体威胁的自动识别方法。

实际应用

在实际应用中，该数据集助力社交平台安全团队和非洲本地企业构建威胁检测系统，用于实时识别并阻断针对个人用户与小商户的账号接管攻击。例如，可被集成至Facebook或WhatsApp的风险评估模块中，辅助判定可疑登录行为或钓鱼链接。网络安全厂商也可利用其训练欺诈预警模型，特别针对尼日利亚的Yahoo Boy欺诈、南非的LinkedIn招聘骗局等地域性威胁。此外，政府机构与电信运营商可依据其中移动货币诈骗模式，设计跨平台的反欺诈联动机制，降低用户资金损失。

衍生相关工作

基于该数据集，研究人员已衍生出多项代表性工作，包括针对非洲区域特性的账号安全评分系统开发，以及融合文化宗教因素的多模态威胁检测模型。具体而言，有工作借鉴其平台特征设计了WhatsApp业务账号异常行为预警框架，另有研究利用其攻击类型标签训练了低算力环境下的轻量级分类器。此外，该数据还催生了关于非洲社交平台虚假信息传播的因果推断分析，以及将移动支付与社交媒体欺诈相结合的威胁图谱构建，这些成果进一步丰富了全球网络安全文献中对发展中地区的研究维度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集