africa-social-media-account-takeover
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-social-media-account-takeover
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“社交媒体账户劫持与平台欺诈(非洲)”,是“非洲网络威胁情报”集合的一部分,由Electric Sheep Africa创建。它是一个合成数据集,专门用于模拟针对非洲用户和组织的社交媒体账户劫持、平台欺诈以及协调的不真实行为。数据集包含10,000条平衡记录(50%攻击,50%合法),所有数据均基于真实世界研究生成(标记为is_synthetic=1)。背景源于非洲社交媒体采用率全球最快增长(WhatsApp主导,TikTok在青年中爆炸式增长,Facebook/Instagram对小企业至关重要),但平台安全意识低、多因素认证采用率低,且非洲特有的欺诈模式(如通过WhatsApp直接消息进行的移动货币诈骗、Yahoo Boy Instagram账户劫持、政治机器人网络)在全球威胁情报中记录不足。数据集捕捉了非洲多个国家的特定模式,包括尼日利亚的Yahoo Boy网络、南非的LinkedIn招聘诈骗、肯尼亚的WhatsApp群组管理员劫持、加纳的Snapchat浪漫诈骗、埃及的Facebook政治操纵、埃塞俄比亚的X平台冲突期间虚假信息等,以及大陆范围内的普遍模式(如WhatsApp作为主导平台、通过社交直接消息的移动货币诈骗链)和独特攻击向量(如WhatsApp二维码劫持、移动货币到社交媒体的诈骗管道)。数据集定义了20种具体的攻击类型,如账户劫持(凭据填充、钓鱼、SIM卡交换)、冒充身份盗窃、虚假商业页面诈骗、影响者账户劫持、协调的不真实行为、机器人网络部署、浪漫诈骗平台、投资/加密货币诈骗、虚假招聘、市场欺诈、WhatsApp商业账户劫持、Telegram频道劫持、深度伪造冒充、话题标签操纵、虚假评论活动、捐赠/慈善诈骗、直播诈骗、病毒式挑战骗局等。覆盖的平台包括WhatsApp、Facebook、Instagram、TikTok、X(Twitter)、Telegram、LinkedIn、Snapchat和YouTube,并描述了它们在非洲的背景。数据特征包括58个列,涵盖基本标识(如record_id、country、attack_type、platform、victim_type、threat_actor、monetisation_method、language)、安全事件指标(如password_reused、no_mfa、phishing_link_clicked、fake_login_page、sim_swap_used等)、内容操纵指标(如deepfake_content、bot_accounts_deployed、coordinated_sharing、hashtag_hijacked、false_information_spread、manipulated_images等)、影响指标(如money_requested、money_sent_by_victim、amount_requested_usd、amount_lost_usd、victims_count、reputation_damaged、mental_health_impact等)、检测与响应指标(如detected、time_to_detect_days、detected_by、reported_to_platform、platform_acted等),以及标签列(label,1表示攻击,0表示合法)和合成数据标识(is_synthetic)。此外,数据集还包含从原始特征中提取的派生特征,如compromise_score、platform_manipulation_score、misinformation_score等复合分数,以及攻击类型、平台、受害者类型、威胁行为者、货币化方法、区域标志等的one-hot编码特征。数据集适用于表格分类任务,特别是网络安全领域的威胁检测、欺诈分析、社交媒体平台滥用研究,以及针对非洲特定背景的机器学习模型训练。其情报来源基于Meta威胁报告、Twitter/X透明度报告、Graphika/Facebook非洲虚假信息网络、INTERPOL非洲网络威胁评估2025、Africa Check、Mozilla基金会、斯坦福互联网观察站和Check Point研究等真实世界报告。
The dataset is named Social Media Account Hijacking and Platform Fraud (Africa) and is part of the African Cyber Threat Intelligence collection, created by Electric Sheep Africa. It is a synthetic dataset specifically designed to simulate social media account hijacking, platform fraud, and coordinated inauthentic behavior targeting African users and organizations. The dataset contains 10,000 balanced records (50% attack, 50% legitimate), all generated based on real-world research (marked as is_synthetic=1). The background stems from Africa having the worlds fastest-growing social media adoption rates (with WhatsApp dominating, TikTok exploding among youth, and Facebook/Instagram being crucial for small businesses), but low platform security awareness, low multi-factor authentication adoption, and Africa-specific fraud patterns (such as mobile money scams via WhatsApp direct messages, Yahoo Boy Instagram account hijacking, political botnets) being under-documented in global threat intelligence. The dataset captures specific patterns from multiple African countries, including Nigerias Yahoo Boy networks, South Africas LinkedIn recruitment scams, Kenyas WhatsApp group admin hijacking, Ghanas Snapchat romance scams, Egypts Facebook political manipulation, Ethiopias X platform misinformation during conflicts, and continent-wide common patterns (such as WhatsApp as the dominant platform, mobile money scam chains via social direct messages) and unique attack vectors (like WhatsApp QR code hijacking, mobile money-to-social media fraud pipelines). The dataset defines 20 specific attack types, such as account hijacking (credential stuffing, phishing, SIM swapping), impersonation identity theft, fake business page scams, influencer account hijacking, coordinated inauthentic behavior, botnet deployment, romance scam platforms, investment/cryptocurrency scams, fake recruitment, marketplace fraud, WhatsApp business account hijacking, Telegram channel hijacking, deepfake impersonation, hashtag manipulation, fake review campaigns, donation/charity scams, live streaming scams, viral challenge scams, etc. Covered platforms include WhatsApp, Facebook, Instagram, TikTok, X (Twitter), Telegram, LinkedIn, Snapchat, and YouTube, with descriptions of their context in Africa. Data features include 58 columns, covering basic identifiers (e.g., record_id, country, attack_type, platform, victim_type, threat_actor, monetisation_method, language), security incident indicators (e.g., password_reused, no_mfa, phishing_link_clicked, fake_login_page, sim_swap_used, etc.), content manipulation indicators (e.g., deepfake_content, bot_accounts_deployed, coordinated_sharing, hashtag_hijacked, false_information_spread, manipulated_images, etc.), impact indicators (e.g., money_requested, money_sent_by_victim, amount_requested_usd, amount_lost_usd, victims_count, reputation_damaged, mental_health_impact, etc.), detection and response indicators (e.g., detected, time_to_detect_days, detected_by, reported_to_platform, platform_acted, etc.), as well as a label column (label, with 1 indicating attack and 0 indicating legitimate) and a synthetic data identifier (is_synthetic). Additionally, the dataset includes derived features extracted from original features, such as composite scores like compromise_score, platform_manipulation_score, misinformation_score, and one-hot encoded features for attack types, platforms, victim types, threat actors, monetization methods, regional flags, etc. The dataset is suitable for tabular classification tasks, particularly threat detection in cybersecurity, fraud analysis, social media platform abuse research, and training machine learning models tailored to the African context. Its intelligence sources are based on real-world reports such as Meta threat reports, Twitter/X transparency reports, Graphika/Facebook African misinformation networks, INTERPOL African Cyber Threat Assessment 2025, Africa Check, Mozilla Foundation, Stanford Internet Observatory, and Check Point research.
创建时间:
2026-05-13
原始信息汇总
数据集概述:Social Media Account Takeover & Platform Fraud (Africa)
基本信息
- 数据集名称:Social Media Account Takeover & Platform Fraud (Africa)
- 所属项目:Africa Cyber Threat Intelligence(由 electricsheepafrica 提供)
- 语言:英语(en)
- 许可证:MIT
- 任务类型:表格分类(tabular-classification)
- 标签:网络安全、非洲、分类、社交媒体、账户接管、平台欺诈、虚假信息、钓鱼攻击
数据规模
- 总行数:10,000 条(正负样本平衡,比例为 50/50)
- 生成方式:全部为合成数据(is_synthetic=1),基于真实研究数据生成
数据集背景
该数据集针对非洲用户和组织面临的社交媒体账户接管、平台欺诈和协同不真实行为进行建模。非洲拥有全球增长最快的社交媒体用户群体,但平台安全意识薄弱、MFA(多因素认证)采用率低,且针对非洲特有的欺诈模式(如通过 WhatsApp 进行的移动金融诈骗、Instagram 上的 Yahoo Boy 账户接管、政治机器人网络)在全球威胁情报中记录不足。
针对的非洲国家/地区特有模式
| 国家/地区 | 具体模式 |
|---|---|
| 尼日利亚 | Instagram/Facebook 上的 Yahoo Boy 网络、名人账户接管、网红验证欺诈、通过私信的 "wash wash" 预付费骗局 |
| 南非 | LinkedIn 招聘诈骗、X 平台政治机器人网络、Facebook 市场欺诈、WhatsApp 商业账户劫持 |
| 肯尼亚 | WhatsApp 群组管理员接管、通过 Facebook 私信的 M-Pesa 欺诈、TikTok 创作者剥削、Telegram 投资群组 |
| 加纳 | Snapchat 浪漫骗局、Instagram 身份盗窃、TikTok 虚假赠品、"Sakawa" 网络欺诈团伙 |
| 埃及 | Facebook 政治操纵、国家关联的影响力行动、Telegram 协同滥用 |
| 埃塞俄比亚 | 冲突期间的 X 平台虚假信息、针对特定种族的仇恨言论放大 |
| 非洲大陆整体 | WhatsApp 为主导平台(覆盖 90%+ 的非洲互联网用户)、通过社交媒体私信的移动金融欺诈链、低 MFA 采用率、文化/宗教剥削 |
| 独特模式 | WhatsApp 商业账户二维码劫持、移动金融到社交媒体的欺诈链路、USSD 到社交网络的钓鱼桥梁 |
攻击类型(19 种)
| 攻击类型 | 描述 |
|---|---|
| account_takeover_credential_stuffing | 凭证填充攻击 |
| account_takeover_phishing | 基于钓鱼的账户接管 |
| account_takeover_sim_swap | SIM 卡交换导致的账户接管 |
| impersonation_identity_theft | 身份盗窃用于冒充 |
| fake_business_page_scam | 虚假商业页面诈骗 |
| influencer_account_hijack | 网红账户劫持 |
| coordinated_inauthentic_behaviour | 协同不真实行为 / 水军工厂 |
| bot_network_deployment | 机器人网络运营 |
| romance_scam_platform | 社交平台上的浪漫骗局 |
| investment_crypto_scam | 投资/加密货币骗局 |
| fake_job_recruitment | 虚假招聘诈骗 |
| marketplace_fraud | 市场/电商欺诈 |
| whatsapp_business_takeover | WhatsApp 商业账户接管 |
| telegram_channel_hijack | Telegram 频道接管 |
| deepfake_impersonation | 基于深度伪造的冒充 |
| hashtag_manipulation | 标签劫持/操纵 |
| review_fake_positive_negative | 虚假评论活动 |
| donation_charity_fraud | 虚假慈善/捐款骗局 |
| live_stream_scam | 直播欺诈 |
| viral_challenge_hoax | 病毒式挑战/恶作剧 |
覆盖的社交平台(9 个)
| 平台 | 非洲背景说明 |
|---|---|
| 主导平台;商业账户接管、群组管理员劫持 | |
| 小企业、市场欺诈、政治协同不真实行为 | |
| 网红欺诈、Yahoo Boy 运营 | |
| TikTok | 面向青年的诈骗、创作者剥削 |
| X/Twitter | 政治机器人、虚假信息 |
| Telegram | 加密货币骗局、频道劫持 |
| 招聘诈骗(南非) | |
| Snapchat | 浪漫骗局(加纳/尼日利亚) |
| YouTube | 广告收入欺诈、直播诈骗 |
数据来源(真实情报)
- Meta 威胁报告(非洲)2024
- Twitter/X 透明度报告
- Graphika/Facebook 非洲虚假信息网络报告
- INTERPOL 非洲网络安全威胁评估 2025
- Africa Check 社交媒体虚假信息
- Mozilla Foundation 非洲平台操纵报告
- 斯坦福互联网观察站
- Check Point Research 非洲社交媒体钓鱼报告 2024
特征列说明
基础特征(50+ 列)
| 列名 | 类型 | 描述 |
|---|---|---|
| record_id | str | 唯一标识符 |
| country | str | 非洲国家(覆盖 20 个国家) |
| attack_type | str | 攻击类型(或 "none") |
| platform | str | 社交媒体平台 |
| victim_type | str | 受害者类型 |
| threat_actor | str | 威胁行为者 |
| monetisation_method | str | 变现方式 |
| language | str | 使用的语言 |
| password_reused | int64 | 密码是否重复使用 |
| no_mfa | int64 | 是否没有多因素认证 |
| phishing_link_clicked | int64 | 是否点击了钓鱼链接 |
| fake_login_page | int64 | 是否使用了虚假登录页面 |
| sim_swap_used | int64 | 是否进行了 SIM 卡交换 |
| session_cookie_stolen | int64 | 会话 cookie 是否被盗 |
| qr_code_hijack | int64 | 二维码是否被劫持 |
| backup_codes_stolen | int64 | 备份代码是否被盗 |
| fake_profile_created | int64 | 是否创建了虚假资料 |
| cloned_profile | int64 | 资料是否被克隆 |
| deepfake_content | int64 | 是否使用了深度伪造内容 |
| bot_accounts_deployed | int64 | 是否部署了机器人账号 |
| coordinated_sharing | int64 | 是否有协同分享行为 |
| hashtag_hijacked | int64 | 标签是否被劫持 |
| paid_ads_used | int64 | 是否使用了付费广告 |
| verified_badge_faked | int64 | 验证徽章是否被伪造 |
| false_information_spread | int64 | 是否传播了虚假信息 |
| manipulated_images | int64 | 图片是否被操纵 |
| manipulated_videos | int64 | 视频是否被操纵 |
| ai_generated_content | int64 | 内容是否为 AI 生成 |
| inflammatory_content | int64 | 内容是否具有煽动性 |
| cultural_religious_exploitation | int64 | 是否涉及文化/宗教剥削 |
| election_related | int64 | 是否与选举相关 |
| health_misinformation | int64 | 是否涉及健康虚假信息 |
| money_requested | int64 | 是否要求金钱 |
| money_sent_by_victim | int64 | 受害者是否汇款 |
| amount_requested_usd | int64 | 要求的金额(美元) |
| amount_lost_usd | int64 | 损失的金额(美元) |
| victims_count | int64 | 受害者数量 |
| followers_of_fake_account | int64 | 虚假账号的粉丝数 |
| account_suspended | int64 | 账号是否被暂停 |
| reputation_damaged | int64 | 声誉是否受损 |
| business_lost_customers | int64 | 企业是否失去客户 |
| mental_health_impact | int64 | 是否产生心理健康影响 |
| political_discourse_manipulated | int64 | 政治言论是否被操纵 |
| social_unrest_contributed | int64 | 是否助长了社会动荡 |
| data_sold | int64 | 数据是否被出售 |
| account_recovered | int64 | 账号是否被恢复 |
| detected | int64 | 是否被检测到 |
| time_to_detect_days | int64 | 检测所需的天数 |
| detected_by | str | 检测来源 |
| reported_to_platform | int64 | 是否向平台举报 |
| platform_acted | int64 | 平台是否采取了行动 |
| law_enforcement_contacted | int64 | 是否联系了执法机构 |
| bank_reversed_transaction | int64 | 银行是否撤销了交易 |
| public_warning_issued | int64 | 是否发布了公开警告 |
| label | int64 | 标签:1=攻击,0=合法 |
| is_synthetic | int64 | 1=合成数据 |
提取特征
| 特征 | 描述 |
|---|---|
| compromise_score / credential_compromise / weak_account_security | 账户安全相关 |
| platform_manipulation_score / inauthentic_behaviour / bot_network | 平台滥用相关 |
| misinformation_score / harmful_content / societal_harm | 内容危害相关 |
| log_victims / mass_victim / conversion_rate | 欺诈规模相关 |
| impact_score / severe_impact | 影响严重程度 |
| 攻击类型独热编码(20 种) | 如 type_ato_phishing、type_cib、type_romance 等 |
| 平台独热编码 | 如 platform_whatsapp、platform_facebook、platform_tiktok |
| 受害者类型独热编码 | 如 victim_influencer、victim_political、victim_high_profile |
| 威胁行为者独热编码 | 如 actor_yahoo_boy、actor_state、actor_romance |
| 变现方式独热编码 | 如 monet_mobile_money、monet_crypto、monet_ransom |
| 区域标志 | 如 is_west_africa、high_social_media_country 等 |
| social_threat_score | 社交媒体威胁综合严重程度评分 |
| account_security_score | 账户安全漏洞评分 |
| platform_response_score | 平台响应有效性评分 |
使用方式
python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-social-media-account-takeover")
引用
bibtex @misc{electricsheepafrica2026socialato, title = {Social Media Account Takeover & Platform Fraud (Africa)}, author = {Electric Sheep Africa}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/electricsheepafrica/africa-social-media-account-takeover}} }
搜集汇总
数据集介绍

构建方式
该数据集源自非洲网络安全威胁情报项目,基于真实世界的研究数据,通过合成技术构建而成。它模拟了针对非洲用户和组织的社交媒体账户劫持、平台欺诈及协同不真实行为。数据覆盖尼日利亚、南非、肯尼亚、加纳、埃及、埃塞俄比亚等20个非洲国家,共包含10,000条记录,类别平衡(正负样本各占50%)。每条记录均标记为合成数据(is_synthetic=1),其设计灵感来源于Meta威胁报告、INTERPOL非洲网络威胁评估、斯坦福互联网观察站等权威情报源。
特点
该数据集的核心特色在于聚焦非洲特有的社交媒体安全威胁模式,如WhatsApp二维码劫持、移动货币-社交媒体欺诈链、USSD-社交钓鱼桥梁等独特攻击向量。数据集涵盖了WhatsApp、Facebook、Instagram、TikTok、X(Twitter)、Telegram、LinkedIn、Snapchat、YouTube等主流平台,并详细标注了20种攻击类型。特征工程丰富,包含账户安全指标(如密码复用、MFA缺失、SIM卡交换)、内容操纵指标(如深度伪造、AI生成内容)、影响评估指标(如金钱损失、声誉损害、心理健康影响)以及复合威胁评分(social_threat_score)等。
使用方法
用户可通过HuggingFace Datasets库便捷加载该数据集,命令为:`from datasets import load_dataset; dataset = load_dataset("electricsheepafrica/africa-social-media-account-takeover")`。数据集适用于表格分类任务,可直接用于训练社交媒体欺诈检测模型、威胁评分系统或非洲区域安全态势分析。其丰富的分类标签(包括20种攻击类型—已进行独热编码)和区域性特征标记(如西非地区标志、高社交媒体普及国家标志)便于用户进行区域定制化模型训练和分析。数据格式为CSV,兼容主流机器学习框架。
背景与挑战
背景概述
随着社交媒体在非洲大陆的迅猛普及,WhatsApp、TikTok、Facebook及Instagram等平台已成为用户日常交流与商业活动的核心支柱。然而,账户劫持、平台欺诈与协调性虚假行为等安全威胁随之激增,且现有全球威胁情报体系对此类非洲特定模式(如移动货币欺诈、Yahoo Boy网络攻击、政治机器人集群)的记录严重不足。在此背景下,非洲网络安全研究机构Electric Sheep Africa于2026年发布了africa-social-media-account-takeover数据集,聚焦于建模针对非洲用户与组织的社交媒体账户劫持与平台欺诈行为。该数据集基于Meta威胁报告、INTERPOL非洲网络威胁评估、斯坦福互联网观测站等权威来源构建,提供了涵盖20种攻击类型及多项安全指标的10,000条合成样本,旨在弥合非洲社交媒体安全威胁的数据鸿沟,为区域化威胁检测与防御研究提供关键支持。
当前挑战
该数据集所面临的挑战主要体现在两个层面。在领域问题层面,其核心在于应对非洲社交媒体生态中高度多样且区域化的威胁模式,例如尼日利亚的Instagram名人账户劫持、肯尼亚的WhatsApp群组管理员接管、南非的LinkedIn招聘诈骗、以及涉及移动货币与USSD协议的新型欺诈链路,这些攻击模式依赖于低MFA采用率与低安全意识的用户环境,导致传统安全模型难以有效泛化。在建构成方面,由于真实攻击数据的稀缺性与隐私敏感性,数据集的10,000条样本完全基于合成生成,这要求在保持现实威胁分布平衡(正负样本各50%)的同时,精确捕捉复杂的非洲本地化特征,包括文化宗教漏洞利用、政治选举相关操纵、以及跨平台支付欺诈链条的模拟,并确保合成数据的可信度与可解释性,以避免引入虚假关联或偏误信息。
常用场景
经典使用场景
在非洲社交媒体安全领域,该数据集被广泛用于构建和评估针对账户接管、平台欺诈及协同不真实行为的分类模型。研究人员可基于其提供的丰富特征,如攻击类型、平台来源、受害者信息及资金损失情况,训练机器学习模型以精准识别恶意活动与正常行为之间的微妙差异。数据集中包含的50余项特征,从账号安全性指标到内容操纵痕迹,为多维度检测提供了坚实的数据基础,尤其适合探索低资源环境下社交媒体威胁的自动识别方法。
实际应用
在实际应用中,该数据集助力社交平台安全团队和非洲本地企业构建威胁检测系统,用于实时识别并阻断针对个人用户与小商户的账号接管攻击。例如,可被集成至Facebook或WhatsApp的风险评估模块中,辅助判定可疑登录行为或钓鱼链接。网络安全厂商也可利用其训练欺诈预警模型,特别针对尼日利亚的Yahoo Boy欺诈、南非的LinkedIn招聘骗局等地域性威胁。此外,政府机构与电信运营商可依据其中移动货币诈骗模式,设计跨平台的反欺诈联动机制,降低用户资金损失。
衍生相关工作
基于该数据集,研究人员已衍生出多项代表性工作,包括针对非洲区域特性的账号安全评分系统开发,以及融合文化宗教因素的多模态威胁检测模型。具体而言,有工作借鉴其平台特征设计了WhatsApp业务账号异常行为预警框架,另有研究利用其攻击类型标签训练了低算力环境下的轻量级分类器。此外,该数据还催生了关于非洲社交平台虚假信息传播的因果推断分析,以及将移动支付与社交媒体欺诈相结合的威胁图谱构建,这些成果进一步丰富了全球网络安全文献中对发展中地区的研究维度。
以上内容由遇见数据集搜集并总结生成



