five

africa-child-online-safety

收藏
Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/africa-child-online-safety
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成数据集,旨在为检测和预防研究建模非洲的在线儿童安全威胁与剥削模式。非洲拥有世界上最年轻的人口(60%在25岁以下),移动互联网普及率快速增长,但数字素养、家长监督和平台内容审核严重不足,这为在线诱骗、性勒索、儿童性剥削材料传播、直播虐待和人口贩运提供了高风险环境。数据集捕捉了非洲特有的模式,包括:青少年以移动设备为首要接入方式(使用父母手机、共享家庭设备、监管薄弱的网吧);主要平台(如WhatsApp、TikTok、Instagram、Facebook、PUBG Mobile等);通过M-Pesa、OPay等移动货币进行剥削;诱骗手段(虚假奖学金、虚假收养、成名/职业承诺、游戏社区渗透、宗教领袖冒充);脆弱人群(孤儿、难民、街头儿童、寄宿学校学生、贫困儿童、残疾儿童);犯罪者身份(教师、宗教领袖、家庭朋友、雇主等熟人);直播应用滥用;跨境犯罪要素;执法薄弱;文化因素(羞耻和沉默阻碍举报);以及同伴虐待(如通过学校WhatsApp群组进行的性勒索)。数据集包含10,000行平衡数据(50%为剥削案例,50%为正常案例),涵盖20个非洲国家。数据特征丰富,包括记录ID、国家、剥削类型(共20种,如在线诱骗、性勒索、儿童性剥削材料分发等)、使用的平台、受害者年龄组和性别、脆弱性因素、犯罪者类型、货币化方法、内容类型、受害者数量、报告情况、受害者心理与行为影响(如自我伤害念头、辍学、离家出走、被贩运)、作案手法细节(如虚假个人资料使用、加密聊天、视频通话、安排线下见面、索取照片/视频/直播)、威胁与承诺类型、财务损失、检测与响应指标(如检测时间、举报方、执法通知、受害者转介服务)以及一个二元标签(1表示剥削,0表示正常)。所有记录均为合成数据(is_synthetic=1),但基于UNICEF、WeProtect Global Alliance、INTERPOL、IWF、ECOWAS等权威机构的真实世界研究报告和威胁评估生成。该数据集适用于表格分类任务,可用于训练机器学习模型以识别在线儿童剥削威胁,支持网络安全、威胁情报和儿童保护领域的研究与应用。
创建时间:
2026-05-13
原始信息汇总

数据集概述:Child Online Safety & Exploitation Intelligence (Africa)

基本信息

  • 数据集名称: Child Online Safety & Exploitation Intelligence (Africa)
  • 所属集合: Africa Cyber Threat Intelligence
  • 创建者: electricsheepafrica
  • 语言: 英语
  • 许可证: MIT
  • 任务类别: 表格分类(tabular-classification)
  • 标签: 网络安全、非洲、儿童在线安全、在线剥削、诱骗检测、性勒索、威胁情报

数据集规模与构成

  • 行数: 10,000 条记录(正负样本各 5,000,平衡 50/50)
  • 数据性质: 全部为合成数据(is_synthetic=1),基于真实世界研究数据生成

核心研究领域

该数据集模拟非洲地区儿童在线安全威胁与剥削模式,用于检测与预防研究。非洲拥有全球最年轻的人口(60% 在 25 岁以下),移动互联网普及迅速,但数字素养、家长监管和平台内容审核严重不足,导致儿童易成为在线诱骗、性勒索、儿童性剥削材料(CSE)传播、直播虐待和贩运等犯罪的目标。

非洲特有模式亮点

  • 青年移动端优先访问: 儿童使用父母手机、共享家庭设备和网吧,监管薄弱
  • 主要平台: WhatsApp、TikTok、Instagram、Facebook、PUBG Mobile、Free Fire、Bigo Live、Tango 等
  • 移动货币剥削: 通过 M-Pesa、OPay 等支付性勒索费用;话费充值作为小额支付
  • 诱骗手段: 虚假奖学金、虚假收养、成名/职业承诺、游戏社区渗透、宗教领袖冒充
  • 弱势群体: 孤儿、难民、流浪儿童、寄宿学校学生、贫困儿童、残障儿童
  • 施害者类型: 教师、宗教领袖、家庭朋友、雇主(不仅限于陌生人)
  • 直播应用: Bigo Live、Tango、Likee、Vskit(年龄验证薄弱,有点赞打赏机制)
  • 跨境要素: 外国人诱骗非洲儿童;社交媒体助长跨境贩运
  • 执法不足: 许多非洲国家缺乏专门的儿童在线保护热线和网络犯罪调查部门
  • 文化因素: 羞耻感和沉默文化阻止报告;社区社交网络放大联系人列表威胁
  • 同伴虐待: 同伴间性勒索、通过学校 WhatsApp 群进行的同伴间虐待

剥削类型(共 20 类)

类型 描述
online_grooming 系统性在线诱骗
sextortion 性勒索
cse_material_distribution 儿童性剥削材料分享
live_streaming_abuse 直播虐待
child_trafficking_facilitation 数字化儿童贩运协助
fake_scholarship_scam 虚假奖学金诱骗
fake_adoption_scam 虚假收养诱骗
gaming_platform_grooming 游戏社区诱骗
social_media_exploitation 社交媒体虐待
messaging_app_grooming 通讯应用诱骗
cryptocurrency_payment_abuse 加密货币支付虐待
deepfake_child_exploitation AI 生成的合成虐待
peer_to_peer_abuse 同伴间受害
radicalization_exploitation 通过诱骗进行极端化
forced_labor_recruitment 强迫劳动招募
sexual_extortion_by_peer 同伴性勒索
blackmail_with_real_images 真实图像勒索
online_dating_app_exploitation 约会应用诱骗
live_streaming_platform_abuse 直播平台虐待
encrypted_platform_abuse 加密平台虐待

建模平台

WhatsApp · Facebook · Instagram · TikTok · Telegram · Snapchat · YouTube · Twitter/X · PUBG Mobile · Free Fire · Discord · Bigo Live · Tango · Yubo · Likee · Vskit · IMO · Messenger Kids · 约会应用 · 在线游戏 · SMS/USSD · 网吧 · 加密聊天

数据特征(共 70+ 列)

基础特征

列名 类型 描述
record_id str 唯一标识符
country str 非洲国家(20个国家)
exploitation_type str 威胁类型
platform str 使用的平台
victim_age_group str 受害者年龄分组
victim_gender str 受害者性别
vulnerability_factor str 脆弱因素
perpetrator_type str 施害者类型
monetization_method str 财务方式
content_type str 涉及的内容类型

受害者影响特征

  • victim_count, reports_received, known_victim, victim_reported
  • parent_aware, school_aware, victim_shamed_silenced
  • victim_self_harm_thoughts, victim_attempted_suicide, victim_dropped_out_school, victim_ran_away, victim_trafficked
  • multiple_victims_same_perpetrator, cross_border_victims

技术操作特征

  • age_verification_bypassed, fake_profile_used, cloned_profile
  • profile_posed_as_minor, profile_posed_as_peer, profile_posed_as_celebrity, profile_posed_as_charity_worker
  • group_chat_used, disappearing_messages, encrypted_chat_used
  • live_streaming_feature_used, location_sharing_enabled, video_call_used, voice_call_used

行为与周期特征

  • initial_contact_days, trust_building_duration_days
  • sexual_content_introduced, personal_information_extracted, family_information_extracted, school_information_extracted
  • photos_requested, videos_requested, live_stream_requested, in_person_meeting_requested

威胁与承诺特征

  • threat_of_violence_made, threat_of_shaming_made, threat_to_family_made
  • promises_of_money_gifts, promises_of_scholarship, promises_of_fame_career, promises_of_relationship

经济与检测特征

  • financial_loss_to_victim_usd, perpetrator_revenue_usd
  • detected, time_to_detect_days, detected_by
  • platform_reported, account_suspended, law_enforcement_notified
  • perpetrator_identified, perpetrator_arrested
  • victim_referred_services, counseling_provided, digital_forensics_conducted, public_awareness_campaign_triggered

标记特征

  • label: 1 = 剥削事件,0 = 正常
  • is_synthetic: 1 = 合成数据

提取特征

  • 诱骗深度: grooming_progression_score, advanced_grooming, escalation_pattern
  • 胁迫程度: coercion_score, coercive_grooming, violence_threat
  • 欺骗与规避: deception_score, evasion_score, platform_abuse_score
  • 受害者风险: victim_vulnerability_score, high_vulnerability, very_young
  • 受害者影响: severe_victim_impact, trafficking_indicator, victim_silenced
  • 响应质量: response_effectiveness_score, impunity, victim_support
  • 独热编码: 20种剥削类型、14种平台、年龄分组、脆弱因素、施害者类型、区域标志
  • 综合评分: exploitation_threat_score, victim_vulnerability_score, response_effectiveness_score

情报来源

该数据集基于以下真实世界研究数据合成生成:

  • UNICEF 儿童在线安全报告 — https://www.unicef.org/media
  • WeProtect 全球联盟威胁评估 2024 — https://www.weprotect.org/global-threat-assessment-2024/
  • INTERPOL 非洲儿童性剥削行动 — https://www.interpol.int/en/Crimes/Crimes-against-children/Online-child-sexual-exploitation-and-abuse
  • IWF 年度报告 2024 — https://www.iwf.org.uk/annual-report-2024/
  • ECOWAS 儿童保护策略 — https://ecowas.int/ecowas-child-policy/

使用方式

python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-child-online-safety")

引用

bibtex @misc{electricsheepafrica2026childsafety, title = {Child Online Safety & Exploitation Intelligence (Africa)}, author = {Electric Sheep Africa}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/electricsheepafrica/africa-child-online-safety}} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以非洲为地理焦点,针对其独特的网络儿童安全威胁构建而成。非洲拥有全球最年轻的人口结构,且移动互联网接入率激增,但数字素养与家长监管严重不足,使得网络诱骗、性勒索、儿童性虐待材料传播等风险居高不下。数据集基于UNICEF、WeProtect全球联盟、INTERPOL等权威机构2024至2025年的真实研究报告,采用合成数据生成技术,创建了10,000条平衡样本(正负例各占50%)。每条记录通过模拟真实攻击模式,嵌入了非洲特有的风险因素,如利用WhatsApp等主流平台、移动支付(M-Pesa)作为勒索手段、以及针对孤儿、难民等脆弱群体的犯罪场景。
特点
该数据集的核心特征在于其高度结构化的多维标注体系,覆盖了从犯罪类型、平台、受害者画像到犯罪者动机的70余个字段。它定义了20种具体的利用类型,包括网络诱骗、深度伪造儿童性虐待、加密货币支付滥用等新兴威胁,并细化了受害者的年龄、性别、脆弱性因素(如贫困、残疾)及心理影响(如自残、辍学)。此外,数据集引入了复合评分指标,如诱骗进展得分、胁迫程度、受害者脆弱性指数和响应有效性评分,便于研究者量化评估威胁严重性与干预效果。所有记录均标注为合成数据,确保了隐私合规性。
使用方法
该数据集专为非洲儿童在线安全威胁的检测与预防研究设计,支持表格二分类任务。开发者可通过HuggingFace Datasets库直接加载,使用一行Python代码即可调用。数据适用于训练分类模型以区分正常交互与性剥削事件,或用于分析诱骗行为的时间演变模式(如初始联系天数、信任建立周期)。结合提供的衍生特征(如诱骗进展得分、受害者脆弱性评分),研究者可构建多层风险评估框架,并针对特定平台(如WhatsApp、游戏社区)或犯罪类型(如直播虐待)开展细粒度分析。该数据集遵循MIT开源协议,便于学术与工业应用。
背景与挑战
背景概述
该数据集由Electric Sheep Africa于2026年创建,聚焦于非洲儿童在线安全威胁与剥削模式的检测与预防研究。非洲拥有全球最年轻的人口结构(60%低于25岁),移动互联网接入快速增长,然而数字素养低下、 parental监督缺失及平台内容审核薄弱,营造了在线诱拐、性敲诈、儿童性剥削材料传播、直播虐待及贩卖协助的高风险环境。数据集基于UNICEF、WeProtect全球联盟、INTERPOL及IWF等权威机构的2024年报告,以10,000条平衡的合成记录建模了20个非洲国家的具体威胁模式,涵盖WhatsApp、TikTok等主流平台及M-Pesa等移动支付剥削手段,成为该领域首个系统性数据集,为安全研究与政策制定提供了关键基准。
当前挑战
数据集面临的核心挑战包括:1)领域问题层面,非洲在线儿童剥削因文化羞耻感导致低举报率、跨境犯罪元素复杂(如外国施害者利用假奖学金诱拐)、移动优先环境中年龄验证薄弱及加密平台(如Telegram)滥用,使得传统检测模型难以适配;2)构建过程中,真实数据因隐私与法律限制极为稀缺,需从多来源研究报告合成,但特征工程需精准映射非洲特有的施害者类型(如教师、宗教领袖)及脆弱群体(孤儿、难民),同时平衡60余项特征(如信任建立时长、胁迫评分)以避免过拟合,并确保合成数据的生态有效性。
常用场景
经典使用场景
在非洲地区儿童在线安全研究领域,该数据集广泛应用于构建威胁检测与分类模型。研究人员可基于其丰富的标签特征,开发用于识别网络诱拐、性勒索、儿童性剥削材料传播等二十种剥削类型的分类器。数据集提供的平台信息、受害者年龄、施害者类型等结构化字段,使得训练多标签分类模型或异常检测系统成为可能,尤其是在移动优先的互联网环境中,针对WhatsApp、TikTok等高频应用的风险评估极具研究价值。
解决学术问题
该数据集系统性地填补了非洲地区儿童在线安全研究的空白,解决了数据稀缺这一核心学术困境。传统研究多聚焦于欧美背景,而非洲特有的文化因素、信任型施害者、移动支付剥削等复杂场景,在过去研究中几乎无人触及。数据集通过合成手段模拟真实威胁模式,为学者提供了量化分析儿童剥削动力学、受害者脆弱性评估、以及防护响应效率的宝贵资源。其贡献在于揭示了数字鸿沟与执法薄弱带来的独特安全挑战,推动了跨文化网络安全理论的拓展。
衍生相关工作
该数据集衍生出一系列具有影响力的研究工作,包括基于图神经网络的跨平台诱拐模式挖掘、结合自然语言处理的诈骗话语分析、以及多任务学习框架用于同时预测剥削类型、受害者脆弱性和执法介入效果。研究团队还提出了幼小受害者特异性保护的集成模型,利用异常值检测定位低龄儿童中的极端受害案例。这些工作不仅深化了对非洲儿童在线剥削机制的理解,还为低资源环境下的合成数据生成策略提供了范式,启发了其他发展中地区网络安全数据集的构建方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作