africa-child-online-safety

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/electricsheepafrica/africa-child-online-safety

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成数据集，旨在为检测和预防研究建模非洲的在线儿童安全威胁与剥削模式。非洲拥有世界上最年轻的人口（60%在25岁以下），移动互联网普及率快速增长，但数字素养、家长监督和平台内容审核严重不足，这为在线诱骗、性勒索、儿童性剥削材料传播、直播虐待和人口贩运提供了高风险环境。数据集捕捉了非洲特有的模式，包括：青少年以移动设备为首要接入方式（使用父母手机、共享家庭设备、监管薄弱的网吧）；主要平台（如WhatsApp、TikTok、Instagram、Facebook、PUBG Mobile等）；通过M-Pesa、OPay等移动货币进行剥削；诱骗手段（虚假奖学金、虚假收养、成名/职业承诺、游戏社区渗透、宗教领袖冒充）；脆弱人群（孤儿、难民、街头儿童、寄宿学校学生、贫困儿童、残疾儿童）；犯罪者身份（教师、宗教领袖、家庭朋友、雇主等熟人）；直播应用滥用；跨境犯罪要素；执法薄弱；文化因素（羞耻和沉默阻碍举报）；以及同伴虐待（如通过学校WhatsApp群组进行的性勒索）。数据集包含10,000行平衡数据（50%为剥削案例，50%为正常案例），涵盖20个非洲国家。数据特征丰富，包括记录ID、国家、剥削类型（共20种，如在线诱骗、性勒索、儿童性剥削材料分发等）、使用的平台、受害者年龄组和性别、脆弱性因素、犯罪者类型、货币化方法、内容类型、受害者数量、报告情况、受害者心理与行为影响（如自我伤害念头、辍学、离家出走、被贩运）、作案手法细节（如虚假个人资料使用、加密聊天、视频通话、安排线下见面、索取照片/视频/直播）、威胁与承诺类型、财务损失、检测与响应指标（如检测时间、举报方、执法通知、受害者转介服务）以及一个二元标签（1表示剥削，0表示正常）。所有记录均为合成数据（is_synthetic=1），但基于UNICEF、WeProtect Global Alliance、INTERPOL、IWF、ECOWAS等权威机构的真实世界研究报告和威胁评估生成。该数据集适用于表格分类任务，可用于训练机器学习模型以识别在线儿童剥削威胁，支持网络安全、威胁情报和儿童保护领域的研究与应用。

创建时间：

2026-05-13

原始信息汇总

数据集概述：Child Online Safety & Exploitation Intelligence (Africa)

基本信息

数据集名称: Child Online Safety & Exploitation Intelligence (Africa)
所属集合: Africa Cyber Threat Intelligence
创建者: electricsheepafrica
语言: 英语
许可证: MIT
任务类别: 表格分类（tabular-classification）
标签: 网络安全、非洲、儿童在线安全、在线剥削、诱骗检测、性勒索、威胁情报

数据集规模与构成

行数: 10,000 条记录（正负样本各 5,000，平衡 50/50）
数据性质: 全部为合成数据（is_synthetic=1），基于真实世界研究数据生成

核心研究领域

该数据集模拟非洲地区儿童在线安全威胁与剥削模式，用于检测与预防研究。非洲拥有全球最年轻的人口（60% 在 25 岁以下），移动互联网普及迅速，但数字素养、家长监管和平台内容审核严重不足，导致儿童易成为在线诱骗、性勒索、儿童性剥削材料（CSE）传播、直播虐待和贩运等犯罪的目标。

非洲特有模式亮点

青年移动端优先访问: 儿童使用父母手机、共享家庭设备和网吧，监管薄弱
主要平台: WhatsApp、TikTok、Instagram、Facebook、PUBG Mobile、Free Fire、Bigo Live、Tango 等
移动货币剥削: 通过 M-Pesa、OPay 等支付性勒索费用；话费充值作为小额支付
诱骗手段: 虚假奖学金、虚假收养、成名/职业承诺、游戏社区渗透、宗教领袖冒充
弱势群体: 孤儿、难民、流浪儿童、寄宿学校学生、贫困儿童、残障儿童
施害者类型: 教师、宗教领袖、家庭朋友、雇主（不仅限于陌生人）
直播应用: Bigo Live、Tango、Likee、Vskit（年龄验证薄弱，有点赞打赏机制）
跨境要素: 外国人诱骗非洲儿童；社交媒体助长跨境贩运
执法不足: 许多非洲国家缺乏专门的儿童在线保护热线和网络犯罪调查部门
文化因素: 羞耻感和沉默文化阻止报告；社区社交网络放大联系人列表威胁
同伴虐待: 同伴间性勒索、通过学校 WhatsApp 群进行的同伴间虐待

剥削类型（共 20 类）

类型	描述
`online_grooming`	系统性在线诱骗
`sextortion`	性勒索
`cse_material_distribution`	儿童性剥削材料分享
`live_streaming_abuse`	直播虐待
`child_trafficking_facilitation`	数字化儿童贩运协助
`fake_scholarship_scam`	虚假奖学金诱骗
`fake_adoption_scam`	虚假收养诱骗
`gaming_platform_grooming`	游戏社区诱骗
`social_media_exploitation`	社交媒体虐待
`messaging_app_grooming`	通讯应用诱骗
`cryptocurrency_payment_abuse`	加密货币支付虐待
`deepfake_child_exploitation`	AI 生成的合成虐待
`peer_to_peer_abuse`	同伴间受害
`radicalization_exploitation`	通过诱骗进行极端化
`forced_labor_recruitment`	强迫劳动招募
`sexual_extortion_by_peer`	同伴性勒索
`blackmail_with_real_images`	真实图像勒索
`online_dating_app_exploitation`	约会应用诱骗
`live_streaming_platform_abuse`	直播平台虐待
`encrypted_platform_abuse`	加密平台虐待

建模平台

WhatsApp · Facebook · Instagram · TikTok · Telegram · Snapchat · YouTube · Twitter/X · PUBG Mobile · Free Fire · Discord · Bigo Live · Tango · Yubo · Likee · Vskit · IMO · Messenger Kids · 约会应用 · 在线游戏 · SMS/USSD · 网吧 · 加密聊天

数据特征（共 70+ 列）

基础特征

列名	类型	描述
`record_id`	str	唯一标识符
`country`	str	非洲国家（20个国家）
`exploitation_type`	str	威胁类型
`platform`	str	使用的平台
`victim_age_group`	str	受害者年龄分组
`victim_gender`	str	受害者性别
`vulnerability_factor`	str	脆弱因素
`perpetrator_type`	str	施害者类型
`monetization_method`	str	财务方式
`content_type`	str	涉及的内容类型

受害者影响特征

victim_count, reports_received, known_victim, victim_reported
parent_aware, school_aware, victim_shamed_silenced
victim_self_harm_thoughts, victim_attempted_suicide, victim_dropped_out_school, victim_ran_away, victim_trafficked
multiple_victims_same_perpetrator, cross_border_victims

技术操作特征

age_verification_bypassed, fake_profile_used, cloned_profile
profile_posed_as_minor, profile_posed_as_peer, profile_posed_as_celebrity, profile_posed_as_charity_worker
group_chat_used, disappearing_messages, encrypted_chat_used
live_streaming_feature_used, location_sharing_enabled, video_call_used, voice_call_used

行为与周期特征

initial_contact_days, trust_building_duration_days
sexual_content_introduced, personal_information_extracted, family_information_extracted, school_information_extracted
photos_requested, videos_requested, live_stream_requested, in_person_meeting_requested

威胁与承诺特征

threat_of_violence_made, threat_of_shaming_made, threat_to_family_made
promises_of_money_gifts, promises_of_scholarship, promises_of_fame_career, promises_of_relationship

经济与检测特征

financial_loss_to_victim_usd, perpetrator_revenue_usd
detected, time_to_detect_days, detected_by
platform_reported, account_suspended, law_enforcement_notified
perpetrator_identified, perpetrator_arrested
victim_referred_services, counseling_provided, digital_forensics_conducted, public_awareness_campaign_triggered

标记特征

label: 1 = 剥削事件，0 = 正常
is_synthetic: 1 = 合成数据

提取特征

诱骗深度: grooming_progression_score, advanced_grooming, escalation_pattern
胁迫程度: coercion_score, coercive_grooming, violence_threat
欺骗与规避: deception_score, evasion_score, platform_abuse_score
受害者风险: victim_vulnerability_score, high_vulnerability, very_young
受害者影响: severe_victim_impact, trafficking_indicator, victim_silenced
响应质量: response_effectiveness_score, impunity, victim_support
独热编码: 20种剥削类型、14种平台、年龄分组、脆弱因素、施害者类型、区域标志
综合评分: exploitation_threat_score, victim_vulnerability_score, response_effectiveness_score

情报来源

该数据集基于以下真实世界研究数据合成生成：

UNICEF 儿童在线安全报告 — https://www.unicef.org/media
WeProtect 全球联盟威胁评估 2024 — https://www.weprotect.org/global-threat-assessment-2024/
INTERPOL 非洲儿童性剥削行动 — https://www.interpol.int/en/Crimes/Crimes-against-children/Online-child-sexual-exploitation-and-abuse
IWF 年度报告 2024 — https://www.iwf.org.uk/annual-report-2024/
ECOWAS 儿童保护策略 — https://ecowas.int/ecowas-child-policy/

使用方式

python from datasets import load_dataset dataset = load_dataset("electricsheepafrica/africa-child-online-safety")

引用

bibtex @misc{electricsheepafrica2026childsafety, title = {Child Online Safety & Exploitation Intelligence (Africa)}, author = {Electric Sheep Africa}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/electricsheepafrica/africa-child-online-safety}} }

搜集汇总

数据集介绍

构建方式

该数据集以非洲为地理焦点，针对其独特的网络儿童安全威胁构建而成。非洲拥有全球最年轻的人口结构，且移动互联网接入率激增，但数字素养与家长监管严重不足，使得网络诱骗、性勒索、儿童性虐待材料传播等风险居高不下。数据集基于UNICEF、WeProtect全球联盟、INTERPOL等权威机构2024至2025年的真实研究报告，采用合成数据生成技术，创建了10,000条平衡样本（正负例各占50%）。每条记录通过模拟真实攻击模式，嵌入了非洲特有的风险因素，如利用WhatsApp等主流平台、移动支付（M-Pesa）作为勒索手段、以及针对孤儿、难民等脆弱群体的犯罪场景。

特点

该数据集的核心特征在于其高度结构化的多维标注体系，覆盖了从犯罪类型、平台、受害者画像到犯罪者动机的70余个字段。它定义了20种具体的利用类型，包括网络诱骗、深度伪造儿童性虐待、加密货币支付滥用等新兴威胁，并细化了受害者的年龄、性别、脆弱性因素（如贫困、残疾）及心理影响（如自残、辍学）。此外，数据集引入了复合评分指标，如诱骗进展得分、胁迫程度、受害者脆弱性指数和响应有效性评分，便于研究者量化评估威胁严重性与干预效果。所有记录均标注为合成数据，确保了隐私合规性。

使用方法

该数据集专为非洲儿童在线安全威胁的检测与预防研究设计，支持表格二分类任务。开发者可通过HuggingFace Datasets库直接加载，使用一行Python代码即可调用。数据适用于训练分类模型以区分正常交互与性剥削事件，或用于分析诱骗行为的时间演变模式（如初始联系天数、信任建立周期）。结合提供的衍生特征（如诱骗进展得分、受害者脆弱性评分），研究者可构建多层风险评估框架，并针对特定平台（如WhatsApp、游戏社区）或犯罪类型（如直播虐待）开展细粒度分析。该数据集遵循MIT开源协议，便于学术与工业应用。

背景与挑战

背景概述

该数据集由Electric Sheep Africa于2026年创建，聚焦于非洲儿童在线安全威胁与剥削模式的检测与预防研究。非洲拥有全球最年轻的人口结构（60%低于25岁），移动互联网接入快速增长，然而数字素养低下、 parental监督缺失及平台内容审核薄弱，营造了在线诱拐、性敲诈、儿童性剥削材料传播、直播虐待及贩卖协助的高风险环境。数据集基于UNICEF、WeProtect全球联盟、INTERPOL及IWF等权威机构的2024年报告，以10,000条平衡的合成记录建模了20个非洲国家的具体威胁模式，涵盖WhatsApp、TikTok等主流平台及M-Pesa等移动支付剥削手段，成为该领域首个系统性数据集，为安全研究与政策制定提供了关键基准。

当前挑战

数据集面临的核心挑战包括：1)领域问题层面，非洲在线儿童剥削因文化羞耻感导致低举报率、跨境犯罪元素复杂（如外国施害者利用假奖学金诱拐）、移动优先环境中年龄验证薄弱及加密平台（如Telegram）滥用，使得传统检测模型难以适配；2)构建过程中，真实数据因隐私与法律限制极为稀缺，需从多来源研究报告合成，但特征工程需精准映射非洲特有的施害者类型（如教师、宗教领袖）及脆弱群体（孤儿、难民），同时平衡60余项特征（如信任建立时长、胁迫评分）以避免过拟合，并确保合成数据的生态有效性。

常用场景

经典使用场景

在非洲地区儿童在线安全研究领域，该数据集广泛应用于构建威胁检测与分类模型。研究人员可基于其丰富的标签特征，开发用于识别网络诱拐、性勒索、儿童性剥削材料传播等二十种剥削类型的分类器。数据集提供的平台信息、受害者年龄、施害者类型等结构化字段，使得训练多标签分类模型或异常检测系统成为可能，尤其是在移动优先的互联网环境中，针对WhatsApp、TikTok等高频应用的风险评估极具研究价值。

解决学术问题

该数据集系统性地填补了非洲地区儿童在线安全研究的空白，解决了数据稀缺这一核心学术困境。传统研究多聚焦于欧美背景，而非洲特有的文化因素、信任型施害者、移动支付剥削等复杂场景，在过去研究中几乎无人触及。数据集通过合成手段模拟真实威胁模式，为学者提供了量化分析儿童剥削动力学、受害者脆弱性评估、以及防护响应效率的宝贵资源。其贡献在于揭示了数字鸿沟与执法薄弱带来的独特安全挑战，推动了跨文化网络安全理论的拓展。

衍生相关工作

该数据集衍生出一系列具有影响力的研究工作，包括基于图神经网络的跨平台诱拐模式挖掘、结合自然语言处理的诈骗话语分析、以及多任务学习框架用于同时预测剥削类型、受害者脆弱性和执法介入效果。研究团队还提出了幼小受害者特异性保护的集成模型，利用异常值检测定位低龄儿童中的极端受害案例。这些工作不仅深化了对非洲儿童在线剥削机制的理解，还为低资源环境下的合成数据生成策略提供了范式，启发了其他发展中地区网络安全数据集的构建方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集