ChildGuard Dataset

github2025-06-20 更新2025-07-01 收录

下载链接：

https://github.com/RafiqAli25/ChildGaurd

下载链接

链接失效反馈

官方服务：

资源简介：

ChildGuard数据集是一个专门用于检测和分析针对儿童的在线仇恨言论的精选数据集。它包含超过350,000条多语言社交媒体帖子，并带有详细的年龄组标签、上下文和词汇特征，以及严格的专家注释，以支持检测和减轻针对儿童的在线虐待的研究。

The ChildGuard dataset is a curated collection specifically designed for detecting and analyzing online hate speech targeted at children. It encompasses over 350,000 multi-language social media posts, accompanied by detailed age-group tags, contextual and lexical features, as well as rigorous expert annotations to support research on detecting and mitigating online abuse against children.

创建时间：

2025-06-20

原始信息汇总

ChildGuard数据集概述

数据集简介

名称：ChildGuard Dataset
用途：检测和分析针对儿童的网络仇恨言论
作者：Gautam Siddharth Kashyap, Mohammad Anas Azeez, Rafiq Ali, Zohaib Hasan Siddiqui, Jiechao Gao, Usman Naseem
数据来源：社交媒体和在线内容
特点：包含年龄标签、情感分数和上下文特征

数据集结构

1. Lexical Subset（词汇子集）

样本数：157,280行
字段：
- text：原始用户生成文本
- actual_class：真实标签（Hate/Non-Hate）
- predicted_class：模型预测标签
- Hate：仇恨言论标识（1=仇恨，0=非仇恨）
特点：专注于词级特征，无年龄标签

2. Contextual Subset（上下文子集）

样本数：194,597行
字段：
- text：原始用户生成文本
- actual_class：真实标签
- predicted_class：模型预测标签
- Age_Group：年龄组（Teens/Pre-teens/Younger Children）
- Hate：仇恨言论标识
特点：包含年龄类别和平台特定上下文分数

3. Full ChildGuard Dataset（完整数据集）

样本数：351,877行
字段：同Contextual Subset
特点：整合词汇和上下文注释，覆盖三个年龄组

关键统计

指标	Lexical	Contextual	ChildGuard
唯一单词数	28,764	22,890	35,412
平均文本长度（单词）	19.1	22.7	21.2
显性仇恨比例	26%	24%	25%
隐性仇恨比例	12%	14%	13%

数据文件

contextual_childhate.csv
- 样本数：194,597
- 字段：text, actual_class, predicted_class, Age_Group, Hate
lexical_childhate.csv
- 样本数：157,280
- 字段：text, actual_class, predicted_class, Hate
childguard_dataset.csv
- 样本数：351,877
- 字段：text, actual_class, predicted_class, Age_Group, Hate

联系方式

联系人：Rafiq Ali
邮箱：rafworkacc@gmail.com
最后更新：2025年6月

搜集汇总

数据集介绍

构建方式

在数字时代儿童网络安全日益受到关注的背景下，ChildGuard数据集通过整合多源社交媒体语料构建而成。该数据集采用分层标注策略，首先从现有语料库中筛选涉及未成年人的内容，随后由专业团队进行双重标注：一方面识别仇恨言论的显隐性特征，另一方面标注三个精细划分的年龄组别（13-17岁、11-12岁、11岁以下）。为提升数据质量，研究团队引入了交叉验证机制，并补充了词汇丰富度、情感极性等语言学特征，最终形成包含35万余条样本的综合性语料库。

特点

该数据集最显著的特征体现在其多维标注体系上。除基础的仇恨言论二分类标签外，独创性地引入了年龄敏感维度，使研究者能探究不同年龄段儿童的网络暴力模式差异。数据分布方面，显性仇恨内容占比25%，隐性仇恨占13%，反映了网络暴力的复杂光谱。文本平均长度21词，词汇库涵盖3.5万余个独特词项，既保证了语义分析的深度，又维持了计算效率。特别设计的词汇子集与上下文子集可分别支持词法分析和语境理解两种研究范式。

使用方法

研究者可通过三种路径使用该数据集：词汇子集适用于基于词频、n-gram等传统NLP方法的研究；上下文子集支持结合年龄标签的深度语义建模；完整数据集则适合端到端的仇恨言论检测系统开发。每个CSV文件均包含原始文本、人工标注、模型预测三重标签，支持监督学习、半监督学习等多种实验设计。使用时应特别注意年龄组别标签仅存在于上下文子集和完整数据集中，进行跨子集比较时需考虑这一特征差异。

背景与挑战

背景概述

随着数字环境的快速发展，针对未成年人的网络仇恨言论问题日益凸显，亟需专业数据集以支持相关研究。ChildGuard数据集由Gautam Siddharth Kashyap等学者于2025年构建，是一个专门用于检测和分析针对未成年人仇恨言论的标注数据集。该数据集整合了社交媒体和在线内容，通过年龄标签、情感分数和上下文特征对样本进行丰富标注，旨在为保护数字环境中的未成年人提供研究基础。数据集包含词汇子集、上下文子集和完整数据集三个部分，覆盖青少年、青春期前儿童和低龄儿童三个年龄群体，为仇恨言论检测领域提供了重要的数据支持。

当前挑战

在仇恨言论检测领域，针对未成年人的仇恨言论具有隐蔽性强、语义复杂等特点，传统检测方法往往难以准确识别。ChildGuard数据集构建过程中面临多重挑战：数据标注需要兼顾词汇特征与上下文语义，年龄标签的引入增加了标注复杂度；网络语言的动态演变导致仇恨表达形式不断更新，数据集需持续迭代以保持时效性；不同年龄群体对仇恨言论的敏感度存在差异，模型需具备细粒度识别能力。这些挑战对数据质量和模型性能提出了更高要求。

常用场景

经典使用场景

在数字时代，儿童和青少年面临的网络仇恨言论问题日益严峻，ChildGuard数据集通过其精心标注的社交媒体内容，为研究人员提供了丰富的语料库。该数据集最经典的使用场景在于训练和评估针对未成年人的仇恨言论检测模型，尤其是在区分显性和隐性仇恨内容方面表现出色。其独特的年龄分组标注使得模型能够更精准地识别针对不同年龄段儿童的恶意语言，为构建更安全的网络环境奠定了数据基础。

实际应用

在实际应用层面，ChildGuard数据集已被多家儿童保护组织和社交平台采用，用于开发实时内容过滤系统。教育机构利用该数据集训练的人工智能模型，能够自动识别并屏蔽针对学生的网络霸凌内容。政府部门则基于该数据集的统计分析，制定更精准的未成年人网络保护政策，显著提升了网络环境的安全系数。

衍生相关工作

围绕ChildGuard数据集已衍生出多项重要研究，包括基于深度学习的多年龄组仇恨言论分类器、结合心理语言学特征的恶意内容预测模型等。该数据集还启发了跨学科合作，促使计算机科学家与儿童心理学家共同开发了考虑发展心理学因素的检测框架，推动了保护性人工智能技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集