Cyberbullying-Detection-CB1
收藏Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/surrey-nlp/Cyberbullying-Detection-CB1
下载链接
链接失效反馈官方服务:
资源简介:
CB1 是一个用于社交媒体上自动检测网络欺凌的多类别文本分类数据集。每个实例都是一条来自 Twitter/X 的社交媒体帖子,并标注了网络欺凌类别。数据集包含两个字段:`text`(原始社交媒体帖子文本)和 `label`(网络欺凌类别)。标签类别包括:`not_cyberbullying`(不包含网络欺凌内容)、`ethnicity/race`(针对种族或民族的网络欺凌)、`religion`(针对宗教或宗教身份的网络欺凌)、`gender/sexual`(针对性别或性取向的网络欺凌)、`age`(针对年龄的网络欺凌)和 `other_cyberbullying`(不符合上述类别的网络欺凌)。数据集按 75% 训练集、2000 行验证集(从 25% 的保留部分中抽样)和剩余部分作为测试集进行划分。原始数据来源于 Kaggle 的 '[Cyberbullying Detection](https://www.kaggle.com/datasets/andrewmvd/cyberbullying-classification)' 数据集。
提供机构:
University of Surrey NLP Group
创建时间:
2026-03-02
原始信息汇总
Cyberbullying Detection — CB1 数据集概述
数据集简介
CB1 是一个用于社交媒体上自动网络欺凌检测的多类别文本分类数据集。每个实例是一条单独的社交媒体帖子(来源于 Twitter/X),并标注了网络欺凌类别。该数据集是 Hugging Face 上 Cyberbullying-Detection 集合的一部分。
数据集结构
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
text |
string |
原始的社交媒体帖子文本 |
label |
string |
网络欺凌类别 |
标签类别
| 标签 | 描述 |
|---|---|
not_cyberbullying |
帖子不包含网络欺凌内容 |
ethnicity/race |
针对民族或种族的网络欺凌 |
religion |
针对宗教或宗教身份的网络欺凌 |
gender/sexual |
针对性别或性取向的网络欺凌 |
age |
针对年龄的网络欺凌 |
other_cyberbullying |
不属于以上类别的网络欺凌 |
数据集划分
数据集划分如下:
| 划分 | 大小 | 描述 |
|---|---|---|
train |
占总量的 75% | 训练集 |
validation |
2,000 行 | 开发/验证集(从预留的 25% 部分中采样) |
test |
剩余的约 25% 减去 2,000 行 | 测试集 |
划分方法
python from sklearn.model_selection import train_test_split
步骤 1: 75% 训练,25% 测试+验证
train_df, test_dev_df = train_test_split(df, test_size=0.25, random_state=42)
步骤 2: 2000 行用于验证,其余用于测试
dev_df = test_dev_df.sample(n=2000, random_state=42) test_df = test_dev_df.drop(dev_df.index)
使用方式
python from datasets import load_dataset
dataset = load_dataset("Washii/Cyberbullying-Detection-CB1")
访问划分
train = dataset["train"] validation = dataset["validation"] test = dataset["test"]
示例
print(train[0])
{text: ..., label: ethnicity/race}
数据来源
原始数据来源于 Kaggle 上的 "Cyberbullying Detection" 数据集,包含针对多个类别标注了网络欺凌的推文。完整的原始文件是 CB1.csv。
引用
如果您使用此数据集,请适当引用原始来源。
数据集卡片作者
由 Washii 上传和整理。
搜集汇总
数据集介绍
构建方式
在社交媒体内容分析的背景下,CB1数据集的构建遵循了严谨的流程。其原始数据源自Kaggle平台上的公开资源,包含了从Twitter/X平台采集的社交媒体帖子。通过人工标注的方式,每条文本被精确地归类到一个特定的网络欺凌类别中,包括针对种族、宗教、性别、年龄的欺凌行为,以及其他类型或非欺凌内容。随后,采用分层抽样策略,借助机器学习库将整体数据划分为训练集、验证集和测试集,确保了数据分割的科学性与可复现性,为模型训练与评估奠定了可靠基础。
特点
该数据集的核心特点体现在其针对性与结构性上。作为一个专为多类别文本分类设计的数据集,它聚焦于自动化网络欺凌检测这一社会计算领域的关键任务。数据字段简洁明了,仅包含原始文本及其对应的类别标签,便于直接用于模型输入。标签体系设计细致,不仅区分了欺凌与非欺凌内容,更对欺凌的具体动机进行了多维度细分,这有助于模型学习更精细的语义特征和攻击模式,提升了检测的准确性与可解释性。
使用方法
对于研究人员和开发者而言,使用该数据集的过程极为便捷。通过Hugging Face的`datasets`库,可以一行代码加载整个数据集,并直接访问其预定义好的训练、验证和测试分割。加载后的数据以标准字典格式呈现,用户可像操作常规Python数据结构一样进行迭代、批处理或特征提取,无缝集成到现有的自然语言处理工作流中。这种设计极大降低了技术门槛,使得研究者能够快速开展模型训练、性能比较及消融实验,加速相关领域的技术探索与应用部署。
背景与挑战
背景概述
随着社交媒体平台的普及,网络欺凌现象日益凸显,对用户心理健康与社会和谐构成严峻威胁。为应对这一挑战,Cyberbullying-Detection-CB1数据集应运而生,由研究人员Washii基于Kaggle平台原始数据整理并发布于Hugging Face平台。该数据集聚焦于自动化网络欺凌检测这一核心研究问题,通过标注来自Twitter/X平台的社交媒体帖子,涵盖种族、宗教、性别与性取向、年龄及其他类别等多维度欺凌内容。其创建旨在为自然语言处理领域提供高质量的多分类文本分类资源,推动基于机器学习的网络内容安全研究,对社交媒体监管与用户保护具有重要实践意义。
当前挑战
网络欺凌检测任务面临多重挑战:在领域问题层面,文本中欺凌表达往往具有隐含性、语境依赖性与文化特异性,使得模型难以准确区分讽刺、玩笑与恶意攻击;同时,社交媒体语言的非规范性、缩写与网络用语进一步增加了语义理解的复杂度。在数据集构建过程中,挑战主要集中于标注一致性,由于欺凌判定涉及主观判断,不同标注者可能对同一文本产生分歧;此外,数据来源的公开性可能导致用户隐私泄露风险,且原始数据的类别不平衡问题需通过采样或增强技术加以缓解,以确保模型训练的公平性与鲁棒性。
常用场景
经典使用场景
在社交媒体内容安全分析领域,Cyberbullying-Detection-CB1数据集为网络欺凌检测任务提供了关键支撑。该数据集通过标注Twitter平台上的多类别欺凌文本,广泛应用于训练和评估文本分类模型,特别是针对仇恨言论和欺凌内容的自动化识别系统。研究者利用其精细的类别划分,能够深入探究不同欺凌维度的语言特征,从而优化机器学习算法在复杂社交语境下的性能表现。
解决学术问题
该数据集有效解决了网络欺凌检测中细粒度分类的学术挑战。传统研究往往将欺凌内容简单二分为“是”或“否”,而CB1通过引入种族、宗教、性别、年龄等具体类别,使得模型能够识别欺凌的具体目标维度。这不仅提升了检测的精确性,还为理解网络仇恨言论的生成机制提供了数据基础,推动了自然语言处理与社会计算领域的交叉研究。
衍生相关工作
基于CB1数据集,学术界衍生出多项经典研究工作。例如,研究者开发了结合BERT等预训练语言模型的细粒度分类架构,显著提升了多类别欺凌检测的准确率。同时,该数据集也促进了跨平台欺凌检测模型的比较研究,以及针对少数类别样本不平衡问题的数据增强技术探索,为后续更大规模数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



