Cyberbullying-Detection-CB1

Name: Cyberbullying-Detection-CB1
Creator: University of Surrey NLP Group
Published: 2026-03-02 23:46:09
License: 暂无描述

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/surrey-nlp/Cyberbullying-Detection-CB1

下载链接

链接失效反馈

官方服务：

资源简介：

CB1 是一个用于社交媒体上自动检测网络欺凌的多类别文本分类数据集。每个实例都是一条来自 Twitter/X 的社交媒体帖子，并标注了网络欺凌类别。数据集包含两个字段：`text`（原始社交媒体帖子文本）和 `label`（网络欺凌类别）。标签类别包括：`not_cyberbullying`（不包含网络欺凌内容）、`ethnicity/race`（针对种族或民族的网络欺凌）、`religion`（针对宗教或宗教身份的网络欺凌）、`gender/sexual`（针对性别或性取向的网络欺凌）、`age`（针对年龄的网络欺凌）和 `other_cyberbullying`（不符合上述类别的网络欺凌）。数据集按 75% 训练集、2000 行验证集（从 25% 的保留部分中抽样）和剩余部分作为测试集进行划分。原始数据来源于 Kaggle 的 '[Cyberbullying Detection](https://www.kaggle.com/datasets/andrewmvd/cyberbullying-classification)' 数据集。

提供机构：

University of Surrey NLP Group

创建时间：

2026-03-02

原始信息汇总

Cyberbullying Detection — CB1 数据集概述

数据集简介

CB1 是一个用于社交媒体上自动网络欺凌检测的多类别文本分类数据集。每个实例是一条单独的社交媒体帖子（来源于 Twitter/X），并标注了网络欺凌类别。该数据集是 Hugging Face 上 Cyberbullying-Detection 集合的一部分。

数据集结构

数据字段

字段	类型	描述
`text`	`string`	原始的社交媒体帖子文本
`label`	`string`	网络欺凌类别

标签类别

标签	描述
`not_cyberbullying`	帖子不包含网络欺凌内容
`ethnicity/race`	针对民族或种族的网络欺凌
`religion`	针对宗教或宗教身份的网络欺凌
`gender/sexual`	针对性别或性取向的网络欺凌
`age`	针对年龄的网络欺凌
`other_cyberbullying`	不属于以上类别的网络欺凌

数据集划分

数据集划分如下：

划分	大小	描述
`train`	占总量的 75%	训练集
`validation`	2,000 行	开发/验证集（从预留的 25% 部分中采样）
`test`	剩余的约 25% 减去 2,000 行	测试集

划分方法

python from sklearn.model_selection import train_test_split

步骤 1: 75% 训练，25% 测试+验证

train_df, test_dev_df = train_test_split(df, test_size=0.25, random_state=42)

步骤 2: 2000 行用于验证，其余用于测试

dev_df = test_dev_df.sample(n=2000, random_state=42) test_df = test_dev_df.drop(dev_df.index)

使用方式

python from datasets import load_dataset

dataset = load_dataset("Washii/Cyberbullying-Detection-CB1")

访问划分

train = dataset["train"] validation = dataset["validation"] test = dataset["test"]

示例

print(train[0])

{text: ..., label: ethnicity/race}

数据来源

原始数据来源于 Kaggle 上的 "Cyberbullying Detection" 数据集，包含针对多个类别标注了网络欺凌的推文。完整的原始文件是 CB1.csv。

引用

如果您使用此数据集，请适当引用原始来源。

数据集卡片作者

由 Washii 上传和整理。

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析的背景下，CB1数据集的构建遵循了严谨的流程。其原始数据源自Kaggle平台上的公开资源，包含了从Twitter/X平台采集的社交媒体帖子。通过人工标注的方式，每条文本被精确地归类到一个特定的网络欺凌类别中，包括针对种族、宗教、性别、年龄的欺凌行为，以及其他类型或非欺凌内容。随后，采用分层抽样策略，借助机器学习库将整体数据划分为训练集、验证集和测试集，确保了数据分割的科学性与可复现性，为模型训练与评估奠定了可靠基础。

特点

该数据集的核心特点体现在其针对性与结构性上。作为一个专为多类别文本分类设计的数据集，它聚焦于自动化网络欺凌检测这一社会计算领域的关键任务。数据字段简洁明了，仅包含原始文本及其对应的类别标签，便于直接用于模型输入。标签体系设计细致，不仅区分了欺凌与非欺凌内容，更对欺凌的具体动机进行了多维度细分，这有助于模型学习更精细的语义特征和攻击模式，提升了检测的准确性与可解释性。

使用方法

对于研究人员和开发者而言，使用该数据集的过程极为便捷。通过Hugging Face的`datasets`库，可以一行代码加载整个数据集，并直接访问其预定义好的训练、验证和测试分割。加载后的数据以标准字典格式呈现，用户可像操作常规Python数据结构一样进行迭代、批处理或特征提取，无缝集成到现有的自然语言处理工作流中。这种设计极大降低了技术门槛，使得研究者能够快速开展模型训练、性能比较及消融实验，加速相关领域的技术探索与应用部署。

背景与挑战

背景概述

随着社交媒体平台的普及，网络欺凌现象日益凸显，对用户心理健康与社会和谐构成严峻威胁。为应对这一挑战，Cyberbullying-Detection-CB1数据集应运而生，由研究人员Washii基于Kaggle平台原始数据整理并发布于Hugging Face平台。该数据集聚焦于自动化网络欺凌检测这一核心研究问题，通过标注来自Twitter/X平台的社交媒体帖子，涵盖种族、宗教、性别与性取向、年龄及其他类别等多维度欺凌内容。其创建旨在为自然语言处理领域提供高质量的多分类文本分类资源，推动基于机器学习的网络内容安全研究，对社交媒体监管与用户保护具有重要实践意义。

当前挑战

网络欺凌检测任务面临多重挑战：在领域问题层面，文本中欺凌表达往往具有隐含性、语境依赖性与文化特异性，使得模型难以准确区分讽刺、玩笑与恶意攻击；同时，社交媒体语言的非规范性、缩写与网络用语进一步增加了语义理解的复杂度。在数据集构建过程中，挑战主要集中于标注一致性，由于欺凌判定涉及主观判断，不同标注者可能对同一文本产生分歧；此外，数据来源的公开性可能导致用户隐私泄露风险，且原始数据的类别不平衡问题需通过采样或增强技术加以缓解，以确保模型训练的公平性与鲁棒性。

常用场景

经典使用场景

在社交媒体内容安全分析领域，Cyberbullying-Detection-CB1数据集为网络欺凌检测任务提供了关键支撑。该数据集通过标注Twitter平台上的多类别欺凌文本，广泛应用于训练和评估文本分类模型，特别是针对仇恨言论和欺凌内容的自动化识别系统。研究者利用其精细的类别划分，能够深入探究不同欺凌维度的语言特征，从而优化机器学习算法在复杂社交语境下的性能表现。

解决学术问题

该数据集有效解决了网络欺凌检测中细粒度分类的学术挑战。传统研究往往将欺凌内容简单二分为“是”或“否”，而CB1通过引入种族、宗教、性别、年龄等具体类别，使得模型能够识别欺凌的具体目标维度。这不仅提升了检测的精确性，还为理解网络仇恨言论的生成机制提供了数据基础，推动了自然语言处理与社会计算领域的交叉研究。

衍生相关工作

基于CB1数据集，学术界衍生出多项经典研究工作。例如，研究者开发了结合BERT等预训练语言模型的细粒度分类架构，显著提升了多类别欺凌检测的准确率。同时，该数据集也促进了跨平台欺凌检测模型的比较研究，以及针对少数类别样本不平衡问题的数据增强技术探索，为后续更大规模数据集的构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集