Cyberbullying-Detection-CB2

Name: Cyberbullying-Detection-CB2
Creator: University of Surrey NLP Group
Published: 2026-03-02 23:47:06
License: 暂无描述

Hugging Face2026-03-02 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/surrey-nlp/Cyberbullying-Detection-CB2

下载链接

链接失效反馈

官方服务：

资源简介：

CB2 是一个关系型、对话级别的网络欺凌检测数据集。与单条帖子数据集不同，CB2 中的每个实例代表一对用户及其完整的消息交换。网络欺凌标签在对话级别确定（即两个用户之间的互动是否构成网络欺凌），并包含人口统计信息、社交亲密度（peerness）和消息级别的攻击性统计数据。数据集来源于一项针对8-17岁学生的在线交流研究，涉及15所匿名学校。数据集结构包括用户ID、年龄、性别、学校年级、消息总数、攻击性消息数量、意图伤害分数、社交亲密度分数、对话内容（每条消息及其标签）以及网络欺凌标签。数据集分为训练集（75%）、验证集（2000行）和测试集（剩余部分）。

提供机构：

University of Surrey NLP Group

创建时间：

2026-03-02

原始信息汇总

Cyberbullying Detection — CB2 数据集概述

数据集简介

CB2 是一个关系型、对话级别的网络欺凌检测数据集。与单条帖子数据集不同，CB2 中的每个实例代表一对用户及其完整的消息交换记录。网络欺凌标签在对话级别确定（即判断两个用户之间的互动是否构成网络欺凌），并丰富了人口统计信息、社会亲密度（对等性）以及消息级别的攻击性统计数据。该数据集源自一项针对 8-17 岁学生的在线交流研究，涉及 15 所匿名学校。此数据集是 Hugging Face 上 Cyberbullying-Detection 集合的一部分。

数据集结构

数据字段

字段	类型	描述
`user1_id`	`int`	用户 1（发起者）的唯一 ID
`user2_id`	`int`	用户 2（接收者）的唯一 ID
`user1_age`	`int`	用户 1 的年龄
`user1_gender`	`string`	用户 1 的性别（`Male`、`Female`、`Others`）
`user1_grade`	`int`	用户 1 的学校年级
`user2_age`	`int`	用户 2 的年龄
`user2_gender`	`string`	用户 2 的性别（`Male`、`Female`、`Others`）
`user2_grade`	`int`	用户 2 的学校年级
`total_messages`	`int`	该用户对之间交换的消息总数
`aggressive_count`	`int`	被分类为攻击性的消息数量
`intent_to_harm`	`float`	计算得出的伤害意图分数（0.0–1.0）
`peerness`	`float`	两个用户之间的社会亲密度/相似性分数（0.0–1.0）
`conversation`	`list[dict]`	有序的消息列表：每个条目为 `{"message": str, "label": int}`，其中 `label` 为 `1`（攻击性）或 `0`（非攻击性）
`label`	`int`	二元网络欺凌标签：`1` = 网络欺凌，`0` = 非网络欺凌

标签类别

值	含义
`1`	该用户对互动构成网络欺凌
`0`	该用户对互动不构成网络欺凌

源文件

CB2 由 6 个源文件组装而成：

文件	作用
`1. users_data.csv`	每个用户的人口统计信息（年龄、性别、学校、年级）
`2. peerness_values.csv`	用户对之间的社会亲密度分数
`3. Aggressive_All.csv`	所有攻击性消息的语料库（参考）
`4. Non_Aggressive_All.csv`	所有非攻击性消息的语料库（参考）
`5. Communication_Data_Among_Users.csv`	带时间戳的消息日志，包含每条消息的攻击性标签
`6. CB_Labels.csv`	枢纽文件 — 每行代表一个用户对，包含聚合统计数据和最终的 CB 标签

数据集划分

数据集划分如下：

划分	大小	描述
`train`	总量的 75%	训练集
`validation`	2,000 行	开发/验证集（从 25% 的预留部分中采样）
`test`	剩余约 25% 减去 2,000 行	测试集

划分方法

python from sklearn.model_selection import train_test_split

步骤 1: 75% 训练，25% 测试+验证（按标签分层）

train_df, test_dev_df = train_test_split(df, test_size=0.25, random_state=42, stratify=df["label"])

步骤 2: 2000 行用于验证，其余用于测试

dev_df = test_dev_df.sample(n=2000, random_state=42) test_df = test_dev_df.drop(dev_df.index)

使用方式

python from datasets import load_dataset

dataset = load_dataset("Washii/Cyberbullying-Detection-CB2")

访问划分

train = dataset["train"] validation = dataset["validation"] test = dataset["test"]

示例行

print(train[0])

构建说明

conversation 字段是通过按 (User1 ID, User2 ID) 分组 5. Communication_Data_Among_Users.csv 中的所有消息，按 Date 和 Time 排序，并存储为 {message, label} 字典列表而构建的。
最终表中的 peerness 字段直接来自 6. CB_Labels.csv（该文件已包含来自 2. peerness_values.csv 的值）。
用户人口统计信息是从 1. users_data.csv 中两次连接得到的（一次为用户 1，一次为用户 2）。
文件 3. Aggressive_All.csv 和 4. Non_Aggressive_All.csv 是参考语料库，未直接连接到最终表中（它们的内容已通过文件 5 表示）。

源数据

原始数据源自 https://data.mendeley.com/datasets/wmx9jj2htd/2（一个用于自动网络欺凌检测的综合数据集）。

引用

如果使用此数据集，请适当引用原始来源。

数据集卡片作者

由 Washii 上传和整理。

搜集汇总

数据集介绍

构建方式

在社交网络欺凌检测领域，CB2数据集的构建体现了对交互动态的深度捕捉。该数据集源自一项针对8至17岁学生的在线交流研究，覆盖了15所匿名学校的用户群体。构建过程整合了六类源文件，包括用户人口统计信息、社交亲密度评分、攻击性消息语料库以及用户间通信日志。核心步骤涉及将时间戳消息按用户对分组并排序，形成结构化的对话序列，同时通过聚合统计指标和二元标注策略，在对话层面判定网络欺凌行为，确保了数据在关系维度上的完整性与一致性。

使用方法

在自然语言处理与社交计算研究中，CB2数据集适用于训练和评估对话级别的网络欺凌检测模型。用户可通过Hugging Face的datasets库直接加载数据集，并访问预划分的训练、验证与测试子集。数据以结构化行形式呈现，每条记录包含完整的对话序列、统计特征及二元标签，便于进行特征工程或端到端的深度学习建模。研究人员可基于此开展多任务学习，例如结合消息级攻击性检测与对话级欺凌分类，以深入探究网络欺凌的语义与交互模式。

背景与挑战

背景概述

随着社交媒体在青少年群体中的普及，网络欺凌已成为一个严峻的社会问题，对受害者的心理健康造成深远影响。Cyberbullying-Detection-CB2数据集由研究人员Washii等人构建，旨在推动对话级别的网络欺凌检测研究。该数据集聚焦于8至17岁学生之间的在线交流，通过捕捉用户对之间的完整消息交换，并整合人口统计信息、社会亲密度及消息级攻击性统计，为理解网络欺凌的动态交互本质提供了关键数据支持。其创新之处在于将检测单位从单一帖子扩展至对话层面，从而更准确地反映欺凌行为在人际互动中的演变过程。

当前挑战

在解决网络欺凌检测这一领域问题时，主要挑战在于如何从复杂的对话语境中识别欺凌意图，而非仅仅依赖关键词匹配。传统的单帖分类方法难以捕捉欺凌行为在连续交互中的累积效应和上下文依赖性。在数据集构建过程中，研究人员面临多重挑战：首先，需要从匿名化的学校通信数据中安全地提取并整合多源信息，包括用户属性、社交关系及消息序列，同时确保隐私保护；其次，对话级别的标签标注要求对整段交互进行综合判断，这依赖于精细的人工或计算评估，以区分攻击性言论与欺凌行为之间的微妙差异；此外，数据的不平衡性和青少年语言的非正式性也为模型的泛化能力带来了考验。

常用场景

经典使用场景

在社交媒体安全与网络欺凌检测领域，CB2数据集以其对话级别的独特结构，为研究者提供了模拟真实社交互动的实验平台。该数据集最经典的使用场景在于训练和评估机器学习模型，特别是那些专注于识别用户对之间完整消息交换中是否存在网络欺凌行为的模型。通过整合对话序列、用户人口统计信息及社交亲密度等多维度特征，CB2使得模型能够超越单一帖子的分析，深入理解互动语境中的攻击性动态，从而在自然语言处理任务中实现更精准的欺凌模式识别。

解决学术问题

CB2数据集有效解决了网络欺凌检测研究中长期存在的语境缺失与关系忽略问题。传统方法往往依赖于孤立的消息分类，难以捕捉欺凌行为在连续对话中的演变过程。该数据集通过提供成对用户的完整对话记录及聚合统计指标，使研究者能够探索欺凌意图、社交距离与人口因素之间的复杂关联，推动了基于关系的检测范式发展。其意义在于为学术界提供了首个大规模、细粒度的对话级欺凌标注资源，促进了跨学科研究，对理解在线社交动力学及开发更人性化的干预系统产生了深远影响。

实际应用

在实际应用层面，CB2数据集为构建智能内容审核与青少年在线保护系统提供了关键数据支撑。教育机构和社交平台可利用基于该数据集训练的模型，实时监测学生或用户间的对话，自动识别潜在的欺凌互动并及时预警。系统能够结合用户的年龄、性别和年级等信息，提供差异化的风险评估，辅助辅导员或管理员进行精准干预。此外，其对话级分析能力有助于开发教育工具，通过模拟案例帮助学生认识欺凌行为，提升数字素养与网络安全意识。

数据集最近研究