five

Cyberbullying-Detection-CB2

收藏
Hugging Face2026-03-02 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/surrey-nlp/Cyberbullying-Detection-CB2
下载链接
链接失效反馈
官方服务:
资源简介:
CB2 是一个关系型、对话级别的网络欺凌检测数据集。与单条帖子数据集不同,CB2 中的每个实例代表一对用户及其完整的消息交换。网络欺凌标签在对话级别确定(即两个用户之间的互动是否构成网络欺凌),并包含人口统计信息、社交亲密度(peerness)和消息级别的攻击性统计数据。数据集来源于一项针对8-17岁学生的在线交流研究,涉及15所匿名学校。数据集结构包括用户ID、年龄、性别、学校年级、消息总数、攻击性消息数量、意图伤害分数、社交亲密度分数、对话内容(每条消息及其标签)以及网络欺凌标签。数据集分为训练集(75%)、验证集(2000行)和测试集(剩余部分)。
提供机构:
University of Surrey NLP Group
创建时间:
2026-03-02
原始信息汇总

Cyberbullying Detection — CB2 数据集概述

数据集简介

CB2 是一个关系型、对话级别的网络欺凌检测数据集。与单条帖子数据集不同,CB2 中的每个实例代表一对用户及其完整的消息交换记录。网络欺凌标签在对话级别确定(即判断两个用户之间的互动是否构成网络欺凌),并丰富了人口统计信息、社会亲密度(对等性)以及消息级别的攻击性统计数据。该数据集源自一项针对 8-17 岁学生的在线交流研究,涉及 15 所匿名学校。此数据集是 Hugging Face 上 Cyberbullying-Detection 集合的一部分。

数据集结构

数据字段

字段 类型 描述
user1_id int 用户 1(发起者)的唯一 ID
user2_id int 用户 2(接收者)的唯一 ID
user1_age int 用户 1 的年龄
user1_gender string 用户 1 的性别(MaleFemaleOthers
user1_grade int 用户 1 的学校年级
user2_age int 用户 2 的年龄
user2_gender string 用户 2 的性别(MaleFemaleOthers
user2_grade int 用户 2 的学校年级
total_messages int 该用户对之间交换的消息总数
aggressive_count int 被分类为攻击性的消息数量
intent_to_harm float 计算得出的伤害意图分数(0.0–1.0)
peerness float 两个用户之间的社会亲密度/相似性分数(0.0–1.0)
conversation list[dict] 有序的消息列表:每个条目为 {"message": str, "label": int},其中 label1(攻击性)或 0(非攻击性)
label int 二元网络欺凌标签:1 = 网络欺凌,0 = 非网络欺凌

标签类别

含义
1 该用户对互动构成网络欺凌
0 该用户对互动不构成网络欺凌

源文件

CB2 由 6 个源文件组装而成:

文件 作用
1. users_data.csv 每个用户的人口统计信息(年龄、性别、学校、年级)
2. peerness_values.csv 用户对之间的社会亲密度分数
3. Aggressive_All.csv 所有攻击性消息的语料库(参考)
4. Non_Aggressive_All.csv 所有非攻击性消息的语料库(参考)
5. Communication_Data_Among_Users.csv 带时间戳的消息日志,包含每条消息的攻击性标签
6. CB_Labels.csv 枢纽文件 — 每行代表一个用户对,包含聚合统计数据和最终的 CB 标签

数据集划分

数据集划分如下:

划分 大小 描述
train 总量的 75% 训练集
validation 2,000 行 开发/验证集(从 25% 的预留部分中采样)
test 剩余约 25% 减去 2,000 行 测试集

划分方法

python from sklearn.model_selection import train_test_split

步骤 1: 75% 训练,25% 测试+验证(按标签分层)

train_df, test_dev_df = train_test_split(df, test_size=0.25, random_state=42, stratify=df["label"])

步骤 2: 2000 行用于验证,其余用于测试

dev_df = test_dev_df.sample(n=2000, random_state=42) test_df = test_dev_df.drop(dev_df.index)

使用方式

python from datasets import load_dataset

dataset = load_dataset("Washii/Cyberbullying-Detection-CB2")

访问划分

train = dataset["train"] validation = dataset["validation"] test = dataset["test"]

示例行

print(train[0])

构建说明

  • conversation 字段是通过按 (User1 ID, User2 ID) 分组 5. Communication_Data_Among_Users.csv 中的所有消息,按 DateTime 排序,并存储为 {message, label} 字典列表而构建的。
  • 最终表中的 peerness 字段直接来自 6. CB_Labels.csv(该文件已包含来自 2. peerness_values.csv 的值)。
  • 用户人口统计信息是从 1. users_data.csv 中两次连接得到的(一次为用户 1,一次为用户 2)。
  • 文件 3. Aggressive_All.csv4. Non_Aggressive_All.csv 是参考语料库,直接连接到最终表中(它们的内容已通过文件 5 表示)。

源数据

原始数据源自 https://data.mendeley.com/datasets/wmx9jj2htd/2(一个用于自动网络欺凌检测的综合数据集)。

引用

如果使用此数据集,请适当引用原始来源。

数据集卡片作者

Washii 上传和整理。

搜集汇总
数据集介绍
构建方式
在社交网络欺凌检测领域,CB2数据集的构建体现了对交互动态的深度捕捉。该数据集源自一项针对8至17岁学生的在线交流研究,覆盖了15所匿名学校的用户群体。构建过程整合了六类源文件,包括用户人口统计信息、社交亲密度评分、攻击性消息语料库以及用户间通信日志。核心步骤涉及将时间戳消息按用户对分组并排序,形成结构化的对话序列,同时通过聚合统计指标和二元标注策略,在对话层面判定网络欺凌行为,确保了数据在关系维度上的完整性与一致性。
使用方法
在自然语言处理与社交计算研究中,CB2数据集适用于训练和评估对话级别的网络欺凌检测模型。用户可通过Hugging Face的datasets库直接加载数据集,并访问预划分的训练、验证与测试子集。数据以结构化行形式呈现,每条记录包含完整的对话序列、统计特征及二元标签,便于进行特征工程或端到端的深度学习建模。研究人员可基于此开展多任务学习,例如结合消息级攻击性检测与对话级欺凌分类,以深入探究网络欺凌的语义与交互模式。
背景与挑战
背景概述
随着社交媒体在青少年群体中的普及,网络欺凌已成为一个严峻的社会问题,对受害者的心理健康造成深远影响。Cyberbullying-Detection-CB2数据集由研究人员Washii等人构建,旨在推动对话级别的网络欺凌检测研究。该数据集聚焦于8至17岁学生之间的在线交流,通过捕捉用户对之间的完整消息交换,并整合人口统计信息、社会亲密度及消息级攻击性统计,为理解网络欺凌的动态交互本质提供了关键数据支持。其创新之处在于将检测单位从单一帖子扩展至对话层面,从而更准确地反映欺凌行为在人际互动中的演变过程。
当前挑战
在解决网络欺凌检测这一领域问题时,主要挑战在于如何从复杂的对话语境中识别欺凌意图,而非仅仅依赖关键词匹配。传统的单帖分类方法难以捕捉欺凌行为在连续交互中的累积效应和上下文依赖性。在数据集构建过程中,研究人员面临多重挑战:首先,需要从匿名化的学校通信数据中安全地提取并整合多源信息,包括用户属性、社交关系及消息序列,同时确保隐私保护;其次,对话级别的标签标注要求对整段交互进行综合判断,这依赖于精细的人工或计算评估,以区分攻击性言论与欺凌行为之间的微妙差异;此外,数据的不平衡性和青少年语言的非正式性也为模型的泛化能力带来了考验。
常用场景
经典使用场景
在社交媒体安全与网络欺凌检测领域,CB2数据集以其对话级别的独特结构,为研究者提供了模拟真实社交互动的实验平台。该数据集最经典的使用场景在于训练和评估机器学习模型,特别是那些专注于识别用户对之间完整消息交换中是否存在网络欺凌行为的模型。通过整合对话序列、用户人口统计信息及社交亲密度等多维度特征,CB2使得模型能够超越单一帖子的分析,深入理解互动语境中的攻击性动态,从而在自然语言处理任务中实现更精准的欺凌模式识别。
解决学术问题
CB2数据集有效解决了网络欺凌检测研究中长期存在的语境缺失与关系忽略问题。传统方法往往依赖于孤立的消息分类,难以捕捉欺凌行为在连续对话中的演变过程。该数据集通过提供成对用户的完整对话记录及聚合统计指标,使研究者能够探索欺凌意图、社交距离与人口因素之间的复杂关联,推动了基于关系的检测范式发展。其意义在于为学术界提供了首个大规模、细粒度的对话级欺凌标注资源,促进了跨学科研究,对理解在线社交动力学及开发更人性化的干预系统产生了深远影响。
实际应用
在实际应用层面,CB2数据集为构建智能内容审核与青少年在线保护系统提供了关键数据支撑。教育机构和社交平台可利用基于该数据集训练的模型,实时监测学生或用户间的对话,自动识别潜在的欺凌互动并及时预警。系统能够结合用户的年龄、性别和年级等信息,提供差异化的风险评估,辅助辅导员或管理员进行精准干预。此外,其对话级分析能力有助于开发教育工具,通过模拟案例帮助学生认识欺凌行为,提升数字素养与网络安全意识。
数据集最近研究
最新研究方向
在社交网络安全领域,网络欺凌检测研究正从传统的单文本分类转向关系型对话级分析。CB2数据集以其独特的用户对交互结构和丰富的社交元数据,推动了基于图神经网络和时序建模的前沿探索。研究者们正利用其对话序列、社会亲密度及人口统计特征,构建能够捕捉欺凌动态演变和社交上下文影响的复杂模型。这一方向与全球范围内对青少年在线心理健康保护的关注紧密相连,为开发更精准、可解释的干预系统提供了实证基础,对促进安全数字环境建设具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作