Cyberbullying-Detection-CB2
收藏Cyberbullying Detection — CB2 数据集概述
数据集简介
CB2 是一个关系型、对话级别的网络欺凌检测数据集。与单条帖子数据集不同,CB2 中的每个实例代表一对用户及其完整的消息交换记录。网络欺凌标签在对话级别确定(即判断两个用户之间的互动是否构成网络欺凌),并丰富了人口统计信息、社会亲密度(对等性)以及消息级别的攻击性统计数据。该数据集源自一项针对 8-17 岁学生的在线交流研究,涉及 15 所匿名学校。此数据集是 Hugging Face 上 Cyberbullying-Detection 集合的一部分。
数据集结构
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
user1_id |
int |
用户 1(发起者)的唯一 ID |
user2_id |
int |
用户 2(接收者)的唯一 ID |
user1_age |
int |
用户 1 的年龄 |
user1_gender |
string |
用户 1 的性别(Male、Female、Others) |
user1_grade |
int |
用户 1 的学校年级 |
user2_age |
int |
用户 2 的年龄 |
user2_gender |
string |
用户 2 的性别(Male、Female、Others) |
user2_grade |
int |
用户 2 的学校年级 |
total_messages |
int |
该用户对之间交换的消息总数 |
aggressive_count |
int |
被分类为攻击性的消息数量 |
intent_to_harm |
float |
计算得出的伤害意图分数(0.0–1.0) |
peerness |
float |
两个用户之间的社会亲密度/相似性分数(0.0–1.0) |
conversation |
list[dict] |
有序的消息列表:每个条目为 {"message": str, "label": int},其中 label 为 1(攻击性)或 0(非攻击性) |
label |
int |
二元网络欺凌标签:1 = 网络欺凌,0 = 非网络欺凌 |
标签类别
| 值 | 含义 |
|---|---|
1 |
该用户对互动构成网络欺凌 |
0 |
该用户对互动不构成网络欺凌 |
源文件
CB2 由 6 个源文件组装而成:
| 文件 | 作用 |
|---|---|
1. users_data.csv |
每个用户的人口统计信息(年龄、性别、学校、年级) |
2. peerness_values.csv |
用户对之间的社会亲密度分数 |
3. Aggressive_All.csv |
所有攻击性消息的语料库(参考) |
4. Non_Aggressive_All.csv |
所有非攻击性消息的语料库(参考) |
5. Communication_Data_Among_Users.csv |
带时间戳的消息日志,包含每条消息的攻击性标签 |
6. CB_Labels.csv |
枢纽文件 — 每行代表一个用户对,包含聚合统计数据和最终的 CB 标签 |
数据集划分
数据集划分如下:
| 划分 | 大小 | 描述 |
|---|---|---|
train |
总量的 75% | 训练集 |
validation |
2,000 行 | 开发/验证集(从 25% 的预留部分中采样) |
test |
剩余约 25% 减去 2,000 行 | 测试集 |
划分方法
python from sklearn.model_selection import train_test_split
步骤 1: 75% 训练,25% 测试+验证(按标签分层)
train_df, test_dev_df = train_test_split(df, test_size=0.25, random_state=42, stratify=df["label"])
步骤 2: 2000 行用于验证,其余用于测试
dev_df = test_dev_df.sample(n=2000, random_state=42) test_df = test_dev_df.drop(dev_df.index)
使用方式
python from datasets import load_dataset
dataset = load_dataset("Washii/Cyberbullying-Detection-CB2")
访问划分
train = dataset["train"] validation = dataset["validation"] test = dataset["test"]
示例行
print(train[0])
构建说明
conversation字段是通过按(User1 ID, User2 ID)分组5. Communication_Data_Among_Users.csv中的所有消息,按Date和Time排序,并存储为{message, label}字典列表而构建的。- 最终表中的
peerness字段直接来自6. CB_Labels.csv(该文件已包含来自2. peerness_values.csv的值)。 - 用户人口统计信息是从
1. users_data.csv中两次连接得到的(一次为用户 1,一次为用户 2)。 - 文件
3. Aggressive_All.csv和4. Non_Aggressive_All.csv是参考语料库,未直接连接到最终表中(它们的内容已通过文件 5 表示)。
源数据
原始数据源自 https://data.mendeley.com/datasets/wmx9jj2htd/2(一个用于自动网络欺凌检测的综合数据集)。
引用
如果使用此数据集,请适当引用原始来源。
数据集卡片作者
由 Washii 上传和整理。



