five

CHNCI|网络欺凌检测数据集|文本分析数据集

收藏
arXiv2025-05-27 更新2025-05-29 收录
网络欺凌检测
文本分析
下载链接:
https://github.com/zhuyiYZU/CHNCI
下载链接
链接失效反馈
资源简介:
CHNCI是中国首个基于事件的网络欺凌检测数据集,由扬州大学信息工程学院、合肥工业大学教育部知识工程与大数据重点实验室、合肥工业大学计算机科学与信息工程学院的研究人员创建。该数据集包含91个事件中的220,676条评论,涵盖了商业、娱乐、体育、社会和政治五个不同的文本类型。数据集的创建过程采用了机器生成伪标签和人工标注相结合的方法,旨在提高数据集的准确性和覆盖范围。CHNCI数据集可用于网络欺凌检测和事件预测任务,对于研究和开发有效的网络欺凌检测方法具有重要意义。
提供机构:
扬州大学信息工程学院, 合肥工业大学教育部知识工程与大数据重点实验室, 合肥工业大学计算机科学与信息工程学院
创建时间:
2025-05-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
CHNCI数据集的构建采用了人机协作的创新标注方法。研究团队首先从抖音、微博、小红书和B站等主流中文社交平台采集了91个热点事件的220,676条评论,涵盖商业、娱乐、体育、社会和政治五大文本类型。在标注流程中,先通过集成三种基于解释的检测方法(释义器法、思维链法和多智能体法)生成伪标签,再由母语为中文的标注员进行人工校验。为确保标注质量,采用三重校验机制并要求标注者具备五年以上社交媒体使用经验,最终获得Fleiss' Kappa系数0.609的标注一致性。
特点
作为首个中文网络暴力事件检测数据集,CHNCI具有三大显著特征:其事件导向型架构突破了传统按文本极性分类的局限,将评论与真实社会事件关联,完整保留了网络暴力的时空传播特性;数据覆盖44起网络暴力事件和47起普通事件,呈现25.76%与8.85%的评论攻击性差异,为研究群体性攻击行为提供了观测窗口;多维度元数据包含时间戳、平台来源和事件类别,支持跨平台传播动力学分析和事件预测建模。
使用方法
该数据集支持网络暴力检测与事件预测双轨研究。在微观层面,研究者可利用预标注的19%攻击性评论训练细粒度分类模型,基于集成方法生成的解释文本开发可解释检测系统。宏观层面,按小时聚合的评论攻击性比例时间序列(平均每事件2425条评论)可用于构建事件演化预测模型,验证攻击峰值超过5%或连续5时段超50%等判定准则。数据集已划分80%-10%-10%的标准训练/验证/测试集,支持从少样本学习(30-50样本)到零样本评估(Qwen-7B达75.86%准确率)的全谱系实验设计。
背景与挑战
背景概述
CHNCI数据集是中国首个专注于网络欺凌事件检测的大规模中文数据集,由扬州大学和合肥工业大学的研究团队于2025年创建。该数据集包含91个真实事件中的220,676条评论,覆盖商业、娱乐、体育、社会和政治五大文本类型。其创新性在于采用事件驱动的标注方法,突破了传统基于言论极性的标注局限,更贴合网络欺凌在现实社交平台中的事件化传播特征。研究团队通过融合解释生成技术与人工校验的协同标注策略,显著提升了数据质量,为中文网络欺凌检测提供了首个基准数据集,弥补了该领域长期缺乏高质量中文资源的空白。
当前挑战
CHNCI数据集面临双重挑战:在领域问题层面,网络欺凌检测需解决语义模糊性(如反讽、隐喻等隐性攻击)、文化特异性(中文网络用语的多义性)以及事件动态性(突发事件的快速发酵)等难题;在构建过程中,研究团队需克服标注成本高昂(需处理22万条评论)、解释生成模型幻觉(LLM产生的伪标签噪声)以及跨平台数据异构性(抖音、微博等平台的格式差异)等技术障碍。此外,定义网络欺凌事件的判定标准(如攻击性评论峰值阈值设定)也面临社会科学与计算方法的交叉验证挑战。
常用场景
经典使用场景
CHNCI数据集作为首个基于事件的中文网络欺凌检测数据集,其经典使用场景主要聚焦于社交媒体平台上的实时评论分析。通过整合来自抖音、微博、小红书和哔哩哔哩等主流平台的91个热点事件下的22万条评论,该数据集为研究者提供了模拟真实网络欺凌事件发酵过程的实验环境。尤其在分析群体性言语攻击的时空动态特征时,数据集以事件为单位的组织结构能够有效捕捉恶意评论的聚集效应和传播模式。
解决学术问题
该数据集突破了传统基于文本极性的标注范式,解决了网络欺凌研究中的两大核心问题:一是通过事件维度建模弥补了孤立评论分析对群体伤害评估的不足,二是创新性地采用机器生成伪标签与人工校验结合的标注方法,显著降低了复杂语义标注成本。其提出的双重验证标准(攻击性评论峰值现象与多簇情感判定)为网络欺凌事件的定量识别提供了可操作的学术框架,填补了中文语境下事件级检测研究的空白。
衍生相关工作
该数据集催生了多个标志性研究成果,包括基于频率增强分解Transformer的FEDformer事件预测模型(MAE 1.2077),以及知识增强提示学习框架KPT++(F1-score 77.74%)。Qwen-7B等大语言模型在该数据集上的零样本实验证明了预训练技术对跨文化欺凌检测的泛化能力,相关成果被ACM Web Conference等顶会收录并引发对LLMs伦理应用的深度讨论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Yahoo Finance Historical Data

该数据集包含来自Yahoo Finance的历史股票数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集的时间跨度从2000年1月至今,提供了全球多个市场的股票数据。

finance.yahoo.com 收录

AudioSet

Audioset 是一个音频事件数据集,由超过 200 万个人工注释的 10 秒视频片段组成。这些剪辑是从 YouTube 收集的,因此其中许多质量很差,并且包含多个声源。使用 632 个事件类的分层本体来注释这些数据,这意味着可以将相同的声音注释为不同的标签。例如,吠叫的声音被注释为 Animal、Pets 和 Dog。所有视频都分为评估/平衡训练/不平衡训练集。

OpenDataLab 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国人口普查分县数据(2000、2010、2020年)

中国人口普查分县数据(2000、2010、2020年)数据集是中国第五次、第六次、第七次人口普查分县数据

国家地球系统科学数据中心 收录