five

CHNCI

收藏
arXiv2025-05-27 更新2025-05-29 收录
下载链接:
https://github.com/zhuyiYZU/CHNCI
下载链接
链接失效反馈
资源简介:
CHNCI是中国首个基于事件的网络欺凌检测数据集,由扬州大学信息工程学院、合肥工业大学教育部知识工程与大数据重点实验室、合肥工业大学计算机科学与信息工程学院的研究人员创建。该数据集包含91个事件中的220,676条评论,涵盖了商业、娱乐、体育、社会和政治五个不同的文本类型。数据集的创建过程采用了机器生成伪标签和人工标注相结合的方法,旨在提高数据集的准确性和覆盖范围。CHNCI数据集可用于网络欺凌检测和事件预测任务,对于研究和开发有效的网络欺凌检测方法具有重要意义。

CHNCI is the first event-based cyberbullying detection dataset in China, developed by researchers from the School of Information Engineering of Yangzhou University, the Key Laboratory of Knowledge Engineering and Big Data under the Ministry of Education, Hefei University of Technology, and the School of Computer Science and Information Engineering of Hefei University of Technology. This dataset contains 220,676 comments across 91 events, covering five distinct text types: business, entertainment, sports, society, and politics. The dataset was constructed using a hybrid approach of machine-generated pseudo-labels and manual annotation, aiming to improve its accuracy and coverage. The CHNCI dataset can be applied to cyberbullying detection and incident prediction tasks, and is of great significance for the research and development of effective cyberbullying detection methods.
提供机构:
扬州大学信息工程学院, 合肥工业大学教育部知识工程与大数据重点实验室, 合肥工业大学计算机科学与信息工程学院
创建时间:
2025-05-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
CHNCI数据集的构建采用了人机协作的创新标注方法。研究团队首先从抖音、微博、小红书和B站等主流中文社交平台采集了91个热点事件的220,676条评论,涵盖商业、娱乐、体育、社会和政治五大文本类型。在标注流程中,先通过集成三种基于解释的检测方法(释义器法、思维链法和多智能体法)生成伪标签,再由母语为中文的标注员进行人工校验。为确保标注质量,采用三重校验机制并要求标注者具备五年以上社交媒体使用经验,最终获得Fleiss' Kappa系数0.609的标注一致性。
特点
作为首个中文网络暴力事件检测数据集,CHNCI具有三大显著特征:其事件导向型架构突破了传统按文本极性分类的局限,将评论与真实社会事件关联,完整保留了网络暴力的时空传播特性;数据覆盖44起网络暴力事件和47起普通事件,呈现25.76%与8.85%的评论攻击性差异,为研究群体性攻击行为提供了观测窗口;多维度元数据包含时间戳、平台来源和事件类别,支持跨平台传播动力学分析和事件预测建模。
使用方法
该数据集支持网络暴力检测与事件预测双轨研究。在微观层面,研究者可利用预标注的19%攻击性评论训练细粒度分类模型,基于集成方法生成的解释文本开发可解释检测系统。宏观层面,按小时聚合的评论攻击性比例时间序列(平均每事件2425条评论)可用于构建事件演化预测模型,验证攻击峰值超过5%或连续5时段超50%等判定准则。数据集已划分80%-10%-10%的标准训练/验证/测试集,支持从少样本学习(30-50样本)到零样本评估(Qwen-7B达75.86%准确率)的全谱系实验设计。
背景与挑战
背景概述
CHNCI数据集是中国首个专注于网络欺凌事件检测的大规模中文数据集,由扬州大学和合肥工业大学的研究团队于2025年创建。该数据集包含91个真实事件中的220,676条评论,覆盖商业、娱乐、体育、社会和政治五大文本类型。其创新性在于采用事件驱动的标注方法,突破了传统基于言论极性的标注局限,更贴合网络欺凌在现实社交平台中的事件化传播特征。研究团队通过融合解释生成技术与人工校验的协同标注策略,显著提升了数据质量,为中文网络欺凌检测提供了首个基准数据集,弥补了该领域长期缺乏高质量中文资源的空白。
当前挑战
CHNCI数据集面临双重挑战:在领域问题层面,网络欺凌检测需解决语义模糊性(如反讽、隐喻等隐性攻击)、文化特异性(中文网络用语的多义性)以及事件动态性(突发事件的快速发酵)等难题;在构建过程中,研究团队需克服标注成本高昂(需处理22万条评论)、解释生成模型幻觉(LLM产生的伪标签噪声)以及跨平台数据异构性(抖音、微博等平台的格式差异)等技术障碍。此外,定义网络欺凌事件的判定标准(如攻击性评论峰值阈值设定)也面临社会科学与计算方法的交叉验证挑战。
常用场景
经典使用场景
CHNCI数据集作为首个基于事件的中文网络欺凌检测数据集,其经典使用场景主要聚焦于社交媒体平台上的实时评论分析。通过整合来自抖音、微博、小红书和哔哩哔哩等主流平台的91个热点事件下的22万条评论,该数据集为研究者提供了模拟真实网络欺凌事件发酵过程的实验环境。尤其在分析群体性言语攻击的时空动态特征时,数据集以事件为单位的组织结构能够有效捕捉恶意评论的聚集效应和传播模式。
解决学术问题
该数据集突破了传统基于文本极性的标注范式,解决了网络欺凌研究中的两大核心问题:一是通过事件维度建模弥补了孤立评论分析对群体伤害评估的不足,二是创新性地采用机器生成伪标签与人工校验结合的标注方法,显著降低了复杂语义标注成本。其提出的双重验证标准(攻击性评论峰值现象与多簇情感判定)为网络欺凌事件的定量识别提供了可操作的学术框架,填补了中文语境下事件级检测研究的空白。
衍生相关工作
该数据集催生了多个标志性研究成果,包括基于频率增强分解Transformer的FEDformer事件预测模型(MAE 1.2077),以及知识增强提示学习框架KPT++(F1-score 77.74%)。Qwen-7B等大语言模型在该数据集上的零样本实验证明了预训练技术对跨文化欺凌检测的泛化能力,相关成果被ACM Web Conference等顶会收录并引发对LLMs伦理应用的深度讨论。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作