Wikipedia Abusive Conversations (WAC)
收藏arXiv2020-03-13 更新2024-06-21 收录
下载链接:
https://github.com/CompNet/WikiSynch
下载链接
链接失效反馈官方服务:
资源简介:
Wikipedia Abusive Conversations (WAC) 数据集是由阿维尼翁大学信息实验室创建,包含超过38万条来自英文维基百科讨论页的注释消息。该数据集不仅包含孤立消息,还重建了完整的对话结构,特别适用于基于上下文和线程的滥用内容检测方法。数据集分为三个子集,分别针对个人攻击、攻击性和毒性进行注释。创建过程中,研究人员通过比较现有语料库,开发了一个管道来创建这个大规模的公开可用对话语料库。WAC数据集的应用领域主要集中在自动化在线内容滥用检测,旨在通过对话结构和动态信息提高自动检测的准确性。
Wikipedia Abusive Conversations (WAC) dataset was developed by the Information Laboratory of Avignon University. It contains over 380,000 annotated messages sourced from English Wikipedia discussion pages. In addition to standalone individual messages, the dataset reconstructs full conversational threads, making it particularly well-suited for context-aware and thread-based abusive content detection methods. The dataset is split into three subsets annotated for personal attacks, offensiveness, and toxicity respectively. During its construction, researchers developed a processing pipeline to build this large-scale publicly available conversational corpus by comparing against existing corpora. The primary application domain of the WAC dataset is automated online abusive content detection, which aims to improve the accuracy of automatic detection systems by leveraging conversational structure and dynamic interaction information.
提供机构:
阿维尼翁大学信息实验室
创建时间:
2020-03-13
搜集汇总
数据集介绍

构建方式
在在线社交网络内容监管日益重要的背景下,Wikipedia Abusive Conversations (WAC) 数据集的构建采用了创新的融合策略。该数据集通过整合 Wikipedia Comment Corpus (WCC) 的高质量人工标注与 WikiConv 的完整对话结构信息,设计了一套精细的重建流程。具体而言,首先从 WCC 中提取针对个人攻击、攻击性和毒性三类滥用内容的多重标注,并基于多数投票或平均得分生成黄金标准。随后,从 WikiConv 中检索英语维基百科讨论页的消息,并依据修订标识符(rev_id)筛选出包含标注消息的页面。通过解析回复关系与对话动作类型,重建出以图结构表示的完整对话线程。最后,利用最长公共子序列算法精准匹配 WCC 标注评论与 WikiConv 中的对应消息,确保标注信息的唯一性与准确性,最终形成包含约 38.3 万条标注消息、覆盖 19.3 万次对话的大规模语料库。
特点
WAC 数据集在在线滥用检测领域展现出多维度优势。其核心特点在于首次将高质量的人工标注与完整的对话上下文结构相结合,突破了以往数据集中消息孤立或标注粗糙的局限。该数据集涵盖个人攻击、攻击性和毒性三种滥用类型,每条消息均经过多位标注者的细致评判,确保了标注的可靠性与一致性。对话结构以图模型呈现,平均每段对话包含 13 条消息,并记录了消息之间的回复关系与修改历史,为研究对话动态与结构特征提供了丰富信息。此外,数据集中消息平均长度超过 1000 字符,内容较为详实,且标注消息在对话中的位置分布广泛,尤其集中于对话尾部,这反映了在线平台中滥用内容常伴随快速删除的特点。这些特征共同使得 WAC 成为支持上下文感知滥用检测方法开发的理想资源。
使用方法
WAC 数据集为在线滥用内容自动检测研究提供了标准化实验基础。研究者可利用该数据集训练和评估各类机器学习模型,尤其适合探索基于对话上下文的方法。数据集已公开提供,并附带了建议的数据划分方案(训练集 60%、开发集 20%、测试集 20%),以确保不同研究之间的结果可比性。使用时可分别针对个人攻击、攻击性和毒性三个子集进行任务设计,利用消息文本内容、对话图结构特征或二者结合的特征进行建模。例如,可应用文本分类模型分析消息语义,或采用图神经网络捕捉用户交互模式。此外,数据集配套的开源基准平台支持性能评估与方法比较,集成了多种指标如精确率、召回率、F1 值与 ROC 曲线下面积,有助于促进方法复现与公平对比。通过这一平台,研究者能够便捷地验证新方法在统一标准下的效能,推动领域进展。
背景与挑战
背景概述
随着在线社交网络的普及,用户生成内容的海量增长使得人工审核面临严峻挑战,自动化网络不当内容检测成为研究热点。在此背景下,法国阿维尼翁大学的研究团队于2020年推出了Wikipedia Abusive Conversations(WAC)数据集,旨在解决现有语料库在对话结构信息与高质量标注之间的割裂问题。该数据集通过整合Wikipedia Comment Corpus(WCC)的精细人工标注与WikiConv的完整对话结构,构建了包含约38.3万条标注消息、覆盖19.3万次对话的大规模资源,为基于上下文的滥用内容检测方法提供了关键支持,推动了在线内容审核领域向更精细化、语境感知的方向发展。
当前挑战
WAC数据集所针对的在线滥用内容检测领域,核心挑战在于如何有效利用对话的上下文信息提升检测精度,传统方法往往孤立分析单条消息,忽视了对话动态与结构对语义理解的影响。在构建过程中,研究团队面临两大技术难题:一是如何准确匹配WCC中基于修订标识符(rev_id)的标注评论与WikiConv中可能共享同一标识符的多个消息,这需要通过最长公共子序列算法进行精细对齐;二是如何从复杂的维基百科讨论页中重构完整的对话图结构,需克服用户编辑行为不规范、多对话共存以及消息类型多样带来的解析困难,确保标注信息与对话上下文的无缝整合。
常用场景
经典使用场景
在在线内容审核领域,Wikipedia Abusive Conversations (WAC) 数据集为研究者提供了一个包含完整对话结构和高质量人工标注的大规模资源。该数据集通过整合维基百科讨论页的对话线程,使得基于上下文的滥用内容检测方法得以深入探索。其经典使用场景在于训练和评估能够利用对话动态和结构信息的机器学习模型,例如通过分析消息间的回复关系和用户互动模式来识别潜在的侮辱性、攻击性或毒性言论。
实际应用
在实际应用中,WAC 数据集为社交媒体平台、在线论坛和内容管理系统的自动审核工具开发提供了重要支持。基于该数据集训练的模型能够实时监测用户生成内容,识别并过滤出人身攻击、挑衅言论和有害信息,从而减轻人工审核负担,提升社区环境质量。例如,平台可集成此类模型来预警对话失控风险,或在维基百科等协作社区中自动标记潜在违规内容,辅助维护健康的讨论氛围。
衍生相关工作
围绕 WAC 数据集,已衍生出多项经典研究工作,主要集中在上下文增强的滥用检测方法上。例如,研究者利用对话图网络建模用户交互拓扑,提取结构特征以改进分类性能;同时,结合文本内容与对话动态的混合方法也得到了广泛探索。此外,该数据集还促进了对抗性攻击鲁棒性研究,以及检测模型中的偏见缓解工作,为构建更公平、稳健的自动审核系统提供了实证基础。
以上内容由遇见数据集搜集并总结生成



