维基数据 vandal detection dataset
收藏arXiv2025-05-24 更新2025-05-27 收录
下载链接:
https://zenodo.org/records/15492678
下载链接
链接失效反馈官方服务:
资源简介:
维基数据 vandal detection dataset 是一个大型数据集,包含了约500万个人工生成的知识修改样本,用于维基数据 vandal 检测。该数据集由维基媒体基金会创建,旨在帮助研究人员和开发者构建和改进 vandal 检测模型,以保护维基数据的内容质量和可靠性。该数据集包含了各种类型的知识修改样本,例如插入、删除、更改等,并涵盖了不同的语言和主题。通过使用该数据集,研究人员可以训练和评估 vandal 检测模型的性能,从而提高维基数据 vandal 检测的准确性和效率。
The Wikidata Vandal Detection Dataset is a large-scale dataset comprising approximately 5 million manually-generated knowledge modification samples for Wikidata vandalism detection. Developed by the Wikimedia Foundation, this resource is intended to support researchers and developers in constructing and refining vandalism detection models, with the goal of preserving the content quality and reliability of Wikidata. It encompasses a wide range of knowledge modification types, including insertions, deletions, and revisions, and spans diverse languages and subject areas. Leveraging this dataset enables researchers to train and assess the performance of vandalism detection models, ultimately advancing the accuracy and efficiency of Wikidata vandalism detection.
提供机构:
维基媒体基金会
创建时间:
2025-05-24
搜集汇总
数据集介绍

构建方式
维基数据破坏检测数据集的构建基于对2021年9月至2023年9月期间所有人工创建的维基数据修订的全面收集。通过过滤用户界面标记的修订,并排除自回退和编辑战争等噪声数据,确保了数据质量。采用Deepdiff工具提取细粒度的内容差异信号,包括描述、标签和知识三元组的变更,最终形成一个包含约500万独特样本的大规模数据集。数据按时间划分为训练集和测试集,以模拟真实场景下的模型评估。
特点
该数据集的特点在于其多语言性和内容多样性,涵盖了维基数据中结构化与非结构化组件的变更。数据集不仅包含修订元数据,还详细记录了内容编辑的差异,如文本描述和知识三元组的修改。特别值得注意的是,数据集平衡了不同语言和内容类型的样本,其中英语内容占25%,其余为德语、法语等多语言样本。此外,数据集通过专家标注的子样本增强了评估的可靠性,并针对匿名用户和新编辑者的偏见进行了公平性优化。
使用方法
该数据集的使用方法主要包括三个步骤:首先,通过Graph2Text方法将所有内容变更(包括结构化数据)转换为文本形式,以便统一处理;其次,利用多语言BERT模型对文本化后的内容进行特征提取和分类;最后,结合修订元数据和模型输出,使用CatBoost分类器生成回退风险评分。数据集特别适用于训练和评估 vandalism 检测模型,支持高召回率场景下的过滤器优化,并可通过公开的代码库复现实验流程。
背景与挑战
背景概述
维基数据破坏检测数据集(Wikidata Vandal Detection Dataset)是专为检测维基数据(Wikidata)中的恶意编辑行为而构建的数据集。维基数据作为全球最大的开源结构化知识库之一,自2012年推出以来,已成为维基媒体生态系统的核心组成部分,广泛应用于搜索引擎、数字助手及人工智能模型。然而,随着编辑量的增长(约每秒10次编辑),人工审核难以应对日益复杂的破坏行为。该数据集由Pompeu Fabra大学和维基媒体基金会的联合团队于2025年发布,旨在通过多语言语言模型统一处理结构化与非结构化内容修改,提升检测覆盖率和公平性。其核心研究问题聚焦于如何高效识别跨语言、跨数据类型的破坏行为,同时避免对匿名用户和新编辑者的偏见。
当前挑战
该数据集面临双重挑战:领域问题层面,维基数据的多语言性(覆盖300+语言)和异构性(文本描述、结构化三元组等混合内容)导致传统检测模型难以全面捕捉破坏模式,尤其当破坏涉及跨实体属性篡改(如将保加利亚国歌改为流行歌曲)时;构建过程层面,数据稀疏性(仅7.9%的编辑被标记为破坏)和噪声干扰(如自我回退、编辑战)要求复杂的过滤策略,而将三元组等结构化数据转化为语言模型可处理的文本(Graph2Text方法)需解决9%实体ID无对应标签的映射难题。此外,平衡检测性能与公平性(匿名用户编辑占10.7%但误判风险高)成为模型优化的关键矛盾点。
常用场景
经典使用场景
维基数据破坏检测数据集(Wikidata Vandal Detection Dataset)在知识图谱完整性维护领域具有重要应用价值。该数据集最经典的使用场景是训练和评估机器学习模型,以自动识别维基数据中的恶意编辑行为。研究者通过分析数据集中的结构化三元组和多语言文本修改记录,能够开发出高效的内容变更分析算法。数据集特别适用于处理复杂的知识图谱编辑场景,其中既包含事实性三元组的修改,也涉及多语言标签和描述的变更。
解决学术问题
该数据集有效解决了开放知识平台中内容可信度维护的核心学术问题。通过提供大规模人工编辑样本,数据集支持研究者开发能够区分善意修改与恶意破坏的智能算法。其重要意义在于突破了传统方法仅依赖元数据的局限,实现了对内容语义层面的深度分析。数据集还推动了多语言环境下知识图谱完整性保护的研究,为解决跨语言破坏检测这一难题提供了基准测试平台。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于图神经网络的破坏检测模型、多模态知识图谱异常识别系统等。代表性工作有Heindorf等人开发的WDVC2015评估框架,以及后续的OREs生产系统。最近的研究进一步结合大语言模型,如Trokhymovych等人提出的Graph2Text方法,将检测准确率提升至92.4%。数据集还支撑了WSDM Cup 2017竞赛,推动了产业界与学术界的协同创新。
以上内容由遇见数据集搜集并总结生成



