Wiki-Reliability

Name: Wiki-Reliability
Creator: Wikimedia Foundation
Published: 2021-06-01 19:57:14
License: 暂无描述

arXiv2021-06-01 更新2024-06-21 收录

下载链接：

https://figshare.com/articles/dataset/Wiki-Reliability_A_Large_Scale_Dataset_for_Content_Reliability_on_Wikipedia/14113799

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki-Reliability是由Wikimedia Foundation创建的大型数据集，专注于英语维基百科文章的内容可靠性问题。该数据集通过维基百科的维护模板，标注了近100万篇文章修订版本中的可靠性问题，如中立性缺失或信息矛盾等。创建过程中，研究团队选取了10个最常见的可靠性相关模板，并采用有效方法对样本进行正负标注。Wiki-Reliability旨在支持机器学习和信息检索算法的发展，以自动化方式辅助编辑者监控和提升维基百科内容质量，进而增强全球知识库的完整性。

Wiki-Reliability is a large-scale dataset created by the Wikimedia Foundation, focusing on content reliability issues of English Wikipedia articles. This dataset annotates reliability-related problems in nearly 1 million article revisions via Wikipedia's maintenance templates, such as lack of neutrality or information inconsistency. During its development, the research team selected the 10 most common reliability-related templates and adopted effective methods to perform positive and negative labeling on the samples. Wiki-Reliability aims to support the development of machine learning and information retrieval algorithms, assist editors in monitoring and improving the quality of Wikipedia content in an automated manner, and thereby enhance the completeness of the global knowledge base.

提供机构：

Wikimedia Foundation

创建时间：

2021-05-10

搜集汇总

数据集介绍

构建方式

Wiki-Reliability数据集的构建基于Wikipedia的维护模板，这些模板由经验丰富的编辑用于标记内容问题，如‘非中立观点’或‘自相矛盾的文章’。通过选择Wikipedia上最常用的10个与可靠性相关的模板，研究团队提出了一种有效的方法，对近100万条Wikipedia文章修订进行正负标签标注。每个正负样本均附带完整的文章文本和来自修订元数据的20个特征，确保数据集的高质量和广泛覆盖。

特点

Wiki-Reliability数据集的显著特点在于其大规模和多样性。该数据集包含了广泛的可靠性问题标注，涵盖了从‘未引用’到‘虚假信息’等多种模板。此外，数据集不仅提供了文章的文本内容，还包含了丰富的元数据特征，如外部链接数量、引用标签等，这些特征为内容可靠性的预测提供了多维度的信息支持。

使用方法

Wiki-Reliability数据集可用于训练大规模的内容可靠性预测模型，支持自然语言处理和信息检索领域的研究。研究者可以利用该数据集进行内容可靠性预测、来源检索等下游任务。数据集的公开发布为研究人员提供了宝贵的资源，有助于推动Wikipedia内容质量监控的自动化研究，同时也为其他领域的文本可靠性分析提供了参考。

背景与挑战

背景概述

Wiki-Reliability数据集由KayYen Wong、Miriam Redi和Diego Saez-Trumper于2021年创建，旨在解决维基百科内容可靠性评估中的数据稀缺问题。维基百科作为全球最大的在线百科全书，其内容质量直接影响用户和算法的信息获取。然而，现有的自动化工具如ORES在内容可靠性监控方面仍存在局限，主要原因是缺乏大规模的标注数据。Wiki-Reliability通过利用维基百科编辑使用的模板，对近100万条维基百科文章修订进行了标注，涵盖了多种内容可靠性问题，如‘非中立观点’和‘自相矛盾的文章’。该数据集的发布不仅为机器学习和信息检索领域的研究提供了宝贵的资源，还为提升维基百科内容质量提供了新的研究方向。

当前挑战

Wiki-Reliability数据集在构建过程中面临多项挑战。首先，如何准确地从维基百科的动态修订历史中提取出具有可靠性问题的文章修订是一个复杂的过程。其次，处理恶意或错误的模板添加或移除（即破坏行为）增加了数据标注的难度。此外，尽管该数据集提供了丰富的元数据特征和全文内容，但如何有效利用这些信息进行内容可靠性预测仍是一个开放的研究问题。最后，虽然现有的元数据模型在某些任务上表现良好，但整体性能仍有提升空间，特别是在处理复杂的文本内容特征时。

常用场景

经典使用场景

在自然语言处理（NLP）和信息检索（IR）领域，Wiki-Reliability数据集被广泛用于训练和评估内容可靠性预测模型。通过分析维基百科文章的修订历史和相关元数据，研究者可以构建模型来识别和分类文章中的可靠性问题，如‘非中立观点’或‘自相矛盾’。这些模型不仅有助于自动化维基百科的内容审核，还能为其他在线信息平台的质量控制提供参考。

衍生相关工作

基于Wiki-Reliability数据集，研究者们开发了多种内容可靠性预测模型，并在多个学术会议上发表了相关研究成果。例如，一些研究利用该数据集训练深度学习模型，以提高对维基百科文章中‘非中立观点’和‘虚假信息’的检测精度。此外，该数据集还激发了关于如何扩展和适应其他语言和平台的讨论，推动了跨语言和跨平台内容可靠性研究的进展。

数据集最近研究