HOAXPEDIA

Name: HOAXPEDIA
Creator: 卡迪夫大学计算机科学与信息学院
Published: 2024-05-16 01:56:25
License: 暂无描述

arXiv2024-05-16 更新2024-06-21 收录

下载链接：

https://osf.io/rce8m/?view_only=ed469941644c496fb4a6425297ced1f2

下载链接

链接失效反馈

官方服务：

资源简介：

HOAXPEDIA是一个由卡迪夫大学计算机科学与信息学院创建的数据集，包含311篇来自维基百科的虚假文章及其语义相似的真实文章。该数据集通过整合多个资源构建，包括官方维基百科虚假列表和互联网档案。数据集旨在通过内容分析，解决维基百科中虚假信息自动检测的问题，特别是在社区监督系统中存在的滞后问题。

HOAXPEDIA is a dataset developed by the School of Computer Science and Informatics at Cardiff University. It consists of 311 false articles sourced from Wikipedia, paired with their semantically similar genuine counterparts. The dataset is constructed by integrating multiple resources, including the official Wikipedia false article list and the Internet Archive. Its purpose is to address the challenge of automated misinformation detection on Wikipedia via content analysis, especially the lag issue present in community moderation systems.

提供机构：

卡迪夫大学计算机科学与信息学院

创建时间：

2024-05-03

搜集汇总

数据集介绍

构建方式

HOAXPEDIA 数据集的构建始于对五个不同资源中已知虚假文章的统一，这些资源包括 Kumar 等人 (2016)、Elebiary 和 Ciampaglia (2023) 的作品，以及维基百科官方虚假文章列表和互联网档案馆。我们从互联网档案馆手动检索了曾经被标记为虚假的维基百科页面，并通过删除讨论和理由验证了每一篇文章的真实性。对于负面示例，我们选择了真实的内容，并确保它们不带有 Db-hoax 标志，这是维基百科新页面巡逻政策用来标记潜在虚假文章的标志。我们通过 SBERT(allMiniLM-L6-v2) 标题嵌入，使用余弦相似性从候选真实维基百科页面中检索与虚假文章语义相似的页面，以此创建了一个内容广泛且不带有主题偏见的负面示例集。

使用方法

使用 HOAXPEDIA 数据集的方法如下：首先，将问题转化为一个二元分类问题，即判断一篇文章是虚假的还是真实的。然后，选择合适的语言模型，如 BERT 系列、T5 和 Longformer 等，并在数据集上进行训练和测试。在训练过程中，可以调整正负样本的比例以及文章内容的长度，以探索数据不平衡和内容长度对模型性能的影响。此外，还可以通过删除文章定义的方式，探索定义对分类结果的影响。最终，通过评估指标，如 F1 值，来评估模型的性能。

背景与挑战

背景概述

在知识共享与信息传播的数字化时代，维基百科作为全球最大的协作式多语言知识资源，其准确性与权威性备受认可。然而，网络 vandalisme 和 hoax 文章的出现，对维基百科的完整性和可信度构成了潜在威胁。这些 hoax 文章往往遵循官方风格指南，难以被轻易识别。为了解决这一问题，Hsuvas Borkakoty 和 Luis Espinosa-Anke 等研究人员在 2024 年构建了 HOAXPEDIA 数据集。该数据集收集了 311 篇已知的维基百科 hoax 文章，并配对了约 30,000 篇语义上相似的真正文章。研究人员通过对 hoax 文章和真正文章的系统分析，发现两者在文章文本长度、句子和单词长度以及可读性等方面具有相似性。为了探索仅通过内容来检测维基百科 hoax 文章的可行性，研究人员使用了一系列语言模型进行二元分类实验，结果表明，尽管风格和浅层特征不是区分 hoax 和真正文章的良好预测指标，但语言模型能够利用其他更复杂的特征，为基于内容的 hoax 文章标记提供了新的研究方向。

当前挑战

HOAXPEDIA 数据集面临的挑战主要包括：1) 如何准确区分 hoax 文章和真正文章，尤其是在 hoax 文章遵循官方风格指南的情况下；2) 如何构建一个包含大量 hoax 文章和真正文章的平衡数据集，以避免主题偏差；3) 如何利用语言模型有效地提取 hoax 文章的特征，并提高分类器的准确率。此外，由于维基百科文章的内容不断更新，HOAXPEDIA 数据集也需要定期更新以保持其时效性和有效性。

常用场景

经典使用场景

HOAXPEDIA数据集的建立旨在解决维基百科上虚假信息的识别问题。该数据集包含了311篇经过验证的虚假维基百科文章，以及大约30,000篇语义上相似的真实文章，这些真实文章被选为负样本，以避免数据集中出现主题偏差。该数据集的经典使用场景是进行二元分类实验，使用各种语言模型来准确预测一篇文章是否为虚假信息，仅基于其内容。通过分析虚假文章和真实文章之间的相似性和差异，该数据集为基于内容的虚假信息检测开辟了一个新的研究方向。

解决学术问题

HOAXPEDIA数据集解决了维基百科上虚假信息识别的难题。虚假信息对维基百科的信誉构成了威胁，并对用户产生了担忧。该数据集通过提供大量经过验证的虚假文章和真实文章，为研究者提供了宝贵的数据资源，帮助他们探索如何利用自然语言处理技术来识别虚假信息。该数据集的建立为虚假信息检测领域的研究提供了重要的推动力，有助于提高维基百科等知识资源的准确性和可靠性。

实际应用

HOAXPEDIA数据集在实际应用中具有广泛的应用前景。例如，该数据集可以被用于开发自动检测虚假信息的工具，帮助维基百科社区及时发现和删除虚假信息，维护维基百科的准确性和可靠性。此外，该数据集还可以被用于开发基于内容的虚假信息检测模型，帮助用户识别和避免接触虚假信息。通过将HOAXPEDIA数据集应用于实际场景，可以有效地提高公众对虚假信息的识别能力，促进网络环境的健康发展。

数据集最近研究