2024 US Elections dataset

Name: 2024 US Elections dataset
Creator: 向量研究所
Published: 2023-12-09 03:42:35
License: 暂无描述

arXiv2023-12-09 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/FakeWatch_ElectionShield

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了专为2024年美国总统选举设计的‘2024 US Elections dataset’，由向量研究所创建。该数据集通过结合大型语言模型（LLMs）和人工验证，精心筛选和标注了9000条北美选举相关新闻文章，确保数据的精确性和相关性。数据集的创建过程涉及关键词和主题的针对性选择，以及对新闻内容的深入分析。该数据集旨在解决选举期间信息不实的问题，特别是在快速变化的选举环境中，通过提供一个强大的假新闻分类器来识别和减轻错误信息的影响。

This study presents the '2024 US Elections dataset', specifically designed for the 2024 U.S. Presidential Election and created by the Vector Institute. This dataset has curated and annotated 9,000 North American election-related news articles by integrating Large Language Models (LLMs) and manual verification, ensuring the accuracy and relevance of the data. The development process of the dataset entails targeted selection of keywords and thematic categories, as well as in-depth analysis of the news content. This dataset aims to address the issue of election-related misinformation, particularly in the fast-evolving electoral landscape, by providing a robust fake news classifier to identify and mitigate the impact of disinformation.

提供机构：

向量研究所

创建时间：

2023-11-28

搜集汇总

数据集介绍

构建方式

在当前信息时代，虚假新闻的传播，尤其是在选举等关键事件中，对信息真实性的威胁日益严重。为了应对这一挑战，研究团队引入了FakeWatch ElectionShield框架，旨在检测虚假新闻。该框架的核心是构建了一个独特的2024年美国选举相关新闻文章数据集，该数据集通过高级语言模型（LMs）和人工验证相结合的方式进行收集和标注，以确保其精确性和相关性。数据收集过程中，研究团队使用了Google RSS进行数据筛选，并从NELA-GT-2022数据集中筛选了5000条记录，共计9000条记录。在数据标注方面，首先利用OpenAI的GPT-4进行初步标注，然后由六位专家进行人工验证，确保了数据的高质量和一致性。

使用方法

使用FakeWatch ElectionShield数据集进行虚假新闻检测的方法包括以下几个步骤：首先，从Google RSS和NELA-GT-2022数据集中收集数据，并进行预处理，包括数据清洗、标注和整合。然后，利用OpenAI的GPT-4进行初步标注，并由专家进行人工验证。接下来，将数据集分为训练集和测试集，并使用多种机器学习和深度学习模型进行训练和测试。最后，通过准确率、精确率、召回率和F1分数等指标评估模型的性能。此外，研究团队还提供了一个模型库，包含了多种机器学习和深度学习模型，方便研究人员进行基准测试和比较。

背景与挑战

背景概述

在当今信息时代，虚假新闻的传播，尤其是在选举等关键事件期间，对信息完整性构成了日益严峻的挑战。为了应对这一挑战，我们引入了FakeWatch ElectionShield，一个精心设计的框架，旨在检测虚假新闻。我们通过高级语言模型（LMs）和彻底的人工验证相结合的方式，创建了一个新颖的北美选举相关新闻文章数据集，以实现精确性和相关性。我们提出了一个LM模型中心，用于识别虚假新闻。我们的目标是向研究社区提供可适应和准确的分类模型，以识别虚假信息的动态特性。在我们的数据集和一个基准数据集上对虚假新闻分类器进行的广泛评估表明，尽管最先进的LMs略优于传统的ML模型，但经典模型在准确率、可解释性和计算效率的平衡上仍然具有竞争力。这项研究为未来研究奠定了基础，以解决与选举相关的虚假信息问题。

当前挑战

该数据集面临的挑战包括：1) 领域问题，即如何准确地识别和分类虚假新闻，特别是在选举期间；2) 构建过程中遇到的挑战，如数据收集、标注和模型训练等方面的复杂性。此外，虚假新闻的动态特性和概念漂移也对模型的准确性和鲁棒性提出了挑战。

常用场景

经典使用场景

FakeWatch ElectionShield数据集在学术研究中的经典使用场景主要集中在选举期间虚假新闻的检测与识别。该数据集通过高级语言模型和人工验证相结合的方式，收集并标注了大量与北美选举相关的新闻文章，为研究人员提供了宝贵的数据资源。基于这一数据集，研究人员可以训练和评估各种机器学习模型，如DistilBERT和BERT等，以实现对虚假新闻的精准分类。此外，该数据集还支持传统机器学习模型的应用，如逻辑回归、随机森林和支持向量机等，为研究提供了更为广泛的选择。通过对比不同模型在数据集上的表现，研究者可以深入理解不同模型的优缺点，为实际应用提供指导。

解决学术问题

FakeWatch ElectionShield数据集解决了选举期间虚假新闻检测中的几个关键学术研究问题。首先，该数据集通过结合高级语言模型和人工验证，确保了数据的质量和准确性，为模型训练提供了可靠的数据基础。其次，数据集的设计考虑到了数据漂移和概念漂移的问题，使得模型能够在不断变化的选举环境中保持较高的准确性。此外，数据集还涵盖了多种类型的新闻文章，包括虚假新闻、误导性信息和真实新闻等，为研究提供了更为全面的数据样本。最后，数据集的发布为学术界提供了一个公共平台，促进了虚假新闻检测领域的交流与合作。

实际应用

FakeWatch ElectionShield数据集在实际应用中具有广泛的应用前景。媒体机构可以利用该数据集训练模型，以自动识别和过滤虚假新闻，保护公众免受误导性信息的影响。此外，该数据集还可以用于开发虚假新闻检测工具，如浏览器插件或移动应用程序，帮助用户在浏览新闻时进行自我保护。此外，该数据集还可以用于教育领域，帮助公众了解虚假新闻的传播方式和识别方法，提高公众的信息素养。最后，该数据集还可以为政策制定者提供参考，帮助他们制定更有效的法规和政策，以打击虚假新闻的传播。

数据集最近研究