NELA-GT-2022

Name: NELA-GT-2022
Creator: 伦斯勒理工学院*，田纳西大学诺克斯维尔分校†
Published: 2023-03-18 06:21:50
License: 暂无描述

arXiv2023-03-18 更新2024-06-21 收录

下载链接：

https://doi.org/10.7910/DVN/AMCV2H

下载链接

链接失效反馈

官方服务：

资源简介：

NELA-GT-2022是由伦斯勒理工学院和田纳西大学诺克斯维尔分校合作创建的大型多标签新闻数据集，包含2022年1月1日至12月31日来自361个新闻源的1,778,361篇文章。该数据集通过每日两次抓取RSS源收集，涵盖了从主流到低可信度的新闻源，每篇文章均附有来自Media Bias/Fact Check的源级真实性标签，以及嵌入的推文数据。创建过程涉及文本的修改以适应分析使用，而非直接新闻消费。该数据集主要用于研究新闻中的错误信息，特别是在自动化新闻真实性检测和媒体操纵分析等领域。

NELA-GT-2022 is a large-scale multi-label news dataset jointly created by Rensselaer Polytechnic Institute and The University of Tennessee, Knoxville. It encompasses 1,778,361 articles from 361 news sources spanning from January 1 to December 31, 2022. Collected via twice-daily RSS feed scraping, the dataset covers news sources ranging from mainstream to low-credibility, with each article accompanied by source-level veracity labels from Media Bias/Fact Check and embedded tweet data. The dataset creation process involved text modifications tailored for analytical research rather than direct news consumption. This dataset is primarily utilized for research on news misinformation, particularly in domains such as automated news veracity detection and media manipulation analysis.

提供机构：

伦斯勒理工学院*，田纳西大学诺克斯维尔分校†

创建时间：

2022-03-11

搜集汇总

数据集介绍

构建方式

NELA-GT-2022数据集通过从361个新闻源的RSS订阅中每日两次抓取新闻文章构建而成。该数据集涵盖了2022年1月1日至12月31日期间发布的1,778,361篇文章。构建过程中，使用了Python库feedparser和Goose3进行数据抓取，并从Media Bias/Fact Check获取了337个新闻源的准确性标签。此外，数据集还包含了346,283条嵌入在新闻文章中的推文数据，这些数据通过Goose3库进行收集和存储。

特点

NELA-GT-2022数据集的主要特点在于其大规模、多标签的特性，涵盖了广泛的新闻源和多种类型的信息。数据集不仅包括新闻文章的文本内容，还包含了新闻源的准确性标签和嵌入的推文数据，这为研究假新闻检测和新闻真实性提供了丰富的资源。此外，数据集的年度更新机制确保了数据的时效性和连续性，使其成为长期新闻研究的有力工具。

使用方法

NELA-GT-2022数据集可用于多种研究目的，包括但不限于假新闻检测、新闻真实性评估和新闻事件的长期分析。研究者可以通过SQLite数据库或JSON格式访问数据，并利用提供的Python代码进行数据提取和分析。数据集还提供了特定事件（如俄乌战争和罗伊诉韦德案的推翻）的子集，便于研究者进行事件驱动的新闻覆盖分析。此外，数据集的推文嵌入数据为研究政治传播和混合媒体系统提供了独特的视角。

背景与挑战

背景概述

在新闻媒体研究领域，NELA-GT-2022数据集的发布标志着对新闻文章中错误信息研究的重要进展。该数据集由Rensselaer Polytechnic Institute和The University of Tennessee Knoxville的研究团队共同创建，主要研究人员包括Maur´ıcio Gruppi、Benjamin D. Horne和Sibel Adalı。NELA-GT-2022数据集包含了2022年1月1日至12月31日期间从361个新闻来源收集的1,778,361篇文章，这些文章均附有来自Media Bias/Fact Check的出口级真实性标签。该数据集的核心研究问题集中在新闻文章中错误信息的检测与分析，其影响力在于填补了现有数据集在更新新闻覆盖和低真实性新闻来源方面的空白，为跨学科研究提供了宝贵的资源。

当前挑战

NELA-GT-2022数据集在构建过程中面临多项挑战。首先，数据收集的复杂性在于确保从多个新闻来源中全面且一致地抓取数据，特别是在处理可能受版权保护的内容时。其次，数据集的真实性标签依赖于单一来源Media Bias/Fact Check，这可能导致标签的多样性和准确性受限。此外，数据集中包含的嵌入推文数据增加了数据处理的复杂性，需要精确的技术手段来提取和分析这些信息。最后，尽管数据集提供了丰富的历史新闻数据，但其长期维护和更新仍需面对技术与资源的持续投入，以确保数据的相关性和可用性。

常用场景

经典使用场景

NELA-GT-2022数据集的经典使用场景主要集中在假新闻检测和新闻真实性评估领域。通过提供来自361个新闻源的1,778,361篇文章，该数据集支持研究人员开发和验证假新闻检测算法。此外，数据集中的嵌入推文数据为研究新闻与社交媒体互动提供了丰富的资源，有助于深入理解新闻传播的复杂性。

衍生相关工作

NELA-GT-2022数据集的发布催生了一系列相关研究工作，包括但不限于假新闻检测模型的改进、新闻源可信度评估方法的创新以及新闻内容分析技术的提升。此外，该数据集还激发了关于新闻与社交媒体互动、新闻传播动态以及媒体操纵策略的研究，推动了新闻学和计算机科学的交叉研究。

数据集最近研究