five

NELA-GT-2019

收藏
arXiv2020-03-27 更新2024-06-21 收录
下载链接:
https://doi.org/10.7910/DVN/O7FWPO
下载链接
链接失效反馈
官方服务:
资源简介:
NELA-GT-2019是由伦斯勒理工学院创建的大型多标签新闻数据集,旨在研究新闻文章中的虚假信息。该数据集包含2019年1月1日至12月31日期间从260个来源收集的112万篇新闻文章。数据集内容丰富,涵盖主流和替代新闻来源,每篇文章都附有来自7个不同评估网站的源级真实性标签。创建过程中,研究人员通过定期抓取RSS feeds来收集数据,并从多个评估网站获取真实性标签。该数据集适用于新闻真实性研究,特别是机器学习和计算社会科学领域,有助于理解和检测新闻中的虚假信息。

NELA-GT-2019 is a large-scale multi-label news dataset created by Rensselaer Polytechnic Institute for research on disinformation in news articles. It encompasses 1.12 million news articles collected from 260 distinct sources between January 1 and December 31, 2019. The dataset features rich content, spanning both mainstream and alternative news outlets, with each article paired with source-level authenticity labels obtained from 7 different evaluation websites. During its development, researchers collected data by regularly crawling RSS feeds and acquired the authenticity labels from multiple evaluation platforms. This dataset is applicable to news authenticity-related research, especially in the fields of machine learning and computational social science, and helps advance the understanding and detection of disinformation in news articles.
提供机构:
伦斯勒理工学院
创建时间:
2020-03-19
搜集汇总
数据集介绍
main_image_url
构建方式
在新闻真实性研究领域,构建大规模标注数据集是推动相关研究的关键。NELA-GT-2019数据集的构建延续了其前身的方法,通过每日两次抓取260个新闻源的RSS订阅源,涵盖了主流媒体与替代性新闻来源,确保数据来源的多样性与广泛性。数据采集时间跨度为2019年全年,共收录112万篇新闻文章,并采用Python库feedparser和goose进行稳定高效的文本提取。此外,数据集的构建还新增了66个新闻源,特别关注了近年来流行的阴谋论与伪科学类网站,以更全面地反映媒体生态的复杂性。
特点
该数据集的核心特点在于其多维度标注体系与大规模时间跨度。数据集不仅提供文章级别的元数据,如标题、内容、作者及发布时间,更整合了来自七个独立评估机构的源级别真实标签,涵盖政治倾向、事实性评分及可靠性等多个维度。这种多标签设计使研究者能够超越简单的真假二分法,深入探究新闻误导的多元机制。数据的时间覆盖全年,且包含大量未标注与混合可靠性来源,为研究概念漂移、半监督学习及虚假信息策略的演化提供了丰富素材。
使用方法
为便于学术研究,数据集以SQLite数据库和每源独立JSON文件两种格式提供,并附有Python提取脚本以简化数据访问流程。研究者可利用源级别标签进行新闻可靠性分类模型的训练与验证,或结合时间序列分析探究虚假信息传播策略的演变。数据集支持跨年度整合,与NELA系列早期版本结合可构建超过两年半的连续新闻语料,适用于研究政治叙事变迁、半监督检测模型开发以及媒体偏见的长效影响分析。
背景与挑战
背景概述
在数字媒体时代,新闻真实性研究面临数据稀缺的瓶颈,尤其是具备大规模、时效性且多维度标注的新闻数据集。为此,伦斯勒理工学院的Maurício Gruppi、Benjamin D. Horne与Sibel Adalı于2020年发布了NELA-GT-2019数据集,作为NELA-GT-2018的更新版本。该数据集聚焦于新闻误信息研究,核心目标是为计算社会科学与机器学习领域提供丰富的标注资源,以支持对新闻可信度、偏见及传播策略的深入分析。NELA-GT-2019收录了2019年度260个新闻来源的112万篇英文文章,涵盖主流与替代性媒体,并整合了来自Media Bias/Fact Check等七个评估机构的源级真实标签。这一数据集的发布显著推动了新闻验证、概念漂移检测以及虚假信息战术演化等研究方向的发展,成为该领域的重要基准资源。
当前挑战
NELA-GT-2019致力于应对新闻真实性检测中的核心挑战:如何在大规模、动态变化的新闻环境中,准确识别多维度误信息,包括事实错误、政治偏见与伪科学内容。构建过程中,研究团队面临多重困难:一是数据收集的稳定性与覆盖范围需平衡,需持续抓取RSS源并新增66个流行但可信度存疑的网站;二是标注一致性难题,因依赖外部评估机构(如MBFC、PolitiFact)的异构标签,且部分机构已停止更新或转为付费模式,导致标签时效性与完整性受限;三是数据格式与可访问性优化,需将庞大数据从纯文本迁移至SQLite与JSON结构,并提供提取脚本以提升可用性。这些挑战凸显了在快速演化的信息生态中构建可靠研究基础设施的复杂性。
常用场景
经典使用场景
在新闻可信度研究领域,NELA-GT-2019数据集为学者提供了一个大规模、多标签的新闻文章集合,其经典使用场景集中于虚假信息检测模型的训练与验证。该数据集涵盖了2019年全年来自260个新闻源的112万篇文章,并附带了来自七个评估机构的源级真实标签,这些标签涉及政治倾向、事实性评分等多个维度。研究人员利用这一数据集,能够构建机器学习模型,以自动识别新闻中的误导性内容,同时分析不同新闻源在报道风格和可信度上的差异。
解决学术问题
NELA-GT-2019数据集有效解决了新闻可信度研究中数据稀缺和标签不足的学术难题。传统研究往往受限于小规模或单一维度的标注数据,难以捕捉虚假信息的复杂性和时效性。该数据集通过提供大规模、多源、多标签的新闻文章,支持了概念漂移分析、半监督学习以及虚假信息生产者策略演变等前沿问题的探索。其意义在于为计算社会科学和机器学习领域提供了坚实的基础数据,推动了虚假信息检测方法的创新与验证。
衍生相关工作
NELA-GT-2019数据集衍生了一系列经典研究工作,主要集中在虚假信息检测算法的改进和跨时间分析。例如,研究人员结合NELA系列数据集(如NELA-GT-2018和NELA-GT-2019),开展了新闻可信度模型在长期时间跨度下的稳定性测试,探索概念漂移对检测性能的影响。此外,该数据集还启发了对混合可信度新闻源的半监督学习研究,以及针对特定政治事件中叙事演变的计算分析,这些工作深化了对虚假信息传播机制的理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作