Webz.io Fake News Dataset

github2025-03-16 更新2025-02-21 收录

下载链接：

https://github.com/Webhose/fake-news-dataset

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

该数据集由Webz.io创建，每周更新，包含来自被标记为假新闻网站的约1000篇文章。数据集提供了丰富的信息，包括情感分析、类别、发布日期和来源信任级别，涵盖了政治、健康、金融等关键领域中的错误信息。

This dataset was created by Webz.io, updated weekly, and contains approximately 1,000 articles from websites labeled as fake news. It provides comprehensive information including sentiment analysis, article categories, publication dates and source trust levels, covering misinformation across key fields such as politics, health and finance.

创建时间：

2025-02-20

原始信息汇总

Webz.io Fake News Dataset Repository

数据集概述

数据集来源：由Webz.io创建，包含公开可用的新闻文章，这些文章来源于被标记为假新闻网站的来源。
筛选标准：使用Webz.io的信任过滤器（trust.category:fake_news）筛选，包含来自以下来源的文章：
更新频率：每周发布新数据集，每个数据集包含约1,000篇文章。
数据集特点：
- 丰富的元数据：包括情感分析、分类、发布日期和来源信任度。
- 多样化主题：覆盖政治、健康、金融等易出现误导信息的领域。

使用说明

数据集免费用于学术、研究和新闻目的：

误信息分析：研究假新闻的模式、趋势和叙述。
机器学习和AI：训练自然语言处理模型以检测假新闻和误信息。
新闻研究：支持事实核查和调查性新闻工作。

数据集访问

浏览仓库以找到最新的假新闻数据集。
下载数据集及其元数据文件。

贡献

欢迎贡献！如果您有建议或想要贡献，请打开一个issue或pull request。

支持

如有问题或需要支持，请在仓库中提出issue。

许可/使用条款

使用假新闻数据集仓库，您同意以下使用条款。

搜集汇总

数据集介绍

构建方式

Webz.io Fake News Dataset 由Webz.io构建，采用其内置的信任过滤器（`trust.category:fake_news`）筛选出被公认为假新闻网站的公开新闻文章。该数据集通过综合多个权威来源，如维基百科列出的假新闻网站名单，定期收集并整理出含有大约1,000篇文章的数据集，每周更新一次，旨在为研究 misinformation 和 disinformation 提供资源。

特点

该数据集的特点在于其来源的权威性，所有文章均来源于经过核实的假新闻网站名单。数据集不仅包含文章本身，还提供了丰富的元数据，如情感分析、分类、发布日期以及来源的信任度等级。此外，数据集覆盖了政治、健康、金融等多个领域，这些领域是虚假信息传播的常见领域。

使用方法

用户可以免费用于学术研究、新闻调查等目的。该数据集可以用于分析假新闻的模式和趋势，训练自然语言处理模型以检测虚假信息，以及支持事实核查和调查性新闻工作。获取数据集的方法是通过浏览存储库，下载最新的假新闻数据集及其元数据文件。

背景与挑战

背景概述

Webz.io Fake News Dataset是由Webz.io公司创建并维护的一个数据集仓库，旨在为研究人员、分析人士和记者提供一份公开可用的假新闻文章集合。该数据集的创建时间是未明确指出的，但可以从其更新频率推断其持续维护。Webz.io公司利用其信任过滤器技术，从被广泛认为是假新闻的网站中筛选出相关文章，构建了这一数据集。该数据集自推出以来，已成为研究虚假信息传播、检测算法开发以及新闻业事实核查的重要资源，对信息传播学、计算传播学等领域产生了显著影响。

当前挑战

该数据集面临的挑战主要包括：1) 如何在动态变化的网络环境中持续有效地识别和收集假新闻源；2) 保证数据集的时效性和准确性，以应对不断涌现的新假新闻网站；3) 在遵循法律法规和数据使用条款的前提下，平衡数据集的开放性与版权问题；4) 数据集在应用于机器学习和自然语言处理模型训练时，如何确保模型的泛化能力和避免偏见。构建过程中的挑战还包括对大量非结构化数据的处理、标注的质量控制，以及大规模数据集维护的技术和资源投入。

常用场景

经典使用场景

在当前信息传播环境中，Webz.io Fake News Dataset 作为一个含有经过验证的虚假新闻来源的数据集，其经典使用场景主要集中于对虚假新闻的检测与分析。研究人员可通过该数据集深入探索虚假新闻的传播模式、语言特征及其背后的叙事策略，从而提升对 misinformation 和 disinformation 的理解和辨识能力。

实际应用

在实践应用层面，Webz.io Fake News Dataset 可被用于新闻行业的事实核查，以及社交媒体平台的内容审核。此外，政府机构和企业也可利用该数据集进行舆论监控和风险管理，以防止虚假信息的传播对社会秩序和公众信任造成负面影响。

衍生相关工作

基于该数据集，已衍生出一系列相关工作，包括但不限于对虚假新闻检测模型的开发、对虚假新闻传播网络的映射分析，以及结合心理学和社会学角度对虚假信息受众影响的研究，这些工作进一步拓宽了数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集