Fake News Corpus

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/several27/FakeNewsCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个开源数据集，包含数百万篇新闻文章，主要从http://www.opensources.co/的1001个精选域名中抓取。为了更好地平衡类别，还包含了[NYTimes](https://developer.nytimes.com/)和[WebHose English News Articles](https://webhose.io/datasets)的文章。该数据集主要用于训练深度学习算法，以识别假新闻。

本开源数据集汇聚数百万篇新闻文章，其内容主要源自于源自http://www.opensources.co/的1001个精选网站。为达到类别平衡的目的，亦纳入了[NYTimes](https://developer.nytimes.com/)及[WebHose English News Articles](https://webhose.io/datasets)所提供之文章。该数据集旨在辅助深度学习算法的训练，以期实现假新闻的识别功能。

创建时间：

2018-02-02

原始信息汇总

数据集概述

数据集名称

Fake News Corpus

数据集描述

这是一个开放源代码数据集，包含数百万篇新闻文章，主要从http://www.opensources.co/的1001个精选域名中抓取。为平衡类别，还包含了NYTimes和WebHose English News Articles的文章。该数据集主要用于训练深度学习算法，以识别假新闻。

数据集规模

目前公开版本包含9,408,908篇文章，覆盖了1001个域名中的745个。

数据集创建方法

数据集通过使用scrapy抓取所有域名，并使用newspaper库处理纯HTML内容以提取文章文本和其他字段。

数据集格式

数据集格式为CSV，包含以下字段：

id
domain
type
url
content
scraped_at
inserted_at
updated_at
title
authors
keywords
meta_keywords
meta_description
tags
summary
source (opensources, nytimes, or webhose)

数据集类型及统计

Type	Tag	Count (so far)	Description
Fake News	fake	928,083	完全捏造信息的来源
Satire	satire	146,080	使用幽默评论当前事件的来源
Extreme Bias	bias	1,300,444	来自特定观点的来源
Conspiracy Theory	conspiracy	905,981	推广阴谋论的来源
State News	state	0	政府授权的压制国家来源
Junk Science	junksci	144,939	推广伪科学的来源
Hate News	hate	117,374	积极推广歧视的来源
Clickbait	clickbait	292,201	使用夸张标题的来源
Proceed With Caution	unreliable	319,830	内容需进一步验证的来源
Political	political	2,435,471	支持特定政治观点的来源
Credible	reliable	1,920,139	遵循新闻伦理的来源

数据集限制

数据集未经过手动过滤，因此某些标签可能不正确，某些URL可能不指向实际文章。此外，数据集完成后不打算更新，可能很快会过时。

数据集贡献

目前只有作者一人维护此数据集，欢迎任何形式的贡献，如发现标签错误、格式问题或无效URL等。

数据集下载

数据集下载链接

搜集汇总

数据集介绍

构建方式

该数据集通过爬取来自http://www.opensources.co/的1001个域名的新闻文章构建而成，使用Scrapy工具进行网页抓取，并利用Newspaper库提取文章文本及附加字段。为平衡数据类别，还引入了来自NYTimes和WebHose的英文新闻文章。每篇文章根据其来源域名被赋予相应的标签，确保数据集的多样性和代表性。

使用方法

使用该数据集时，用户可直接从GitHub发布页面下载CSV格式的数据文件。数据集包含多个字段，如文章ID、域名、类型、URL等，用户可根据需求选择合适的字段进行分析。此外，数据集适用于训练假新闻识别的深度学习算法，用户可通过提取和处理文章内容，结合机器学习模型进行训练和验证。

背景与挑战

背景概述

Fake News Corpus数据集由多个研究人员和机构共同创建，旨在为深度学习算法提供训练数据，以识别虚假新闻。该数据集主要从1001个经过筛选的域名中抓取新闻文章，并结合了来自NYTimes和WebHose的可靠新闻来源，以平衡数据类别。自创建以来，Fake News Corpus已成为研究虚假新闻识别的重要资源，其庞大的数据量和多样的类别标签为相关领域的研究提供了丰富的素材。

当前挑战

尽管Fake News Corpus数据集在虚假新闻识别领域具有重要意义，但其构建过程中仍面临诸多挑战。首先，数据集的标签可能存在不准确性，部分URL可能指向非文章页面，这可能影响机器学习算法的训练效果。其次，数据集的更新频率较低，可能导致其在非内容相关算法中的应用迅速过时。此外，由于数据集规模庞大，难以在GitHub上托管，限制了社区的协作和贡献。

常用场景

经典使用场景

Fake News Corpus数据集的经典使用场景主要集中在深度学习算法的训练上，特别是用于假新闻识别。通过提供大量标注的新闻文章，该数据集使得研究人员能够构建和验证假新闻检测模型。这些模型可以分析文章的内容、来源和元数据，从而识别出可能的虚假信息。

解决学术问题

Fake News Corpus数据集解决了假新闻识别这一重要的学术研究问题。在信息爆炸的时代，假新闻的传播对社会稳定和公众信任构成了严重威胁。该数据集通过提供丰富的标注数据，帮助学术界开发和评估假新闻检测算法，从而推动了相关领域的研究进展。

实际应用

在实际应用中，Fake News Corpus数据集可用于开发和部署假新闻检测工具。这些工具可以集成到新闻聚合平台、社交媒体监控系统或内容管理系统中，帮助过滤和标记潜在的虚假信息，从而提高信息的真实性和可信度。

数据集最近研究