Fake News Corpus

github2020-02-28 更新2024-05-31 收录

下载链接：

https://github.com/Sunshineflickerhop/FakeNewsCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个开源数据集，包含数百万篇新闻文章，主要从http://www.opensources.co/的1001个精选域名中抓取。为了更好地平衡类别，还包含了[NYTimes](https://developer.nytimes.com/)和[WebHose English News Articles](https://webhose.io/datasets)的文章。该数据集主要用于训练深度学习算法，以识别假新闻。

本开源数据集汇聚了数百万篇新闻文章，其来源广泛，主要涵盖来自http://www.opensources.co/的1001个精选域名的信息。为追求类别平衡，亦纳入了[NYTimes](https://developer.nytimes.com/)及[WebHose English News Articles](https://webhose.io/datasets)的相关内容。该数据集旨在为深度学习算法的训练提供素材，尤其专注于假新闻的识别。

创建时间：

2020-02-28

原始信息汇总

数据集概述

数据集名称

Fake News Corpus

数据集描述

这是一个开源数据集，包含数百万篇新闻文章，主要从OpenSources的1001个精选域名中抓取。为了平衡类别，还包含了NYTimes和WebHose English News Articles的文章。数据集主要用于训练深度学习算法，以识别假新闻。

数据集状态

目前公开版本包含9,408,908篇文章，覆盖了1001个域名中的745个。数据集仍在进行中。

数据集创建方法

通过使用Scrapy抓取所有域名，并使用newspaper库处理纯HTML内容以提取文章文本和其他字段。

数据集格式

数据集格式为CSV，包含以下字段：

id
domain
type
url
content
scraped_at
inserted_at
updated_at
title
authors
keywords
meta_keywords
meta_description
tags
summary
source (opensources, nytimes, or webhose)

数据集类型及统计

Type	Tag	Count	Description
Fake News	fake	928,083	完全捏造信息，传播欺骗性内容，或严重歪曲实际新闻报道的来源
Satire	satire	146,080	使用幽默、讽刺、夸张、嘲笑和虚假信息评论当前事件的来源
Extreme Bias	bias	1,300,444	来自特定观点的来源，可能依赖于宣传、断章取义的信息和扭曲为事实的观点
Conspiracy Theory	conspiracy	905,981	著名推广奇特阴谋论的来源
State News	state	0	在政府授权下运营的压制性国家的来源
Junk Science	junksci	144,939	推广伪科学、形而上学、自然主义谬误和其他科学上可疑声明的来源
Hate News	hate	117,374	积极推广种族主义、厌恶女性、恐同和其他形式歧视的来源
Clickbait	clickbait	292,201	提供一般可信内容，但使用夸张、误导或可疑标题、社交媒体描述和/或图像的来源
Proceed With Caution	unreliable	319,830	内容可能可靠但需要进一步验证的来源
Political	political	2,435,471	提供一般可验证信息以支持某些观点或政治倾向的来源
Credible	reliable	1,920,139	以与新闻业传统和道德实践一致的方式传播新闻和信息的来源

数据集下载

数据集下载链接

数据集限制

数据集未经过手动筛选，因此某些标签可能不正确，某些URL可能不指向实际文章而是指向网站上的其他页面。此外，数据集完成后不打算更新，因此可能很快对基于内容的算法以外的目的过时。

数据集贡献

由于目前只有一个人在维护这个数据集，非常欢迎所有贡献。如果发现任何文章的标签错误、格式奇怪的内容或指向非文章的URL，请自由发布带有问题和确切文章ID的问题，我将尽力及时响应。由于数据集的大小，无法在GitHub上托管，因此目前无法使用拉取请求协作处理数据。

搜集汇总

数据集介绍

构建方式

Fake News Corpus 数据集的构建采取了对特定域名列表的新闻文章进行爬取的方法。具体而言，该数据集的创建者是利用 scrapy 爬虫框架从 http://www.opensources.co/ 提供的1001个域名中抓取所有文章，并使用 newspaper 库处理纯HTML内容，以提取文章文本及附加字段。数据集的标签分配基于域名对应的标签，相关源代码可在 FakeNewsRecognition 仓库中获取。

使用方法

用户可以通过 GitHub 释放页面下载 Fake News Corpus 数据集。数据集以CSV格式组织，字段包括文章ID、域名、类型、URL、内容、抓取时间等。用户在使用该数据集时，需注意数据集中可能存在标签错误和URL指向不准确的问题。此外，数据集不会在最终确定后进行更新，可能会迅速过时，但依然适用于内容基础算法的训练。

背景与挑战

背景概述

Fake News Corpus是一个旨在辅助深度学习算法训练以识别假新闻的开源数据集。该数据集由多个研究人员共同工作，始于对1001个精选域名下的新闻文章进行抓取，并补充了来自纽约时报和WebHose English News Articles的内容以平衡类别分布。该数据集的构建始于对假新闻识别技术的需求，并在学术界和工业界产生了广泛影响，为相关领域的研究提供了重要资源。

当前挑战

数据集在构建过程中面临的挑战包括：如何确保抓取的新闻文章准确地代表不同类别，以及如何处理由于域名标签可能不准确而导致的分类偏差。此外，数据集未经过手动筛选，可能存在标签错误和URL指向不准确的问题。在数据集的使用上，如何防止其快速过时也是一个挑战，因为这可能会影响基于内容的算法的效能。

常用场景

经典使用场景

在深度学习算法训练领域，Fake News Corpus数据集以其庞大的新闻文章量，为算法提供了丰富的学习素材，特别是针对假新闻识别任务。该数据集通过包含不同类型的新闻，如虚假新闻、讽刺、极端偏见等，使得算法能够学习并区分各类信息，进而在实际应用中准确识别假新闻。

解决学术问题

该数据集解决了学术界在假新闻识别、信息可靠性评估以及新闻来源偏见分析等方面的研究问题。通过提供带有标签的新闻数据，研究者可以训练模型来预测新闻的真实性，这对于提升公众的信息识别能力、增强网络环境的健康发展具有重要的学术价值和实际意义。

实际应用

在实际应用中，Fake News Corpus数据集可被用于新闻聚合平台的假新闻过滤、社交媒体的内容审核以及用户信息推荐的准确性提升等场景。它有助于提高信息传播的可靠性，保护用户免受虚假信息的侵害，对于维护网络信息的真实性具有重要作用。

数据集最近研究