Fake News Corpus
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/several27/FakeNewsCorpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个开源数据集,包含数百万篇新闻文章,主要从http://www.opensources.co/的1001个精选域名中抓取。为了更好地平衡类别,还包含了[NYTimes](https://developer.nytimes.com/)和[WebHose English News Articles](https://webhose.io/datasets)的文章。该数据集主要用于训练深度学习算法,以识别假新闻。
本开源数据集汇聚数百万篇新闻文章,其内容主要源自于源自http://www.opensources.co/的1001个精选网站。为达到类别平衡的目的,亦纳入了[NYTimes](https://developer.nytimes.com/)及[WebHose English News Articles](https://webhose.io/datasets)所提供之文章。该数据集旨在辅助深度学习算法的训练,以期实现假新闻的识别功能。
创建时间:
2018-02-02
原始信息汇总
数据集概述
数据集名称
Fake News Corpus
数据集描述
这是一个开放源代码数据集,包含数百万篇新闻文章,主要从http://www.opensources.co/的1001个精选域名中抓取。为平衡类别,还包含了NYTimes和WebHose English News Articles的文章。该数据集主要用于训练深度学习算法,以识别假新闻。
数据集规模
目前公开版本包含9,408,908篇文章,覆盖了1001个域名中的745个。
数据集创建方法
数据集通过使用scrapy抓取所有域名,并使用newspaper库处理纯HTML内容以提取文章文本和其他字段。
数据集格式
数据集格式为CSV,包含以下字段:
- id
- domain
- type
- url
- content
- scraped_at
- inserted_at
- updated_at
- title
- authors
- keywords
- meta_keywords
- meta_description
- tags
- summary
- source (opensources, nytimes, or webhose)
数据集类型及统计
| Type | Tag | Count (so far) | Description |
|---|---|---|---|
| Fake News | fake | 928,083 | 完全捏造信息的来源 |
| Satire | satire | 146,080 | 使用幽默评论当前事件的来源 |
| Extreme Bias | bias | 1,300,444 | 来自特定观点的来源 |
| Conspiracy Theory | conspiracy | 905,981 | 推广阴谋论的来源 |
| State News | state | 0 | 政府授权的压制国家来源 |
| Junk Science | junksci | 144,939 | 推广伪科学的来源 |
| Hate News | hate | 117,374 | 积极推广歧视的来源 |
| Clickbait | clickbait | 292,201 | 使用夸张标题的来源 |
| Proceed With Caution | unreliable | 319,830 | 内容需进一步验证的来源 |
| Political | political | 2,435,471 | 支持特定政治观点的来源 |
| Credible | reliable | 1,920,139 | 遵循新闻伦理的来源 |
数据集限制
数据集未经过手动过滤,因此某些标签可能不正确,某些URL可能不指向实际文章。此外,数据集完成后不打算更新,可能很快会过时。
数据集贡献
目前只有作者一人维护此数据集,欢迎任何形式的贡献,如发现标签错误、格式问题或无效URL等。
数据集下载
搜集汇总
数据集介绍

构建方式
该数据集通过爬取来自http://www.opensources.co/的1001个域名的新闻文章构建而成,使用Scrapy工具进行网页抓取,并利用Newspaper库提取文章文本及附加字段。为平衡数据类别,还引入了来自NYTimes和WebHose的英文新闻文章。每篇文章根据其来源域名被赋予相应的标签,确保数据集的多样性和代表性。
使用方法
使用该数据集时,用户可直接从GitHub发布页面下载CSV格式的数据文件。数据集包含多个字段,如文章ID、域名、类型、URL等,用户可根据需求选择合适的字段进行分析。此外,数据集适用于训练假新闻识别的深度学习算法,用户可通过提取和处理文章内容,结合机器学习模型进行训练和验证。
背景与挑战
背景概述
Fake News Corpus数据集由多个研究人员和机构共同创建,旨在为深度学习算法提供训练数据,以识别虚假新闻。该数据集主要从1001个经过筛选的域名中抓取新闻文章,并结合了来自NYTimes和WebHose的可靠新闻来源,以平衡数据类别。自创建以来,Fake News Corpus已成为研究虚假新闻识别的重要资源,其庞大的数据量和多样的类别标签为相关领域的研究提供了丰富的素材。
当前挑战
尽管Fake News Corpus数据集在虚假新闻识别领域具有重要意义,但其构建过程中仍面临诸多挑战。首先,数据集的标签可能存在不准确性,部分URL可能指向非文章页面,这可能影响机器学习算法的训练效果。其次,数据集的更新频率较低,可能导致其在非内容相关算法中的应用迅速过时。此外,由于数据集规模庞大,难以在GitHub上托管,限制了社区的协作和贡献。
常用场景
经典使用场景
Fake News Corpus数据集的经典使用场景主要集中在深度学习算法的训练上,特别是用于假新闻识别。通过提供大量标注的新闻文章,该数据集使得研究人员能够构建和验证假新闻检测模型。这些模型可以分析文章的内容、来源和元数据,从而识别出可能的虚假信息。
解决学术问题
Fake News Corpus数据集解决了假新闻识别这一重要的学术研究问题。在信息爆炸的时代,假新闻的传播对社会稳定和公众信任构成了严重威胁。该数据集通过提供丰富的标注数据,帮助学术界开发和评估假新闻检测算法,从而推动了相关领域的研究进展。
实际应用
在实际应用中,Fake News Corpus数据集可用于开发和部署假新闻检测工具。这些工具可以集成到新闻聚合平台、社交媒体监控系统或内容管理系统中,帮助过滤和标记潜在的虚假信息,从而提高信息的真实性和可信度。
数据集最近研究
最新研究方向
在信息爆炸的时代,假新闻的识别与分类成为了一个紧迫且重要的研究课题。Fake News Corpus数据集的最新研究方向主要集中在利用深度学习算法提升假新闻识别的准确性和效率。研究者们通过整合多种来源的新闻数据,包括NYTimes和WebHose等可靠信息源,以平衡数据集的类别分布,从而训练出更为精准的模型。此外,该数据集的构建过程中采用了先进的网络爬虫技术和文本处理工具,确保了数据的高质量和多样性。随着社交媒体和在线新闻平台的普及,假新闻的传播速度和影响力日益增强,因此,基于此数据集的研究不仅有助于提升信息识别技术,还对维护社会信息环境的纯净性具有深远的意义。
以上内容由遇见数据集搜集并总结生成



