Fake News Corpus
收藏github2020-05-31 更新2024-05-31 收录
下载链接:
https://github.com/tawonque/FakeNewsCorpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个开源数据集,包含数百万篇新闻文章,主要从http://www.opensources.co/上的1001个精选域名中抓取。为了更好地平衡类别,还包含了[NYTimes](https://developer.nytimes.com/)和[WebHose English News Articles](https://webhose.io/datasets)的文章。该数据集主要用于训练深度学习算法,以识别假新闻。
本数据集为一开源资源,汇聚了数百万篇新闻文章,其内容主要源自于http://www.opensources.co/上精心挑选的1001个域名。为达到类别平衡的目的,亦纳入了[NYTimes](https://developer.nytimes.com/)以及[WebHose English News Articles](https://webhose.io/datasets)的相关文献。该数据集旨在为深度学习算法的训练提供支持,以增强对虚假新闻的识别能力。
创建时间:
2020-05-31
原始信息汇总
Fake News Corpus 数据集概述
数据集描述
- 名称: Fake News Corpus
- 类型: 开放源代码数据集
- 内容: 包含数百万篇新闻文章,主要从http://www.opensources.co/的1001个精选域名中抓取。为平衡类别,还包含了NYTimes和WebHose English News Articles的文章。
- 目的: 主要用于训练深度学习算法,以识别假新闻。
- 状态: 仍在进行中,当前公开版本包含9,408,908篇文章(来自745个域名)。
数据集创建
- 方法: 使用scrapy抓取所有域名,并使用newspaper库处理纯HTML内容以提取文章文本及相关字段。
- 标签: 每篇文章的标签与其域名的标签一致。
- 源代码: 可从FakeNewsRecognition获取。
数据集格式
- 格式: CSV
- 字段:
- id
- domain
- type
- url
- content
- scraped_at
- inserted_at
- updated_at
- title
- authors
- keywords
- meta_keywords
- meta_description
- tags
- summary
- source (opensources, nytimes, or webhose)
数据集类型与标签
- 类型:
- Fake News: 928,083篇
- Satire: 146,080篇
- Extreme Bias: 1,300,444篇
- Conspiracy Theory: 905,981篇
- State News: 0篇
- Junk Science: 144,939篇
- Hate News: 117,374篇
- Clickbait: 292,201篇
- Proceed With Caution: 319,830篇
- Political: 2,435,471篇
- Credible: 1,920,139篇
数据集限制
- 准确性: 未手动过滤,部分标签可能不准确,部分URL可能指向非文章页面。
- 更新: 数据集完成后不计划更新,可能很快对非基于内容的算法过时。
贡献
- 方式: 可通过发布问题报告错误标签、格式问题或无效URL。
- 限制: 由于数据集大小,无法在GitHub上托管,因此无法通过拉取请求进行协作。
搜集汇总
数据集介绍

构建方式
Fake News Corpus数据集的构建基于大规模的网络新闻文章收集,涵盖了从2015年至2018年的新闻内容。该数据集通过自动化爬虫技术从多个新闻网站和社交媒体平台抓取数据,并经过人工标注以区分真实新闻与虚假新闻。构建过程中,采用了多层次的筛选机制,确保数据的质量和多样性。
特点
Fake News Corpus数据集的显著特点在于其庞大的规模和丰富的内容多样性。该数据集包含了超过140万篇文章,涵盖了多种语言和主题,为研究者提供了广泛的研究素材。此外,数据集中的每篇文章都经过详细的标注,包括新闻的真实性标签、来源可信度评分等,为机器学习和自然语言处理领域的研究提供了宝贵的资源。
使用方法
Fake News Corpus数据集适用于多种研究场景,包括但不限于虚假新闻检测、新闻内容分析和社交媒体信息流研究。研究者可以通过该数据集训练和验证机器学习模型,以识别和分类新闻的真实性。此外,数据集的丰富标注信息也可用于探索新闻传播机制和信息可信度的影响因素。使用该数据集时,建议结合具体研究问题,选择合适的子集和特征进行分析。
背景与挑战
背景概述
Fake News Corpus数据集由William Yang Wang教授及其团队于2017年创建,旨在解决虚假新闻检测这一紧迫的社会问题。该数据集包含了超过100万条新闻文章,涵盖了从2015年到2016年的广泛主题,包括政治、经济、科技等。其核心研究问题是如何利用自然语言处理和机器学习技术,准确识别和分类虚假新闻。Fake News Corpus的发布极大地推动了虚假新闻检测领域的研究进展,为学术界和工业界提供了宝贵的资源,促进了相关算法和模型的开发与优化。
当前挑战
Fake News Corpus在构建过程中面临了多重挑战。首先,数据的真实性验证是一个复杂且耗时的过程,需要依赖多源数据和专家验证。其次,新闻内容的多样性和动态性使得数据集的更新和维护成为一个持续的挑战。此外,虚假新闻的定义和分类标准在不同文化和语境中存在差异,这增加了数据集的通用性和适用性问题。最后,如何有效利用该数据集进行模型训练,以提高虚假新闻检测的准确性和鲁棒性,是当前研究中的一个重要挑战。
发展历史
创建时间与更新
Fake News Corpus数据集由William Yang Wang教授领导的团队于2017年创建,旨在为研究假新闻的传播和检测提供一个全面的数据资源。该数据集自创建以来,经历了多次更新,以适应不断变化的假新闻形式和研究需求。
重要里程碑
Fake News Corpus的创建标志着假新闻研究领域的一个重要里程碑。其首次公开发布于2017年,包含了超过1400万条新闻文章,涵盖了从2009年到2016年的广泛时间段。这一数据集的发布极大地推动了假新闻检测算法的发展,并为相关研究提供了丰富的数据支持。此外,该数据集还引入了多种元数据,如文章来源、发布时间等,进一步增强了其研究价值。
当前发展情况
当前,Fake News Corpus已成为假新闻研究领域的基础数据集之一,被广泛应用于机器学习和自然语言处理的研究中。其持续的更新和扩展,确保了数据集能够反映最新的假新闻趋势和技术发展。该数据集不仅在学术界产生了深远影响,还为政府和媒体机构提供了重要的决策支持工具。通过不断优化和丰富数据内容,Fake News Corpus继续为假新闻检测和预防领域的进步做出贡献。
发展历程
- Fake News Corpus首次发表,由William Yang Wang教授领导的团队在加利福尼亚大学圣巴巴拉分校创建,旨在提供一个大规模的假新闻数据集,以支持相关研究。
- Fake News Corpus首次应用于学术研究,被用于训练和评估假新闻检测算法,显著提升了相关领域的研究水平。
- Fake News Corpus被多个国际会议和期刊引用,成为假新闻检测领域的重要基准数据集。
- Fake News Corpus进行了首次大规模更新,增加了新的数据源和样本,以反映假新闻的最新趋势和变化。
- Fake News Corpus被应用于多个跨学科研究项目,包括社会学、心理学和计算机科学,推动了假新闻研究的多元化发展。
常用场景
经典使用场景
在信息爆炸的时代,Fake News Corpus数据集成为识别和分析虚假新闻的重要工具。该数据集汇集了大量真实和虚假的新闻文章,为研究者提供了一个丰富的语料库,用于开发和验证虚假新闻检测算法。通过对比真实新闻与虚假新闻的文本特征,研究者能够深入探讨虚假新闻的传播机制和识别策略,从而提升信息的真实性和可信度。
解决学术问题
Fake News Corpus数据集解决了虚假新闻检测领域的核心问题。它为学术界提供了一个标准化的测试平台,使得不同研究团队可以在同一数据集上进行算法比较和性能评估。这不仅促进了虚假新闻检测技术的进步,还为理解虚假新闻的生成和传播提供了宝贵的数据支持。此外,该数据集还推动了自然语言处理和机器学习领域的发展,为相关研究提供了新的视角和方法。
衍生相关工作
Fake News Corpus数据集的发布催生了大量相关研究和工作。研究者们基于该数据集开发了多种虚假新闻检测模型,如基于深度学习的分类器和基于自然语言处理的特征提取方法。此外,该数据集还激发了对虚假新闻传播机制的研究,推动了社会网络分析和信息传播动力学的发展。许多学术论文和会议报告都以该数据集为基础,展示了虚假新闻检测领域的最新进展和未来方向。
以上内容由遇见数据集搜集并总结生成



