Fake News Corpus

github2021-02-26 更新2024-05-31 收录

下载链接：

https://github.com/abhinavchdhry/Fake-News-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从多个假新闻网站和真实新闻来源收集的新闻文章，旨在用于训练和评估机器学习模型以区分假新闻和真实新闻。数据集要求主题和来源多样性，并力求在假新闻和真实新闻之间保持平衡的类别分布。

This dataset comprises news articles collected from multiple fake news websites and authentic news sources, designed for training and evaluating machine learning models to distinguish between fake and real news. The dataset emphasizes diversity in topics and sources, striving to maintain a balanced distribution between fake and real news categories.

创建时间：

2017-01-15

原始信息汇总

数据集概述

数据集目的

本数据集旨在用于训练和评估机器学习模型，以区分真实新闻与虚假新闻（包括假新闻、讽刺/模仿、偏见/阴谋论）。

数据集内容

虚假新闻数据：
- 来源：主要从以下网站收集：
  - http://www.theonion.com (讽刺)
  - http://www.politicops.com (假新闻/骗局/偏见)
  - http://www.realnewsrightnow.com (假新闻/骗局/偏见)
  - http://www.enduringvision.com (假新闻/骗局/偏见)
  - http://www.civictribune.com (假新闻/骗局/偏见)
  - http://www.newsbiscuit.com (假新闻/骗局/偏见)
- 数量：共收集3313篇文章。
- 补充数据：使用Kaggle上的一个公开数据集，包含12403篇文章，总虚假新闻文章数达到15716篇。
真实新闻数据：
- 来源：主要来自《纽约时报》、《卫报》和BBC新闻。
- 数量：共12591篇文章。

数据集特点

主题多样性：涵盖多个新闻类别，如政治、商业、体育、娱乐等。
来源多样性：从多个不同的新闻网站和来源收集，以考虑不同的写作风格和词汇使用。
类别分布：理想情况下，虚假和真实新闻的实例数量大致相等。

数据集使用

数据集用于评估不同向量空间模型在分类虚假新闻上的性能，包括Bag-of-words (BoW)、Term-frequency Inverse document frequency (tfidf)、N-gram模型和Latent Semantic Analysis (LSA)。通过这些模型，将文本文章转换为机器学习模型可处理的固定长度向量表示。

实验结果

TFIDF模型：最高准确率达到97.14%，性能指标普遍在96-98%之间。
LSA模型：性能略优于TFIDF，最高准确率达到97.44%。

结论

TFIDF模型在区分虚假新闻与真实新闻方面表现出色，而LSA模型虽然性能略高，但考虑到额外的计算资源和时间，TFIDF模型可能是更实用的选择。

搜集汇总

数据集介绍

构建方式

Fake News Corpus数据集的构建过程主要依赖于从多个新闻网站和公开数据源中收集新闻文章。首先，研究人员从特定的讽刺、假新闻和偏见网站（如The Onion、Politicops等）中抓取了3313篇文章，并将其归类为“假新闻”。此外，他们还从Kaggle平台上获取了一个包含12403篇假新闻文章的公开数据集，并将其整合到现有数据中。为了确保数据集的平衡性，研究人员还从《纽约时报》、《卫报》和BBC等可靠新闻源中收集了12591篇真实新闻文章。最终，数据集包含了15716篇假新闻和12591篇真实新闻，确保了主题和来源的多样性。

使用方法

Fake News Corpus数据集的使用方法主要集中在文本向量化和分类任务上。研究人员首先将新闻文章转换为数值化的向量表示，常用的方法包括词袋模型（BoW）、词频-逆文档频率（TF-IDF）、N-gram模型和潜在语义分析（LSA）。这些向量化方法能够将文本数据转换为机器学习模型可处理的格式。随后，研究人员使用梯度提升决策树（GBDT）分类器对向量化的文本进行分类，以区分假新闻和真实新闻。通过交叉验证和参数调优，研究人员能够评估不同向量化方法和模型参数对分类性能的影响，从而选择最优的模型配置。

背景与挑战

背景概述

Fake News Corpus数据集由北卡罗来纳州立大学计算机科学系的Abhinav Choudhury在2017年春季作为独立研究项目创建，旨在解决社交媒体上虚假新闻传播的问题。该数据集包含15716篇虚假新闻和12591篇真实新闻，涵盖了政治、商业、体育和娱乐等多个主题。其核心研究问题是通过文本分析技术，尤其是向量空间模型，来区分虚假新闻与真实新闻。该数据集为虚假新闻检测领域提供了重要的数据支持，推动了相关机器学习模型的发展。

当前挑战

Fake News Corpus数据集在构建过程中面临了多方面的挑战。首先，虚假新闻的多样性和复杂性使得数据收集和标注变得困难，尤其是如何确保数据的主题多样性和来源多样性。其次，虚假新闻的类别划分（如讽刺、偏见、阴谋论等）增加了数据标注的复杂性。此外，数据集中虚假新闻与真实新闻的类别分布不平衡，可能导致模型训练时的偏差。最后，文本向量化过程中，如何选择合适的向量空间模型（如TF-IDF、Bag-of-Words等）以捕捉文本的语义特征，也是一个重要的技术挑战。

常用场景

经典使用场景

Fake News Corpus 数据集在虚假新闻检测领域具有广泛的应用，尤其是在社交媒体平台上。通过该数据集，研究人员能够训练机器学习模型，自动识别和分类虚假新闻、恶作剧和讽刺性文章。该数据集的使用场景主要集中在文本分类任务中，特别是通过向量空间模型（如TF-IDF、Bag-of-Words等）将新闻文本转化为数值向量，进而利用分类器（如梯度提升决策树）进行真假新闻的判别。

解决学术问题

Fake News Corpus 数据集解决了虚假新闻检测中的关键学术问题，尤其是在文本特征提取和分类模型性能优化方面。通过该数据集，研究人员能够探索不同向量空间模型（如TF-IDF、N-gram、潜在语义分析等）在虚假新闻分类中的表现，并验证其在不同向量长度下的分类效果。该数据集的使用显著提升了虚假新闻检测的准确率，最高可达97.44%，为后续研究提供了坚实的实验基础。

实际应用

在实际应用中，Fake News Corpus 数据集被广泛用于构建自动化虚假新闻检测系统，尤其是在社交媒体平台和新闻聚合网站上。通过该数据集训练的模型能够实时监控和过滤虚假新闻，帮助用户识别和避免误导性信息。此外，该数据集还被用于开发新闻可信度评分系统，帮助新闻编辑和读者快速判断新闻来源的可信度，从而减少虚假新闻的传播。

数据集最近研究