Fake News Dataset
收藏github2025-02-23 更新2025-02-26 收录
下载链接:
https://github.com/rudiabc/Fake-News-Detection
下载链接
链接失效反馈官方服务:
资源简介:
假新闻数据集,包含新闻标题、主要内容以及标签,标签将新闻分类为真实或虚假。
Fake News Dataset: This dataset includes news headlines, main content, and labels, where the labels classify news as either real or fake.
创建时间:
2025-02-16
原始信息汇总
Fake News Detection 数据集概述
数据集基本信息
- 来源:Kaggle
数据集链接 - 规模:6,335条新闻样本(4列)
- 平衡性:
- REAL新闻:3,171条(50.06%)
- FAKE新闻:3,164条(49.94%)
数据结构
| 列名 | 类型 | 描述 | 预处理状态 |
|---|---|---|---|
| Unnamed: 0 | 数值 | 无意义索引列 | 已删除 |
| title | 文本 | 新闻标题 | 与text列合并为news列 |
| text | 文本 | 新闻正文 | 合并后经清洗存入clean_news |
| label | 分类 | 标注类型(REAL/FAKE) | 转换为数值标签(0/1) |
数据质量
- 完整性:无缺失值
- 唯一性:无重复记录
- 主要主题:政治新闻(高频词:Trump, Clinton, election等)
预处理流程
- 文本合并:title + text → news列
- 清洗步骤:
- 大小写统一
- 移除URL
- 替换非字母字符
- 词形还原(WordNet)
- 停用词过滤
- 向量化:TF-IDF处理(生成49,295个特征词)
建模方法
算法比较
| 算法 | 准确率 | 最佳参数组合 |
|---|---|---|
| 朴素贝叶斯 | 84.53% | - |
| 随机森林 | 90.21% | - |
| K近邻 | 84.45% | - |
| 逻辑回归 | 91.63% | C=10000, max_iter=100, solver=liblinear |
| SVC | 91.63% | C=1, gamma=scale, kernel=linear |
评估指标
- 混淆矩阵:TP/FP/FN/TN统计
- 分类报告:精确率/召回率/F1值(逻辑回归与SVC最优)
应用工具
- 编程语言:Python
- 开发环境:Google Colab, VS Code
- 核心库:
- 数据处理:Pandas, Numpy
- 可视化:Matplotlib, Seaborn, WordCloud
- NLP工具:NLTK, TF-IDF
- 机器学习:Scikit-learn(5种分类算法)
搜集汇总
数据集介绍

构建方式
Fake News Dataset 是通过从网络新闻源收集并整合标题、内容和标签信息构建的。数据集包含了经过清洗和预处理后的文本数据,以及用于机器学习模型训练的标签。构建过程中,数据源来自于 Kaggle 平台,经过去除无用列、合并相关列、文本清洗和向量化等步骤,最终形成了适用于模型训练的数据集。
特点
该数据集的特点在于其平衡的类别分布,包含真实和虚假新闻的标签,便于模型学习区分。数据集由四列组成:标题、内容、标签和一个未定义的数字列。文本数据经过详细的预处理,包括小写转换、去除 URL、非字母字符替换、分词、词干提取和停用词去除,确保了数据质量。此外,数据集还经过了词频-逆文档频率(TF-IDF)向量化,为模型提供了数值化的特征输入。
使用方法
使用该数据集时,用户首先需要加载数据,并对数据进行探索性分析以了解其基本特性。之后,用户可以根据需要选择合适的文本预处理方法,如文本清洗和向量化。数据集分割为训练集和测试集后,可以应用多种机器学习算法进行模型训练,如朴素贝叶斯、随机森林、k-最近邻、逻辑回归和支持向量机等。通过模型评估指标,如准确率、精确率、召回率和 F1 分数,用户可以评估模型的性能,并进行参数调优以提高模型效果。
背景与挑战
背景概述
Fake News Dataset是一个旨在帮助区分真实与虚假新闻的数据集,创建于近期,由Kaggle用户rajatkumar30提供。该数据集的核心研究问题是自动检测和识别网络上的虚假新闻,以减少误导性信息的传播,增强数字素养和公众意识,以及支持高质量和可信的新闻报道。该数据集自发布以来,在学术界和工业界产生了广泛的影响,成为研究虚假新闻检测的重要资源。
当前挑战
该数据集在研究领域中面临的挑战主要包括:1)所解决的领域问题,即如何在海量的网络信息中准确识别出虚假新闻,防止误导性信息的传播;2)构建过程中的挑战,如数据收集的可靠性、标注质量的一致性以及模型泛化能力的提升。具体来说,数据集的构建需要解决如何从多个来源收集具有代表性的新闻样本,以及如何确保标注过程的客观性和准确性。在模型构建方面,则需要解决如何处理文本数据的多样性和复杂性,以及如何优化模型参数以提高检测的准确性和效率。
常用场景
经典使用场景
Fake News Dataset是一个用于新闻真实性检测的数据集,其经典使用场景在于训练机器学习模型以区分真新闻与假新闻。通过该数据集,研究人员和开发者能够构建和优化算法,自动识别在线散播的虚假或误导性信息,从而降低公众对错误信息的信任度,打击不实信息的传播。
解决学术问题
该数据集解决了学术研究中对于虚假新闻检测的需求,它帮助研究者开发出能够准确识别虚假新闻的算法,从而提高了数字素养,增强了公众对于高质量、可信新闻的认识,同时减少了宣传和政治操纵的影响。
衍生相关工作
基于Fake News Dataset,衍生出了众多相关工作,包括但不限于改进的新闻分类算法、针对特定领域(如政治、健康)的假新闻检测模型,以及结合自然语言处理的更复杂的新闻验证系统。这些工作进一步推动了假新闻检测领域的研究和发展。
以上内容由遇见数据集搜集并总结生成



