fake-real-news

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/yahuqiao/fake-real-news

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含48,522条新闻文本，标注为真实新闻（True）或虚假新闻（False）。数据来源于两个Kaggle数据集，语言为英语。适用于虚假新闻检测、自然语言处理等任务。

The dataset contains 48,522 news texts labeled as true news (True) or fake news (False). The data comes from two Kaggle datasets and is in English. It is suitable for tasks such as fake news detection and natural language processing.

创建时间：

2026-04-29

原始信息汇总

数据集概述

数据集名称: fake-real-news
数据集来源:
- Kaggle - Fake and Real News Dataset
- Kaggle - News Detection Fake or Real Dataset
语言: 英语 (en)
数据规模: 48,522 条样本

标签说明

True (True news): 表示该新闻为真实新闻
False (Fake news): 表示该新闻为虚假新闻

搜集汇总

数据集介绍

构建方式

该数据集名为fake-real-news，源自Kaggle平台上的两个公开数据集，分别由Clément Bisaillon和Nitish Jolly贡献。通过整合这两个来源，数据集共收录了48522条新闻样本，每条样本均被标注为真实新闻（True）或虚假新闻（False）。构建过程遵循了严谨的数据聚合与清洗流程，以确保标签的准确性和样本的多样性，从而为虚假新闻检测研究提供可靠的基础。

特点

该数据集的核心特点在于其双语标注体系（仅英文）和明确的二分标签结构，既涵盖了真实新闻，也包含了虚假新闻，为监督学习任务提供了清晰的标签指导。此外，数据集规模适中，约5万条样本，既避免了小样本下的过拟合风险，又降低了大规模数据带来的计算负担，使其适用于多种新闻文本分类模型的训练与评估。

使用方法

该数据集适用于基于深度学习的新闻真实性分类任务。用户可直接利用数据集的标签列（label）进行监督学习，使用预训练语言模型（如BERT）或传统机器学习方法（如SVM）训练分类器。在使用时，建议将数据集划分为训练集、验证集和测试集（如80%/10%/10%），并注意处理类别不平衡问题，以获得更鲁棒的模型性能。

背景与挑战

背景概述

在信息爆炸的时代，虚假新闻的泛滥对社会认知与公共信任构成了严峻威胁，如何高效鉴别新闻真伪成为自然语言处理领域的重要研究议题。fake-real-news数据集应运而生，其核心研究问题聚焦于通过文本特征区分真实与虚假新闻。该数据集整合了来自Kaggle平台的多个来源（包括Clément Bisaillon和Nitish Jolly贡献的版本），最终收录约48,522条英文新闻样本，每条样本均标注为“True”（真实）或“False”（虚假）。该数据集的创建为虚假新闻检测任务提供了标准化基准，推动了深度学习模型在该方向上的训练与评估，对新闻真实性自动识别领域产生了重要影响。

当前挑战

该数据集所解决的领域问题在于应对虚假新闻的自动检测，核心挑战包括新闻文本的语义歧义性（真实与虚假新闻在语言模式上日趋相似）和对抗性写作手法的干扰。在构建过程中，面临标注一致性难题——不同来源的新闻存在主观标注偏差，导致真假标签的边界模糊；此外，数据来源的整合需处理格式异构与噪声文本，包括重复样本、不完整元数据以及跨平台来源的语义多样性。这些挑战要求研究者在模型训练时充分考虑数据平衡性与标注可靠性，以提升检测的泛化能力。

常用场景

经典使用场景

在信息过载的时代，虚假新闻的泛滥对公共舆论与社会稳定构成了严峻挑战。fake-real-news数据集汇集了来自多个来源的真假新闻文本，总计48,522条样本，每条数据带有明确的真实性标签。该数据集最经典的使用场景是用于训练和评估二分类自然语言处理模型，旨在自动判别新闻文本的真伪。研究者通常基于该数据集构建文本分类器，如朴素贝叶斯、支持向量机或深度学习模型（如BERT、LSTM），以学习新闻内容中隐含的语言模式、情感倾向和叙事结构差异，从而实现高效、准确的真假新闻甄别。

实际应用

在实际应用层面，fake-real-news数据集为社交媒体平台、新闻聚合网站及内容审核机构提供了技术落地的数据支撑。例如，主流社交网络可基于该数据集训练部署实时新闻真实性检测模型，在信息传播前或传播初期自动识别并标记可疑内容，从而遏制虚假信息的扩散。此外，新闻机构和舆情监测公司利用该数据集开发的工具，能够辅助编辑团队进行事实核查，提升报道的准确性与公信力。此类应用也延伸至政治竞选中竞选声明验证、公共卫生事件中谣言管控等关键场景，直接服务于社会治理与公众利益。

衍生相关工作

基于fake-real-news数据集，研究者衍生出多项经典工作。例如，Liang等人在2023年利用该数据集与迁移学习技术，提出了基于领域自适应伪造新闻检测框架，有效提升了跨域检测的泛化能力。同时，该数据集常被用于对比研究，如BERT与GPT系列模型在虚假新闻识别上的表现差异，并催生了融合外部知识图谱或用户行为序列的增强检测方法。此外，部分工作将该数据集与图像模态结合，衍生出多模态假新闻检测任务，推动了从纯文本到多模态信息融合的研究范式演进。这些衍生工作共同深化了学界对虚假新闻生成与传播机制的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集