ultimate-fake-news-dataset

Hugging Face2025-10-22 更新2025-10-23 收录

下载链接：

https://huggingface.co/datasets/Arko007/ultimate-fake-news-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

终极假新闻数据集是一个大规模的多源英文数据集，包含约925万个经过筛选和去重的样本，主要用于训练文本分类模型，以对长篇新闻文章和标题进行假新闻检测。

创建时间：

2025-10-17

原始信息汇总

Ultimate Fake News Dataset 数据集概述

基本信息

数据集名称: Ultimate Fake News Dataset
语言: 英语
许可证: Apache-2.0
任务类型: 文本分类/事实核查
数据规模: 约925万样本
文件大小: 4.42 GB
维护者: Arko007

数据集描述

大规模、多来源的英语假新闻检测数据集，包含约925万经过整理和去重的样本，主要用于训练鲁棒的文本分类模型。

数据集结构

数据特征

text (字符串): 文章正文、标题或陈述文本
label_binary (int64): 二元标签 - 0=假新闻，1=真实新闻
label_6class (int64): 六分类标签
source (字符串): 数据来源

数据划分

train: 单一训练划分，包含9,249,050个样本
未提供官方验证集和测试集

数据集创建

来源构成

ISOT数据集
Kaggle数据集
各种公开假新闻语料库

处理流程

收集多个公开数据集
标准化字段到统一模式
执行重复和近似重复检测与移除
文本清理（Unicode标准化、空格标准化、基本HTML伪影移除）
将源特定标签映射到二元标签
组装最终train.csv文件

类别分布

假新闻(FAKE): 约2.8%
真实新闻(REAL): 约97.2%

训练建议

数据划分

建议使用按label_binary分层的80/10/10划分

不平衡处理策略

损失函数中的类别加权
假新闻类别的过采样或合成增强
难负例挖掘或课程学习
使用对不平衡鲁棒的评估指标

已知限制

偏差问题

来源偏差：模型可能利用发布者/风格线索而非内容级信号
类别不平衡：极度偏向真实新闻
领域和地理偏差：某些子集中过度代表美国/西方来源和政治话题
时间偏差：数据分布可能反映特定时间段

其他限制

仅限英语数据集
二元标签移除了细微差别
主要发布中不包含每条记录的来源信息

联系方式

维护者: Anamitra-Sarkar
GitHub: https://github.com/Anamitra-Sarkar
数据集页面: https://huggingface.co/datasets/Arko007/ultimate-fake-news-dataset

搜集汇总

数据集介绍

构建方式

在虚假新闻检测领域，该数据集通过整合ISOT、Kaggle等多个公开语料库，构建了约925万条样本的大规模英语数据集。采用标准化流程对原始文本进行字段统一和去重处理，通过保守映射策略将多分类标签转化为二元标签，并保留原始文本大小写特征。数据清洗过程包含Unicode标准化和HTML残留标记清除，确保数据质量满足大规模模型训练需求。

使用方法

研究者可通过Hugging Face数据集库直接加载CSV文件进行流式处理，建议采用分层抽样保持类别比例。针对类别不平衡问题，推荐使用逆频率加权损失函数或过采样技术。该数据集适用于Transformer架构的预训练与微调，在政治声明检测等迁移学习任务中已取得71%的准确率。使用时应注重跨领域评估，避免模型过度依赖发布者特征。

背景与挑战

背景概述

虚假新闻检测作为自然语言处理领域的重要研究方向，旨在通过计算模型识别具有误导性的信息传播。Ultimate Fake News Dataset由研究者Arko007于2025年构建，整合了ISOT、Kaggle等多个权威公开语料库，形成包含约925万样本的大规模英文数据集。该数据集通过标准化文本与二元标签体系，为领域自适应预训练与细粒度分类模型开发提供了重要基础，显著推动了虚假新闻检测领域的实证研究进展。

当前挑战

该数据集面临的核心领域挑战在于虚假新闻的动态演化特性，模型需克服语义混淆与对抗性文本的干扰。构建过程中存在多重技术难点：原始数据源的标签异构性需通过保守映射策略统一为二元分类体系；近重复文本的识别与清理要求设计高效的语义去重流程；极端类别不平衡（虚假类仅占2.8%）对模型优化策略提出严峻考验。此外，跨数据源的版权许可兼容性与元数据溯源完整性亦构成重要制约因素。

常用场景

经典使用场景

在虚假信息检测研究领域，该数据集作为大规模标注语料库，主要应用于新闻文本的二分类任务。通过整合多源真实与虚假新闻样本，研究者可构建基于Transformer架构的深度分类模型，如RoBERTa和DeBERTa，对长文本新闻内容进行自动化真伪判别。其海量样本特性特别适用于需要高泛化能力的模型训练场景，例如针对政治、健康等垂直领域的虚假新闻追踪。

解决学术问题

该数据集有效缓解了虚假新闻检测中数据稀缺与标注不一致的学术困境。通过标准化多源数据的标签体系，解决了传统研究中因标注维度差异导致的模型迁移障碍。其提供的近千万级样本支撑了领域自适应预训练方法的验证，为研究新闻文本的语义表征与领域偏移问题提供了基准平台，同时推动了类别不平衡场景下的损失函数优化策略探索。

实际应用

在现实应用层面，基于该数据集训练的模型可部署于社交媒体内容审核系统，自动识别潜在虚假新闻。新闻聚合平台借助此类技术实现内容可信度分级，辅助用户辨别信息真伪。政府监管机构亦可通过构建实时监测管道，追踪特定议题的虚假信息传播轨迹，为网络空间治理提供数据支撑。

数据集最近研究

ultimate-fake-news-dataset

Ultimate Fake News Dataset 数据集概述

基本信息

数据集描述

数据集结构

数据特征

数据划分

数据集创建

来源构成

处理流程

类别分布

推荐用途

适用场景

不适用场景

训练建议

数据划分

不平衡处理策略

已知限制

偏差问题

其他限制

联系方式