ultimate-fake-news-dataset
收藏Hugging Face2025-10-22 更新2025-10-23 收录
下载链接:
https://huggingface.co/datasets/Arko007/ultimate-fake-news-dataset
下载链接
链接失效反馈官方服务:
资源简介:
终极假新闻数据集是一个大规模的多源英文数据集,包含约925万个经过筛选和去重的样本,主要用于训练文本分类模型,以对长篇新闻文章和标题进行假新闻检测。
创建时间:
2025-10-17
原始信息汇总
Ultimate Fake News Dataset 数据集概述
基本信息
- 数据集名称: Ultimate Fake News Dataset
- 语言: 英语
- 许可证: Apache-2.0
- 任务类型: 文本分类/事实核查
- 数据规模: 约925万样本
- 文件大小: 4.42 GB
- 维护者: Arko007
数据集描述
大规模、多来源的英语假新闻检测数据集,包含约925万经过整理和去重的样本,主要用于训练鲁棒的文本分类模型。
数据集结构
数据特征
- text (字符串): 文章正文、标题或陈述文本
- label_binary (int64): 二元标签 - 0=假新闻,1=真实新闻
- label_6class (int64): 六分类标签
- source (字符串): 数据来源
数据划分
- train: 单一训练划分,包含9,249,050个样本
- 未提供官方验证集和测试集
数据集创建
来源构成
- ISOT数据集
- Kaggle数据集
- 各种公开假新闻语料库
处理流程
- 收集多个公开数据集
- 标准化字段到统一模式
- 执行重复和近似重复检测与移除
- 文本清理(Unicode标准化、空格标准化、基本HTML伪影移除)
- 将源特定标签映射到二元标签
- 组装最终train.csv文件
类别分布
- 假新闻(FAKE): 约2.8%
- 真实新闻(REAL): 约97.2%
推荐用途
适用场景
- 训练基于Transformer的分类器进行文章级假新闻检测
- 新闻和错误信息任务的领域自适应预训练
- 不平衡缓解、校准和领域迁移的基线研究
不适用场景
- 法律真实性判断或将自动化输出作为权威展示
- 领域外短文本任务
训练建议
数据划分
- 建议使用按label_binary分层的80/10/10划分
不平衡处理策略
- 损失函数中的类别加权
- 假新闻类别的过采样或合成增强
- 难负例挖掘或课程学习
- 使用对不平衡鲁棒的评估指标
已知限制
偏差问题
- 来源偏差:模型可能利用发布者/风格线索而非内容级信号
- 类别不平衡:极度偏向真实新闻
- 领域和地理偏差:某些子集中过度代表美国/西方来源和政治话题
- 时间偏差:数据分布可能反映特定时间段
其他限制
- 仅限英语数据集
- 二元标签移除了细微差别
- 主要发布中不包含每条记录的来源信息
联系方式
- 维护者: Anamitra-Sarkar
- GitHub: https://github.com/Anamitra-Sarkar
- 数据集页面: https://huggingface.co/datasets/Arko007/ultimate-fake-news-dataset
搜集汇总
数据集介绍

构建方式
在虚假新闻检测领域,该数据集通过整合ISOT、Kaggle等多个公开语料库,构建了约925万条样本的大规模英语数据集。采用标准化流程对原始文本进行字段统一和去重处理,通过保守映射策略将多分类标签转化为二元标签,并保留原始文本大小写特征。数据清洗过程包含Unicode标准化和HTML残留标记清除,确保数据质量满足大规模模型训练需求。
使用方法
研究者可通过Hugging Face数据集库直接加载CSV文件进行流式处理,建议采用分层抽样保持类别比例。针对类别不平衡问题,推荐使用逆频率加权损失函数或过采样技术。该数据集适用于Transformer架构的预训练与微调,在政治声明检测等迁移学习任务中已取得71%的准确率。使用时应注重跨领域评估,避免模型过度依赖发布者特征。
背景与挑战
背景概述
虚假新闻检测作为自然语言处理领域的重要研究方向,旨在通过计算模型识别具有误导性的信息传播。Ultimate Fake News Dataset由研究者Arko007于2025年构建,整合了ISOT、Kaggle等多个权威公开语料库,形成包含约925万样本的大规模英文数据集。该数据集通过标准化文本与二元标签体系,为领域自适应预训练与细粒度分类模型开发提供了重要基础,显著推动了虚假新闻检测领域的实证研究进展。
当前挑战
该数据集面临的核心领域挑战在于虚假新闻的动态演化特性,模型需克服语义混淆与对抗性文本的干扰。构建过程中存在多重技术难点:原始数据源的标签异构性需通过保守映射策略统一为二元分类体系;近重复文本的识别与清理要求设计高效的语义去重流程;极端类别不平衡(虚假类仅占2.8%)对模型优化策略提出严峻考验。此外,跨数据源的版权许可兼容性与元数据溯源完整性亦构成重要制约因素。
常用场景
经典使用场景
在虚假信息检测研究领域,该数据集作为大规模标注语料库,主要应用于新闻文本的二分类任务。通过整合多源真实与虚假新闻样本,研究者可构建基于Transformer架构的深度分类模型,如RoBERTa和DeBERTa,对长文本新闻内容进行自动化真伪判别。其海量样本特性特别适用于需要高泛化能力的模型训练场景,例如针对政治、健康等垂直领域的虚假新闻追踪。
解决学术问题
该数据集有效缓解了虚假新闻检测中数据稀缺与标注不一致的学术困境。通过标准化多源数据的标签体系,解决了传统研究中因标注维度差异导致的模型迁移障碍。其提供的近千万级样本支撑了领域自适应预训练方法的验证,为研究新闻文本的语义表征与领域偏移问题提供了基准平台,同时推动了类别不平衡场景下的损失函数优化策略探索。
实际应用
在现实应用层面,基于该数据集训练的模型可部署于社交媒体内容审核系统,自动识别潜在虚假新闻。新闻聚合平台借助此类技术实现内容可信度分级,辅助用户辨别信息真伪。政府监管机构亦可通过构建实时监测管道,追踪特定议题的虚假信息传播轨迹,为网络空间治理提供数据支撑。
数据集最近研究
最新研究方向
在虚假新闻检测领域,该数据集正推动基于Transformer架构的领域自适应预训练研究,通过整合多源异构数据提升模型对长文本的语义理解能力。当前热点聚焦于类别不平衡问题的创新解法,例如采用合成数据增强与课程学习策略优化少数类样本的表示学习。前沿探索还涉及时序泛化测试框架的构建,模拟真实场景中信息传播的动态演变,以增强模型对新兴虚假叙事模式的适应性与鲁棒性。这些进展对构建可信赖的信息生态系统具有重要实践意义,为跨领域迁移学习提供了标准化基准。
以上内容由遇见数据集搜集并总结生成



