fakenews
收藏Hugging Face2025-04-12 更新2025-04-13 收录
下载链接:
https://huggingface.co/datasets/declan101/fakenews
下载链接
链接失效反馈官方服务:
资源简介:
新闻细粒度调整数据集是一个包含假新闻和真实新闻文章的综合数据集,用于二分类任务。数据集包括文章标题、全文内容、主题类别、发布日期和标签(0表示真实新闻,1表示假新闻)。适用于假新闻检测、二分类任务以及transformers模型的微调。
创建时间:
2025-04-12
搜集汇总
数据集介绍

构建方式
在信息爆炸的数字时代,虚假新闻检测成为自然语言处理领域的重要课题。该数据集通过系统收集真实新闻与人工生成的虚假新闻,构建了一个规模介于1万至10万条样本之间的二分类语料库。数据经过严格清洗与标注,按照7:1.5:1.5的比例划分为训练集、验证集和测试集,每条数据包含标题、全文、主题分类、发布日期及人工核验的真实性标签。
特点
作为专为虚假新闻检测设计的基准数据集,其显著特点在于涵盖多元主题的新闻文本,每条数据均包含结构化元数据。数据集采用二进制标注体系(0表示真实新闻,1代表虚假新闻),特别适合用于微调DistilBERT等预训练模型。文本长度从简洁标题到完整报道内容形成自然梯度,为模型提供不同粒度的语义理解挑战。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,调用load_dataset函数即可获取已标准分割的三组数据。典型应用场景包括:使用CSV文件中的文本和标签字段进行端到端模型训练,结合主题分类信息增强模型泛化能力,或利用日期元数据研究虚假新闻的时间分布特征。验证集与测试集的预设分割方案支持研究者进行可靠的模型性能评估。
背景与挑战
背景概述
随着社交媒体和数字新闻平台的迅猛发展,虚假新闻的传播已成为全球性社会问题,严重威胁信息生态系统的健康。Fake New News Detection Dataset应运而生,由研究团队declan101于近年构建,旨在为虚假新闻检测领域提供高质量的标注数据资源。该数据集聚焦于二分类任务,囊括数万条真实与虚假新闻样本,每条数据均包含标题、全文、主题分类及发布时间等结构化字段,为自然语言处理领域研究虚假新闻的语义特征和传播模式提供了重要基础。其构建过程严格遵循机器学习数据划分标准,采用70-15-15的比例分割训练集、验证集和测试集,特别适配Transformer架构的微调需求。
当前挑战
虚假新闻检测面临的核心挑战在于欺骗性文本与真实新闻在语言风格上的高度相似性,传统基于关键词或浅层语义的方法难以捕捉其微妙差异。数据构建过程中,标注质量的把控尤为关键,需克服主观判断偏差和语境理解复杂性。新闻文本的跨领域特性要求模型具备主题泛化能力,而动态演变的欺骗手段则持续带来概念漂移问题。数据集本身存在类别不平衡风险,且不同主题的样本分布可能影响模型公正性。时序因素亦构成特殊挑战,早期虚假新闻的传播特征与当代样本存在显著代际差异,要求算法具备时间鲁棒性。
常用场景
经典使用场景
在虚假新闻检测领域,该数据集为研究者提供了一个标准化的基准测试平台。通过包含真实新闻与虚假新闻的二元分类任务,研究者能够系统地评估不同机器学习模型在文本真实性判别上的性能。数据集中的标题、正文内容和主题标签等结构化字段,为特征工程和深度学习模型训练提供了丰富的语义信息。
解决学术问题
该数据集有效解决了虚假新闻识别中的监督学习数据稀缺问题。其标注质量与规模支持了transformer模型的微调研究,推动了基于注意力机制的文本分类方法发展。通过提供标准化的评估分割,该数据集促进了不同检测算法在相同基准下的可比性研究,为自然语言处理领域的可信AI研究提供了重要数据支撑。
衍生相关工作
该数据集催生了多项虚假新闻检测领域的创新研究,包括基于BERT的层次化注意力网络、结合图神经网络的传播特征分析方法等。部分研究进一步扩展了原始数据集的用途,开发出多语言虚假新闻检测框架。这些衍生工作显著提升了模型在跨领域、跨文化场景中的泛化性能。
以上内容由遇见数据集搜集并总结生成



