five

BanFakeNews

收藏
arXiv2026-05-02 更新2026-05-09 收录
下载链接:
https://www.kaggle.com/datasets/cryptexcode/banfakenews
下载链接
链接失效反馈
官方服务:
资源简介:
BanFakeNews是由伊斯兰技术大学的研究团队创建的孟加拉语假新闻检测数据集,旨在解决低资源语言中假新闻检测的数据稀缺问题。该数据集包含约50,000条新闻文章,其中新增了4,545条通过Gemma-3-27B-IT模型生成的合成假新闻样本,数据来源包括22个可信的孟加拉新闻门户和人工生成的虚假内容。数据集通过指令调优的LLM模型生成,并结合语义过滤和受控子采样技术以确保标签一致性和多样性,主要应用于孟加拉语自然语言处理领域的假新闻分类任务,以提升模型在数据不平衡情况下的检测性能。
提供机构:
伊斯兰技术大学
创建时间:
2026-05-02
原始信息汇总

数据集名称

BanFakeNews:一个用于孟加拉语假新闻检测的数据集。

核心信息

  • 描述:该数据集包含约5万条标注新闻,旨在为孟加拉语等低资源语言构建自动化假新闻检测系统。该工作已被 LREC 2020 会议接收。
  • 文件列表
    • Authentic-48K.csv (244.39 MB): 包含约4.8万条真实新闻。
    • Fake-1K.csv: 包含约1千条假新闻。
    • LabeledAuthentic-7K.csv: 包含约7千条经过额外标注的真实新闻(包含来源和关联性信息)。
    • LabeledFake-1K.csv: 包含约1千条经过额外标注的假新闻(包含来源、关联性和假新闻类型)。

数据字段说明

  • Authentic-48K.csvFake-1K.csv 包含以下字段:
    • articleID: 新闻ID。
    • domain: 新闻发布网站名称。
    • date: 新闻类别(注意:此处原文描述有误)。
    • category: 新闻类别。
    • headline: 新闻标题。
    • content: 新闻正文。
    • label: 标签(1为真实,0为虚假)。
  • LabeledAuthentic-7K.csvLabeledFake-1K.csv 包含以下额外字段:
    • source: 新闻来源(可验证新闻声称者)。
    • relation: 相关或不相关(标题与内容声称相关则为“相关”)。
    • F-type: 假新闻类型(如点击诱饵、讽刺、虚假),仅在 LabeledFake-1K.csv 中存在。

数据统计与特性

  • 标签分布Authentic-48K.csv 中所有新闻标签均为 1(真实)。
  • 领域来源:主要新闻来源包括 kalerkantho.comjagonews24.com,另有超过82%的其他来源。
  • 时间范围:数据日期主要集中在2018年9月至10月。
  • 类别分布:新闻类别主要包括国家、国际、教育、体育、娱乐、财经、犯罪等。

可用性与其他

  • 可用性评分:9.41。
  • 许可证:CC0: Public Domain(公共领域)。
  • 标签:地球与自然、分类、计算机科学、教育、自然语言处理、深度学习。
搜集汇总
数据集介绍
main_image_url
构建方式
在孟加拉语虚假新闻检测领域,数据稀缺与类别不平衡长期制约模型性能。为突破这一瓶颈,研究者以BanFakeNews数据集为基础,提出基于大语言模型的系统性增强框架。具体而言,采用指令微调的Gemma-3-27B-IT模型,通过零样本与少样本提示策略对原始新闻文章生成多样化的孟加拉语合成样本。生成过程中,每篇虚假新闻文章产生五个候选变体,再通过随机子采样或基于语义相似性的筛选方法(如Sentence-BERT计算余弦相似度)精选出不同增强倍数(K=1,2,3,5)的样本。最终仅对少数类(虚假新闻)进行定向增强,形成包含4,545个合成样本的扩展数据集,有效缓解原始数据中约5.5:1的真实与虚假新闻比例失衡问题。
特点
该数据集的核心特质在于其创新性地将大语言模型驱动的数据增强逻辑融入低资源语言场景。与传统的词替换或回译方法不同,BanFakeNews增强版本利用Gemma-3-27B-IT的深度语义理解能力,在保持原文标签与核心事实的前提下,生成语法自然、风格多样的孟加拉语新闻变体。实验揭示关键发现:零样本提示结合随机子采样(K=5)的配置表现最优,将虚假新闻F1分数从基线0.85提升至0.88;而少样本提示与相似性筛选策略反而效果不佳,凸显了在孟加拉语环境下多样性对模型泛化的重要性。此外,数据集依托约8,501篇原始新闻的丰富元数据(包含领域、发布时间、来源等),为探索新闻可信度的多维特征提供了坚实基础。
使用方法
使用该数据集时,建议遵循论文验证的最优配置:仅对训练集中的虚假新闻类别进行增强,采用零样本提示生成的合成样本并以随机子采样方式选取K=5个变体。下游分类任务可选用孟加拉语专用BERT模型(如sagorsarker/bangla-bert-base)进行微调,优化器推荐AdamW,学习率设为2×10⁻⁵,训练3个周期。评估时应重点关注少数类(虚假新闻)的精确率、召回率与F1分数,因其更敏感地反映增强策略对不平衡数据的修正效果。为保障结果可复现,论文已开源完整实现代码及4,545个合成样本,研究者可通过GitHub仓库获取,并基于此框架进一步探索跨语言迁移学习、自适应提示工程或多模态融合等前沿方向。
背景与挑战
背景概述
在数字媒体时代,虚假信息的泛滥对全球社会构成了严峻挑战,而低资源语言(如孟加拉语)的虚假新闻检测研究却长期受困于数据匮乏与类别不平衡的窘境。由孟加拉国伊斯兰理工大学的研究人员Ahmed Alfey Sani等人在2026年ICSCA会议上提出的BanFakeNews数据集,正是为填补这一空白而生。该数据集收录了约8,501篇孟加拉语新闻文章,涵盖真实新闻与虚假新闻,并由Hossain等人于2020年首次发布,成为该领域首个公开的孟加拉语基准资源。BanFakeNews的诞生不仅为低资源语言的虚假信息研究提供了宝贵的基础数据,也推动了多语言NLP在虚假新闻检测领域的拓展,其影响力辐射至南亚乃至全球的语料库建设与模型评估之中。
当前挑战
BanFakeNews数据集所涉挑战主要体现在两方面。其一,在领域问题上,数据集的类别严重失衡,真实新闻与虚假新闻的比例高达约5.5:1,这种偏斜使得训练出的模型极易偏向多数类,导致对虚假新闻的检测性能大幅下降,有监督学习难以实现鲁棒泛化。其二,在构建过程中,研究人员面临有限样本规模、标签粒度粗糙、以及虚假新闻内容随社会事件动态演变而趋于过时的三重困境。此外,孟加拉语独特的语言学特征与缺乏高质量生成工具,使得传统的数据增强手段(如同义词替换、回译)难以奏效,亟需探索基于大语言模型的系统性增强策略以突破瓶颈。
常用场景
经典使用场景
BanFakeNews数据集是孟加拉语假新闻检测领域的开创性资源,其最经典的使用场景在于为低资源语言的虚假信息识别提供基准训练与评估语料。该数据集涵盖了约8501篇标注了真伪标签的孟加拉语新闻文章,囊括了来自真实新闻平台的可靠内容与包含误导性语境、点击诱饵及讽刺性材料在内的虚假样本。研究者通常基于此数据集训练传统机器学习模型(如支持向量机、随机森林)或现代深度学习架构(如基于Transformer的BERT分类器),用以评估不同方法在孟加拉语假新闻判别任务上的效力,为多语言虚假信息研究奠定重要基石。
实际应用
在实际应用中,BanFakeNews数据集支撑着孟加拉语社交平台与新闻聚合网站中的自动化内容审核与事实核查系统。随着数字媒体在孟加拉国等地区的渗透率激增,用户接触到的信息中充斥着来自社交媒体、即时通讯工具与内容分享平台的未经验证新闻。基于该数据集训练的检测模型可被部署于内容审核流水线中,辅助平台方识别和标记具有误导性的政治、健康或灾难类信息,从而有效遏制虚假新闻在公共卫生事件、选举时期及地缘冲突中的广泛传播,缓解其对公众心理与民主制度的侵蚀。
衍生相关工作
围绕BanFakeNews数据集,学术界衍生出一系列重要工作,其中最引人注目的是Sani等人提出的大语言模型驱动数据增强框架。该工作采用Google DeepMind的Gemma-3-27B-IT模型,通过零样本与少样本提示策略生成4545条合成孟加拉语假新闻样本,结合随机子采样与类别定向过采样技术,将假新闻F1分数从0.8560提升至0.8800。此外,Keya等人提出的AugFake-BERT策略通过BERT合成增强样本来缓解类别不均衡,而Chalehchaleh等人则将该数据集纳入多语言假新闻检测评估体系,探索跨语言零样本迁移的可能性,共同推动了低资源语言虚假信息治理领域的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作