BanFakeNews-2.0
收藏arXiv2025-01-16 更新2025-01-18 收录
下载链接:
https://github.com/Shibu4064/IndoNLP
下载链接
链接失效反馈官方服务:
资源简介:
BanFakeNews-2.0是由沙贾拉尔科技大学的研究团队创建的孟加拉语假新闻检测数据集,旨在解决低资源语言中假新闻检测的挑战。该数据集包含60,000条新闻,其中13,000条为假新闻,47,000条为真实新闻,涵盖了13个类别。数据来源包括主流新闻门户和事实核查平台,通过手动验证和自动化网络抓取技术确保数据的多样性和准确性。数据集的创建过程包括从多个在线新闻门户收集新闻,并通过事实核查平台验证其真实性。该数据集的应用领域主要集中在假新闻检测,特别是针对孟加拉语等低资源语言的假新闻检测任务,旨在提升模型的泛化能力和检测精度。
BanFakeNews-2.0 is a Bengali fake news detection dataset created by the research team at Shahjalal University of Science and Technology, which aims to address the challenges of fake news detection in low-resource languages. This dataset includes 60,000 news articles, among which 13,000 are fake news and 47,000 are real news, covering 13 categories. Its data sources cover mainstream news portals and fact-checking platforms, and the diversity and accuracy of the data are ensured through manual verification and automated web scraping technologies. The dataset creation process involves collecting news from multiple online news portals and verifying their authenticity via fact-checking platforms. The main application fields of this dataset focus on fake news detection, especially for low-resource languages such as Bengali, with the goal of improving the generalization capability and detection accuracy of related models.
提供机构:
沙贾拉尔科技大学
创建时间:
2025-01-16
搜集汇总
数据集介绍

构建方式
BanFakeNews-2.0数据集的构建过程注重数据的多样性和语言丰富性。研究者从多个可信来源手动收集并验证了13,000条虚假新闻和47,000条真实新闻,涵盖13个类别。通过Python的网页抓取技术,自动从多个在线新闻门户网站获取新闻,并利用关键词筛选和分类。为确保数据的准确性,每条新闻都经过三名标注者的交叉验证,最终通过多数投票确定标签。此外,数据集还包含一个独立的测试集,包含460条虚假新闻和540条真实新闻,用于严格的模型评估。
特点
BanFakeNews-2.0数据集的特点在于其规模大、类别多样且数据平衡。该数据集包含60,000条新闻,其中13,000条为虚假新闻,47,000条为真实新闻,覆盖了政治、体育、娱乐、医疗、宗教等13个类别。数据集的构建过程中特别注重减少冗余,确保每条新闻的独特性。此外,数据集还包含一个独立的测试集,用于模型的严格评估。数据集的多样性和平衡性使其成为低资源语言(如孟加拉语)虚假新闻检测研究的重要资源。
使用方法
BanFakeNews-2.0数据集的使用方法包括传统语言特征提取和基于Transformer的模型训练。研究者首先使用TF-IDF方法提取字符和词n-gram特征,并结合线性支持向量机(SVM)进行分类。随后,使用预训练的BERT模型(如BanglaBERT和XLM-RoBERTa)进行微调,以提升模型的上下文理解能力。此外,研究者还采用了大型语言模型(如BLOOM和Phi-3 Mini)进行量化低秩近似(QLORA)微调,以进一步提高检测性能。数据集的独立测试集可用于模型的严格评估和跨模型比较,确保模型的泛化能力。
背景与挑战
背景概述
BanFakeNews-2.0 是一个专门为孟加拉语假新闻检测设计的数据集,由孟加拉国沙贾拉尔科技大学的研究团队于2025年发布。该数据集旨在解决低资源语言(如孟加拉语)中假新闻检测工具和数据集匮乏的问题。随着社交媒体和在线新闻平台的普及,假新闻的传播速度加快,对社会产生了深远的影响,尤其是在COVID-19疫情期间,假新闻导致了疫苗犹豫和社会动荡。BanFakeNews-2.0 是 BanFakeNews 数据集的扩展版本,包含了13,000条经过验证的假新闻和47,000条真实新闻,覆盖了13个类别。该数据集的发布为孟加拉语假新闻检测的研究和应用提供了重要资源。
当前挑战
BanFakeNews-2.0 面临的挑战主要包括两个方面。首先,假新闻检测本身具有复杂性,尤其是在低资源语言中,假新闻的语义和表达方式多样,难以通过简单的规则或传统模型进行准确识别。其次,数据集的构建过程也面临诸多挑战,包括从多个来源收集和验证假新闻的准确性,确保数据集的多样性和平衡性,以及处理孟加拉语特有的语言结构和表达方式。此外,数据集中某些类别的假新闻数量较少,可能导致模型在这些类别上的表现不佳。尽管采用了自动化工具和人工验证相结合的方式,数据集的构建仍然需要大量的时间和资源投入。
常用场景
经典使用场景
BanFakeNews-2.0数据集在孟加拉语假新闻检测领域具有广泛的应用场景。该数据集通过提供大量经过验证的真实和虚假新闻文章,支持基于机器学习和深度学习模型的假新闻检测研究。其经典使用场景包括训练和评估基于Transformer架构的模型,如BERT和BLOOM,这些模型在低资源语言环境下表现出色,显著提升了假新闻检测的准确性和鲁棒性。
解决学术问题
BanFakeNews-2.0数据集解决了低资源语言(如孟加拉语)假新闻检测领域的关键学术问题。由于孟加拉语缺乏足够的假新闻数据集和检测工具,传统方法难以有效应对假新闻的传播。该数据集通过提供13,000条虚假新闻和47,000条真实新闻,覆盖13个类别,显著改善了数据不平衡问题,并为研究者提供了丰富的语料库,支持基于深度学习的假新闻检测模型的开发和优化。
衍生相关工作
BanFakeNews-2.0数据集推动了多篇相关经典工作的诞生。基于该数据集,研究者开发了多种基于Transformer的模型,如BLOOM和BERT的变体,这些模型在假新闻检测任务中表现出色。此外,该数据集还激发了更多关于低资源语言假新闻检测的研究,促进了跨语言假新闻检测技术的发展,并为其他低资源语言假新闻数据集的构建提供了参考。
以上内容由遇见数据集搜集并总结生成



