HeshamHaroon/Arabic_fake_news_dataset
收藏Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HeshamHaroon/Arabic_fake_news_dataset
下载链接
链接失效反馈官方服务:
资源简介:
Arabic_fake_news_dataset数据集是一个用于研究埃及社区中假新闻传播的新闻文章集合。该数据集包含从埃及平台[متصدقش (Matsda2sh)]抓取的新闻文章,分为假新闻和真新闻两类。数据集以JSON文件形式提供,每个新闻文章包含链接、假新闻标题列表和真新闻标题列表。数据集可能需要预处理步骤以确保数据质量和一致性,包括去除重复条目、处理缺失或错误数据、去除噪声或无关信息以及进行文本标记化和规范化。
The Arabic_fake_news_dataset is a collection of news articles intended for research on the spread of fake news in Egyptian communities. This dataset comprises news articles scraped from the Egyptian platform [متصدقش (Matsda2sh)], and is categorized into two classes: fake news and real news. It is provided in JSON file format, where each news article entry includes a link, a list of fake news headlines, and a list of real news headlines. Preprocessing steps may be required to ensure data quality and consistency, including removing duplicate entries, handling missing or erroneous data, eliminating noisy or irrelevant information, as well as performing text tokenization and normalization.
提供机构:
HeshamHaroon
原始信息汇总
Arabic Fake News Dataset 概述
基本信息
- 语言: 阿拉伯语
- 名称: Arabic Fake News Dataset
- 标签:
- fake-news
- arabic
- web-scraping
- 任务类别:
- text-classification
- natural-language-processing
- web-scraping
- 许可证: Apache-2.0
数据集描述
- 来源: 数据集包含从埃及平台 متصدقش (Matsda2sh) 抓取的新闻文章。
- 目的: 用于研究和解决埃及社区中假新闻的传播问题。
- 内容: 包含被分类为假或真的新闻文章及其相应标题。
- 格式: 以 JSON 文件形式提供,文件名为
arabic_fake_news_dataset.json。 - 结构: 每个新闻文章以字典形式表示,包含
link(文章链接)、fakes(假新闻标题列表)和trues(真新闻标题列表)。
数据预处理
- 需求: 数据集需要进一步预处理以确保数据质量和一致性。
- 建议步骤:
- 移除重复条目。
- 处理缺失或错误数据。
- 去除网络抓取过程中引入的噪声或无关信息。
- 进行分词和文本规范化。
引用信息
-
作者: Hesham Haroon
-
年份: 2023
-
引用格式:
@misc{Arabic_fake_news_dataset, title = {Arabic_fake_news_dataset}, author = {Hesham Haroon}, year = {2023} }
搜集汇总
数据集介绍

构建方式
在阿拉伯语虚假新闻检测领域,数据集的构建往往依赖于对特定新闻平台的系统化采集。本数据集通过网页爬虫技术,从专注于埃及虚假新闻核查的平台“متصدقش”中提取新闻条目,以JSON格式结构化存储。每条记录包含新闻链接、虚假新闻标题列表及真实新闻标题列表,形成了原始语料库。这种构建方式直接反映了埃及社区中虚假信息的传播模式,为后续自然语言处理任务提供了未经加工的原始数据。
特点
该数据集聚焦于埃及语境下的阿拉伯语虚假新闻,具有鲜明的区域文化特征。其核心特点在于以标题为单位区分虚假与真实新闻,便于进行二分类或多标签文本分类任务。数据以轻量级JSON格式组织,结构清晰,易于解析与扩展。然而,数据集保留了爬虫获取的原始状态,包含潜在的噪声与重复项,这要求使用者进行定制化预处理,但也为研究数据清洗方法提供了实践场景。
使用方法
使用本数据集时,研究者需首先进行数据预处理,包括去重、缺失值处理及文本规范化,以提升数据质量。预处理后,可将标题文本用于训练虚假新闻检测模型,如基于Transformer的阿拉伯语预训练模型。数据集适用于监督学习任务,通过‘fakes’与‘trues’字段构建标签,支持分类、对比分析等研究。在学术应用中,建议引用提供者,并注意数据仅限于研究目的,使用时需结合其他来源进行验证。
背景与挑战
背景概述
在数字媒体时代,虚假新闻的传播已成为全球性社会挑战,尤其对阿拉伯语社群的信息生态构成显著威胁。由研究者Hesham Haroon于2023年创建的阿拉伯语虚假新闻数据集,专注于埃及社区内的虚假信息现象。该数据集通过爬取埃及平台'متصدقش (Matsda2sh)'的新闻文章构建,旨在支持自然语言处理领域中的文本分类任务,特别是虚假新闻检测研究。其核心研究问题在于识别和缓解阿拉伯语环境中虚假内容的扩散,为相关学术探索提供了宝贵的语言特定资源,对提升中东地区信息可信度具有潜在影响力。
当前挑战
该数据集致力于解决阿拉伯语虚假新闻检测的领域挑战,包括语言复杂性、文化语境依赖以及虚假信息模式的动态演化,这些因素使得自动化识别系统面临高误判风险。在构建过程中,挑战主要源于网络爬取数据的质量管控,例如重复条目、噪声信息及缺失值的处理,同时需确保数据在埃及社区背景下的代表性与时效性。此外,预处理需求如文本标准化和去冗余,进一步增加了数据准备阶段的复杂性,要求研究者投入额外精力以优化数据可用性。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,虚假新闻检测已成为一项紧迫的研究课题。HeshamHaroon/Arabic_fake_news_dataset作为专门针对埃及社区的阿拉伯语新闻数据集,其经典使用场景集中于文本分类任务。研究者利用该数据集训练和评估机器学习模型,特别是深度学习架构如BERT的变体,以自动识别新闻标题的真实性。通过将新闻标题划分为虚假与真实两类,该数据集为模型提供了丰富的语言特征和语境信息,助力于构建高效的分类器,从而在阿拉伯语信息验证中发挥关键作用。
实际应用
在实际应用层面,HeshamHaroon/Arabic_fake_news_dataset服务于新闻媒体平台和社交媒体公司的内容审核系统。通过集成基于该数据集训练的检测模型,这些平台能够自动筛查阿拉伯语新闻内容,标记潜在虚假信息,辅助人工审核团队提高效率。此外,教育机构和非政府组织可利用该数据集开发公共意识工具,帮助埃及及更广泛阿拉伯语用户识别网络谣言,增强信息鉴别能力,从而在社区层面遏制虚假新闻的传播,维护网络环境的真实性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,研究者将其用于微调预训练语言模型如AraBERT,以优化阿拉伯语虚假新闻分类性能。相关成果发表在自然语言处理国际会议中,探讨了数据预处理技术对模型准确性的影响。此外,该数据集还启发了跨语言研究,比较阿拉伯语与英语虚假新闻的语言模式差异,推动了多语言检测框架的发展。这些工作不仅丰富了阿拉伯语NLP的文献,也为后续数据集的构建和模型创新提供了参考基础。
以上内容由遇见数据集搜集并总结生成



