five

The Palestine Fake News Dataset (PFND)

收藏
github2025-11-17 更新2025-11-20 收录
下载链接:
https://github.com/asmaachatta/The-Palestine-Fake-News-Dataset-PFND-
下载链接
链接失效反馈
官方服务:
资源简介:
巴勒斯坦假新闻数据集(PFND)是一个手动收集的阿拉伯语数据集,用于假新闻检测和可信度分类。该数据集包含超过3000条新闻条目,主要关注与巴勒斯坦相关的当前事件。所有新闻文章均从公开可用的阿拉伯新闻平台收集。数据集结构包括一个名为PFND的主目录,其中包含两个子文件:credible.csv(包含已验证为可信的新闻条目)和incredible.csv(包含被识别为不可信或讽刺的新闻条目)。每个CSV文件包含两列:body_text(新闻文章的完整阿拉伯文本)和label(表示文章可信度的二进制值,1表示可信,0表示不可信)。可信新闻来源包括半岛电视台阿拉伯语、CNN阿拉伯语、BBC新闻阿拉伯语和阿拉伯卫星电视台;不可信新闻来源包括Al Hudood,一个流行的阿拉伯讽刺新闻网站。

The Palestinian Fake News Dataset (PFND) is a manually collected Arabic-language dataset for fake news detection and credibility classification. This dataset contains over 3,000 news items, primarily focusing on current events related to Palestine. All news articles are collected from publicly available Arabic news platforms. The dataset structure consists of a main directory named PFND, which contains two sub-files: credible.csv (containing news items verified as credible) and incredible.csv (containing news items identified as non-credible or satirical). Each CSV file includes two columns: body_text (the full Arabic text of the news article) and label (a binary value representing the article's credibility, where 1 indicates credible and 0 indicates non-credible). Credible news sources include Al Jazeera Arabic, CNN Arabic, BBC News Arabic, and Al Arabiya; non-credible news sources include Al Hudood, a popular Arabic satirical news website.
创建时间:
2025-11-17
原始信息汇总

巴勒斯坦假新闻数据集(PFND)概述

数据集简介

  • 巴勒斯坦假新闻数据集(PFND)是一个手动收集的阿拉伯语数据集
  • 专门用于假新闻检测和可信度分类
  • 包含3000多条新闻条目
  • 主要关注与巴勒斯坦相关的时事新闻
  • 所有新闻文章均收集自公开可用的阿拉伯新闻平台

数据结构

主目录

  • 数据集结构位于名为"PFND"的主目录中
  • 包含两个子文件:

数据文件

  1. credible.csv - 包含已验证为可信的新闻条目
  2. incredible.csv - 包含被识别为不可信或讽刺性的新闻条目

数据列说明

每个CSV文件包含两列:

  • body_text - 新闻文章的完整阿拉伯语文本
  • label - 表示文章可信度的二进制值
    • 1 → 可信(credible)
    • 0 → 不可信(incredible)

数据来源

可信新闻来源

  • 来自知名阿拉伯新闻机构:
    • Al Jazeera Arabic
    • CNN Arabic
    • BBC News Arabic
    • Al ARABIA
  • 这些媒体以专业编辑标准和事实核查报道著称

不可信新闻来源

  • 来自Al Hudood
  • 一个流行的阿拉伯讽刺新闻网站
  • 专门制作虚构或幽默内容
搜集汇总
数据集介绍
main_image_url
构建方式
在阿拉伯语假新闻检测研究领域,构建高质量数据集对于提升模型性能至关重要。The Palestine Fake News Dataset (PFND)通过系统化的人工采集流程,从公开的阿拉伯语新闻平台收集了3000余条新闻条目。该数据集特别聚焦巴勒斯坦相关时事内容,其构建过程严格区分信源类型:可信新闻源自半岛电视台阿拉伯语频道、CNN阿拉伯语等具有专业编辑标准的媒体,而不可信新闻则专门采集自以虚构内容著称的讽刺新闻网站Al Hudood。所有数据均经过人工标注处理,形成结构化的双分类数据集。
特点
作为专门针对阿拉伯语新闻可信度研究的语料库,PFND展现出鲜明的领域特性。数据集采用二进制标签体系,通过数值1和0分别标识新闻的可信与不可信状态,为机器学习任务提供清晰的监督信号。其内容构成具有高度专业性,可信新闻样本均来自经过事实核查的权威媒体,而不可信样本则集中呈现讽刺性虚构内容,这种对照设计极大增强了数据集的区分度。每个新闻条目均包含完整的阿拉伯语正文文本,为自然语言处理研究提供了丰富的语义分析素材。
使用方法
在自然语言处理应用场景中,PFND为假新闻检测任务提供了标准化的实验数据。研究者可通过加载数据集中的CSV文件直接获取训练样本,其中credible.csv与incredible.csv分别包含已验证的可信新闻和已标识的不可信新闻。每条数据均配备body_text字段存储原始阿拉伯语文本,以及label字段标注真实性分类。这种结构化设计支持研究者快速构建文本分类模型,适用于监督学习框架下的特征提取、模型训练与验证评估等完整流程,为阿拉伯语信息可信度分析研究提供重要基础支撑。
背景与挑战
背景概述
在阿拉伯语信息生态系统中,虚假新闻的泛滥对公众认知与社会稳定构成严峻挑战。巴勒斯坦假新闻数据集(PFND)由研究团队于2023年创建,专注于巴勒斯坦地区热点事件的真实性验证。该数据集通过系统采集阿拉伯语新闻内容,构建了包含3000余条标注样本的语料库,其核心目标在于推动阿拉伯语自然语言处理技术在可信度识别领域的发展。作为少数针对特定地域议题的阿拉伯语可信度评估资源,该数据集为中东地区媒体内容分析提供了重要的基准工具。
当前挑战
阿拉伯语虚假新闻检测面临多重技术障碍:其复杂的形态结构与方言变体增加了特征提取难度,而政治敏感话题中隐含的立场偏见更易导致模型误判。在数据构建层面,团队需平衡信源多样性与标注一致性—— credible.csv严格采用国际主流媒体内容,incredible.csv则依赖具有明确讽刺特征的平台,但二者在语言风格差异上可能引入噪声。此外,针对巴勒斯坦议题的地域特性,如何区分政治立场差异与事实性错误,成为标注过程中持续存在的语义辨析挑战。
常用场景
经典使用场景
在阿拉伯语假新闻检测领域,The Palestine Fake News Dataset (PFND) 以其针对巴勒斯坦相关时事新闻的深度聚焦,成为自然语言处理研究的经典基准。该数据集通过提供超过3000条人工标注的阿拉伯语新闻条目,支持机器学习模型进行二分类训练,广泛应用于文本分类、情感分析和语义特征提取等任务,有效促进了阿拉伯语虚假信息识别技术的标准化发展。
实际应用
在现实场景中,PFND为阿拉伯语地区的社交媒体监控系统提供了核心训练数据。新闻聚合平台可借助该数据集构建自动化可信度评分机制,辅助用户辨识涉巴勒斯坦议题的误导性内容。政府部门亦能利用其开发信息验证工具,有效遏制虚假信息在阿拉伯语社群中的传播链条。
衍生相关工作
基于PFND的典型研究衍生出多维度创新成果,包括结合BERT架构的阿拉伯语预训练模型微调方案,以及融合语境特征的多模态检测框架。这些工作不仅提升了阿拉伯语假新闻检测的F1分数,更催生了面向中东地区特定文化语境的可信度评估指标体系,为后续跨语言虚假信息研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作