UPFD (User Preference-aware Fake News Detection)

Name: UPFD (User Preference-aware Fake News Detection)
Creator: OpenDataLab
License: 暂无描述

OpenXLab2026-04-18 收录

下载链接：

https://openxlab.org.cn/datasets/OpenDataLab/UPFD

下载链接

链接失效反馈

官方服务：

资源简介：

有关基准测试，请参阅其变体 UPFD-POL 和 UPFD-GOS。该数据集已与 Pytorch Geometric (PyG) 和 Deep Graph Library (DGL) 集成。您可以在安装最新版本的 PyG 或 DGL 后加载数据集。 UPFD 数据集包括两组树状结构图，用于评估二进制图分类、图异常检测和假/真新闻检测任务。数据集以 Pytorch-Geometric 数据集对象的形式转储。您可以使用 PyG 轻松加载数据并运行各种 GNN 模型。该数据集包括 Twitter 上根据来自 Politifact 和 Gossipcop 的事实核查信息构建的虚假和真实新闻传播（转推）网络。新闻转推图最初由 FakeNewsNet 提取。每个图都是一个层次树结构图，其中根节点代表新闻；叶节点是转发根新闻的 Twitter 用户。如果他/她转发了新闻推文，则用户节点对新闻节点具有优势。如果一个用户转发另一用户的新闻推文，则两个用户节点具有优势。我们从参与 FakeNewsNet 中假新闻传播的用户那里抓取了近 2000 万条历史推文，以在数据集中生成节点特征。我们在数据集中合并了四种节点特征类型，768 维的 bert 和 300 维的 spacy 特征分别使用预训练的 BERT 和 spaCy word2vec 进行编码。 10 维个人资料特征是从 Twitter 帐户的个人资料中获得的。您可以参考 profile_feature.py 进行配置文件特征提取。 310 维内容特征由 300 维用户评论 word2vec (spaCy) 嵌入加上 10 维个人资料特征组成。数据集统计如下图：数据 #图表 #假新闻 #总节点 #总边数 #平均。每个图的节点政治事实 314 157 41,054 40,740 131 八卦警察 5464 2732 314,262 308,798 58 有关 UPFD 数据集的更多详细信息，请参阅论文。由于 Twitter 政策，我们无法公开发布被抓取用户的历史推文。获取对应的推特用户信息，可以参考我们github repo中\data下的新闻列表并将新闻 id 映射到 FakeNewsNet。然后，您可以按照 FakeNewsNet 上的说明抓取用户信息。在 UPFD 项目中，我们使用 Tweepy 和 Twitter Developer API 来获取用户信息。

提供机构：

OpenDataLab

创建时间：

2022-06-23

5,000+

优质数据集

54 个

任务类型

进入经典数据集