UPFD (User Preference-aware Fake News Detection)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/UPFD
下载链接
链接失效反馈官方服务:
资源简介:
有关基准测试,请参阅其变体 UPFD-POL 和 UPFD-GOS。
该数据集已与 Pytorch Geometric (PyG) 和 Deep Graph Library (DGL) 集成。您可以在安装最新版本的 PyG 或 DGL 后加载数据集。
UPFD 数据集包括两组树状结构图,用于评估二进制图分类、图异常检测和假/真新闻检测任务。数据集以 Pytorch-Geometric 数据集对象的形式转储。您可以使用 PyG 轻松加载数据并运行各种 GNN 模型。
该数据集包括 Twitter 上根据来自 Politifact 和 Gossipcop 的事实核查信息构建的虚假和真实新闻传播(转推)网络。
新闻转推图最初由 FakeNewsNet 提取。
每个图都是一个层次树结构图,其中根节点代表新闻;叶节点是转发根新闻的 Twitter 用户。
如果他/她转发了新闻推文,则用户节点对新闻节点具有优势。如果一个用户转发另一用户的新闻推文,则两个用户节点具有优势。
我们从参与 FakeNewsNet 中假新闻传播的用户那里抓取了近 2000 万条历史推文,以在数据集中生成节点特征。
我们在数据集中合并了四种节点特征类型,768 维的 bert 和 300 维的 spacy 特征
分别使用预训练的 BERT 和 spaCy word2vec 进行编码。
10 维个人资料特征是从 Twitter 帐户的个人资料中获得的。
您可以参考 profile_feature.py 进行配置文件特征提取。
310 维内容特征由 300 维用户评论 word2vec (spaCy) 嵌入加上 10 维个人资料特征组成。
数据集统计如下图:
数据
#图表
#假新闻
#总节点
#总边数
#平均。每个图的节点
政治事实
314
157
41,054
40,740
131
八卦警察
5464
2732
314,262
308,798
58
有关 UPFD 数据集的更多详细信息,请参阅论文。
由于 Twitter 政策,我们无法公开发布被抓取用户的历史推文。
获取对应的推特用户信息,可以参考我们github repo中\data下的新闻列表
并将新闻 id 映射到 FakeNewsNet。
然后,您可以按照 FakeNewsNet 上的说明抓取用户信息。
在 UPFD 项目中,我们使用 Tweepy 和 Twitter Developer API 来获取用户信息。
提供机构:
OpenDataLab
创建时间:
2022-06-23



