five

UPFD (User Preference-aware Fake News Detection)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/UPFD
下载链接
链接失效反馈
官方服务:
资源简介:
有关基准测试,请参阅其变体 UPFD-POL 和 UPFD-GOS。 该数据集已与 Pytorch Geometric (PyG) 和 Deep Graph Library (DGL) 集成。您可以在安装最新版本的 PyG 或 DGL 后加载数据集。 UPFD 数据集包括两组树状结构图,用于评估二进制图分类、图异常检测和假/真新闻检测任务。数据集以 Pytorch-Geometric 数据集对象的形式转储。您可以使用 PyG 轻松加载数据并运行各种 GNN 模型。 该数据集包括 Twitter 上根据来自 Politifact 和 Gossipcop 的事实核查信息构建的虚假和真实新闻传播(转推)网络。 新闻转推图最初由 FakeNewsNet 提取。 每个图都是一个层次树结构图,其中根节点代表新闻;叶节点是转发根新闻的 Twitter 用户。 如果他/她转发了新闻推文,则用户节点对新闻节点具有优势。如果一个用户转发另一用户的新闻推文,则两个用户节点具有优势。 我们从参与 FakeNewsNet 中假新闻传播的用户那里抓取了近 2000 万条历史推文,以在数据集中生成节点特征。 我们在数据集中合并了四种节点特征类型,768 维的 bert 和 300 维的 spacy 特征 分别使用预训练的 BERT 和 spaCy word2vec 进行编码。 10 维个人资料特征是从 Twitter 帐户的个人资料中获得的。 您可以参考 profile_feature.py 进行配置文件特征提取。 310 维内容特征由 300 维用户评论 word2vec (spaCy) 嵌入加上 10 维个人资料特征组成。 数据集统计如下图: 数据 #图表 #假新闻 #总节点 #总边数 #平均。每个图的节点 政治事实 314 157 41,054 40,740 131 八卦警察 5464 2732 314,262 308,798 58 有关 UPFD 数据集的更多详细信息,请参阅论文。 由于 Twitter 政策,我们无法公开发布被抓取用户的历史推文。 获取对应的推特用户信息,可以参考我们github repo中\data下的新闻列表 并将新闻 id 映射到 FakeNewsNet。 然后,您可以按照 FakeNewsNet 上的说明抓取用户信息。 在 UPFD 项目中,我们使用 Tweepy 和 Twitter Developer API 来获取用户信息。
提供机构:
OpenDataLab
创建时间:
2022-06-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作