Twitter/SignedGraphs
收藏Hugging Face2022-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Twitter/SignedGraphs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个Twitter签名图数据集:TwitterSG和BirdwatchSG。TwitterSG是一个基于Twitter用户互动构建的签名图,包含753,944个节点(用户)、200个主题和12,848,093条边。BirdwatchSG是一个基于Twitter的Birdwatch试点项目中的用户评分构建的签名图,包含2,987个节点(用户)、1,020个主题和441,986条边。这些数据集用于研究社交网络中的用户立场和主题相关性。
该数据集包含两个Twitter签名图数据集:TwitterSG和BirdwatchSG。TwitterSG是一个基于Twitter用户互动构建的签名图,包含753,944个节点(用户)、200个主题和12,848,093条边。BirdwatchSG是一个基于Twitter的Birdwatch试点项目中的用户评分构建的签名图,包含2,987个节点(用户)、1,020个主题和441,986条边。这些数据集用于研究社交网络中的用户立场和主题相关性。
提供机构:
Twitter
原始信息汇总
数据集概述
数据集名称
- TwitterSG: 包含753,944个用户节点,200个话题,以及12,848,093条边。这是一个公开的、用户间的签名社交图,主要通过用户间的推特互动来标记(不)同意的模式。
- BirdwatchSG: 包含2,987个用户节点,1,020个话题,以及441,986条边。这个数据集利用了Twitter的Birdwatch试点项目中的社区报告来标记误导内容。
数据集内容
- TwitterSG: 通过用户对推文的喜欢或反对来定义边的正负。9.6%的边为负(反对),90.4%为正。话题主要与体育相关,推文发布时间为2021年5月20日至8月8日。
- BirdwatchSG: 通过Birdwatch参与者对笔记的帮助性评价来定义边的正负。36.9%的边为负(反对),63.1%为正。话题由推文内容决定,数据收集时间为2021年1月至7月。
数据格式
- TwitterSG 和 BirdwatchSG 的数据格式相似,包括源索引、目标索引、话题索引、话题和评分。
许可证
引用信息
- 若使用此数据集,请引用: bib @article{pougue2022learning, title={Learning Stance Embeddings from Signed Social Graphs}, author={Pougu{e}-Biyong, John and Gupta, Akshay and Haghighi, Aria and El-Kishky, Ahmed}, journal={arXiv preprint arXiv:2201.11675}, year={2022} }
搜集汇总
数据集介绍

构建方式
在社交媒体网络分析领域,Twitter/SignedGraphs数据集的构建体现了对用户立场建模的精细探索。TwitterSG部分通过解析用户在推特平台上的互动行为,依据点赞与包含特定反对关键词的回复来定义正向与负向边,并借助推特生产环境中的主题分类器为每条边标注体育相关话题,数据覆盖了2021年5月至8月的特定体育事件周期。BirdwatchSG则源自推特Birdwatch试点项目,通过社区参与者对误导信息注释的有用性评级来构建签名边,过滤了‘有些帮助’的中间评级,并依据注释所关联推文的推断主题进行标注,数据时间跨度为2021年1月至7月。两个子集均形成了包含用户节点、主题索引及签名评价的边属性有向图结构。
特点
该数据集的核心特征在于其规模与主题特异性。TwitterSG作为目前公开的最大用户间签名社交图谱,拥有超过75万节点、200个体育细分主题及近1300万条边,其中负向边占比约9.6%,为研究大规模网络中的对立模式提供了宝贵资源。BirdwatchSG虽规模较小,但涵盖了1020个更广泛的社会议题主题,如政治与公共卫生,且负向边比例高达36.9%,深刻反映了社区在信息可信度评估中的分歧形态。两个子集均允许多重边存在,即同一用户对间可因不同主题的多次互动而产生多条边,这精准捕捉了用户跨话题的复杂立场关系。
使用方法
该数据集适用于签名图嵌入、立场检测及跨主题传播模型等研究方向。使用者可通过加载提供的边列表数据,其中包含源用户索引、目标用户索引、主题索引、主题名称及评分(+1或-1),直接构建有向签名异质图。研究人员可在此基础上训练图神经网络模型,学习能够同时编码用户间(不)同意关系与主题语义的联合嵌入,进而分析立场在相关话题间的迁移规律。数据集亦可用于评估签名图预测任务,如推断缺失边的符号或预测用户在新话题上的立场,为社交媒体行为分析与内容治理提供量化依据。
背景与挑战
背景概述
在社交网络分析领域,理解用户对多样化话题的立场是核心研究议题之一。Twitter/SignedGraphs数据集由Twitter研究团队于2022年发布,旨在通过签署社交图结构捕捉用户间的赞同与反对关系。该数据集包含TwitterSG和BirdwatchSG两个子集,分别基于推文互动与社区驱动的误导信息标注构建,覆盖体育、政治、公共卫生等话题。其创新性在于将签署边与主题属性相结合,为立场嵌入学习提供了大规模、细粒度的数据基础,推动了图神经网络与社会计算领域的交叉研究。
当前挑战
该数据集致力于解决社交网络中多主题立场建模的挑战,其核心问题在于如何从签署互动中准确推断用户对相关话题的立场倾向,并处理话题间的关联性。在构建过程中,研究者面临数据稀疏性与噪声干扰:TwitterSG需从非结构化文本中识别反对关键词,而BirdwatchSG则依赖社区标注的一致性。此外,数据规模与主题分布的不均衡性,以及动态社交互动的时间演化特性,均为模型训练与泛化带来了显著困难。
常用场景
经典使用场景
在社交网络分析领域,Twitter/SignedGraphs数据集为研究用户立场和情感倾向提供了关键支持。该数据集通过捕捉用户在特定话题下的赞同或反对互动,构建了带符号的社交图结构,其中节点代表用户,边上的符号和主题标签揭示了用户之间的立场关系。经典使用场景包括训练图神经网络模型,以学习低维的用户立场嵌入表示,从而量化用户在多个相关话题上的立场相似性或差异性。这种嵌入方法能够有效建模跨话题的(不)一致模式,为理解大规模社交网络中的复杂动态奠定基础。
解决学术问题
该数据集主要解决了社交计算中用户立场建模的若干核心学术问题。传统方法往往孤立分析单一话题,而Twitter/SignedGraphs通过引入带符号的多主题图结构,使得研究者能够探究话题间的相关性如何影响用户的立场表达。它有助于揭示社交网络中赞同与反对行为的传播机制,以及话题网络的结构特性。此外,数据集的大规模性和真实交互特性为验证图表示学习、符号图平衡理论以及社区检测等算法提供了基准,推动了网络科学与社会学交叉领域的理论进展。
衍生相关工作
围绕Twitter/SignedGraphs数据集,已衍生出一系列经典的后续研究工作。原论文提出的立场嵌入学习框架启发了对符号图神经网络模型的改进,例如如何更好地融合边上的主题信息以增强表示能力。后续研究扩展了该数据集的用途,将其应用于跨平台立场检测、政治倾向预测以及虚假信息溯源等任务。同时,数据集的公开也促进了符号图挖掘领域的方法比较与基准测试,不少研究在此基础上提出了新的图聚类算法或动态立场追踪模型,持续丰富着社交网络分析的方法体系。
以上内容由遇见数据集搜集并总结生成



