five

TwitterSG, BirdwatchSG

收藏
github2022-12-18 更新2024-05-31 收录
下载链接:
https://github.com/lejohnyjohn/learning-stance-embeddings-from-signed-social-graphs
下载链接
链接失效反馈
官方服务:
资源简介:
TwitterSG是一个由Twitter用户互动构成的带符号、有向、属性边图,包含753,944个用户节点、200个主题和12,848,093条边。它是目前最大的公开用户间带符号社交图。BirdwatchSG是一个由Birdwatch试点项目中的笔记评分构成的带符号、有向、属性边图,包含2,987个用户节点、1,020个主题和441,986条边。

TwitterSG is a signed, directed, attributed edge graph composed of interactions among Twitter users, encompassing 753,944 user nodes, 200 topics, and 12,848,093 edges. It stands as the largest publicly available signed social graph among users to date. BirdwatchSG, on the other hand, is a signed, directed, attributed edge graph formed from note ratings within the Birdwatch pilot project, comprising 2,987 user nodes, 1,020 topics, and 441,986 edges.
创建时间:
2022-01-27
原始信息汇总

数据集概述

数据集名称及类型

  • TwitterSG: 一个包含753,944个用户节点、200个话题和12,848,093条边的有向带符号属性图。
  • BirdwatchSG: 一个包含2,987个用户节点、1,020个话题和441,986条边的有向带符号属性图。

数据集内容

  • TwitterSG:

    • 基于Twitter用户互动构建,通过用户对推文的喜欢或反对表达来标记边。
    • 9.6%的边为负面(反对),90.4%为正面。
    • 话题主要与体育相关,如体育队伍、球员、经理或事件。
  • BirdwatchSG:

    • 基于Twitter的Birdwatch试点项目数据构建,通过用户对笔记的帮助性评价来标记边。
    • 36.9%的边为负面(反对),63.1%为正面。
    • 话题涵盖广泛,包括政治、人物、疫情等。

数据格式

  • 两个数据集均采用以下格式:

    | source_idx | target_idx | topic_idx | topic | rating |

    • source_idxtarget_idx: 用户索引。
    • topic_idxtopic: 话题索引和名称。
    • rating: 边的符号(+1 或 -1)。

许可证

引用信息

  • 若使用此数据集,请引用: bib @article{pougue2022learning, title={Learning Stance Embeddings from Signed Social Graphs}, author={Pougu{e}-Biyong, John and Gupta, Akshay and Haghighi, Aria and El-Kishky, Ahmed}, journal={arXiv preprint arXiv:2201.11675v2}, year={2022} }
搜集汇总
数据集介绍
main_image_url
构建方式
TwitterSG和BirdwatchSG数据集的构建基于用户在社交媒体上的互动行为。TwitterSG通过分析用户在Twitter上的推文互动,如点赞和反对回复,构建了一个包含753,944个节点和12,848,093条边的有向图。每条边的正负属性由用户间的互动类型决定,主题则来源于推文内容。BirdwatchSG则利用Twitter的Birdwatch项目数据,通过用户对他人笔记的评分(有帮助或无帮助)来构建图结构,包含2,987个节点和441,986条边。
特点
这两个数据集的特点在于它们的有向性和边属性。TwitterSG是目前公开的最大用户间有向社交图,其边属性反映了用户对特定主题的立场。BirdwatchSG则专注于社区对误导信息的反馈,提供了用户对特定主题的立场和互动的详细视图。两个数据集都包含多个主题,且允许节点间存在多条边,反映了用户在不同主题上的互动。
使用方法
这些数据集主要用于研究社交网络中的立场检测和用户行为分析。研究者可以利用这些数据集训练模型,如立场嵌入模型(SEM),来预测用户对未观察到的主题的立场。此外,这些数据集也可用于分析社交网络中的信息传播模式和用户间的互动动态。
背景与挑战
背景概述
TwitterSG和BirdwatchSG数据集由John Pougué-Biyong等研究人员于2022年发布,旨在通过签名社交图(Signed Social Graphs)研究用户在不同话题上的立场。这些数据集的核心研究问题是如何从用户之间的互动中推断出他们对特定话题的立场,并利用这些信息进行冷启动话题立场检测。TwitterSG基于Twitter用户的互动数据,包含753,944个用户节点和12,848,093条边,覆盖200个体育相关话题。BirdwatchSG则基于Twitter的Birdwatch项目,通过用户对误导信息的社区报告生成签名图,包含2,987个用户节点和441,986条边,覆盖1,020个话题。这些数据集为社交网络分析领域提供了重要的数据支持,推动了用户立场建模的研究。
当前挑战
TwitterSG和BirdwatchSG数据集在解决社交网络分析中的用户立场建模问题时,面临多重挑战。首先,如何从用户互动中准确提取立场信息是一个关键问题,尤其是在处理大规模数据时,噪声和稀疏性问题可能导致模型性能下降。其次,冷启动话题立场检测要求模型能够预测用户从未参与过的话题的立场,这对模型的泛化能力提出了更高要求。在数据构建过程中,研究人员还需应对数据标注的复杂性,例如如何定义和识别用户之间的对立关系,以及如何从文本中准确推断话题。此外,BirdwatchSG的数据来源依赖于社区报告,其主观性和不一致性可能影响数据的可靠性。这些挑战共同构成了该领域研究的核心难点。
常用场景
经典使用场景
TwitterSG和BirdwatchSG数据集在社交网络分析领域具有重要应用,尤其是在研究用户立场和话题对齐方面。TwitterSG通过分析用户在推特上的互动行为,构建了一个包含用户、话题和正负边的大规模有向图,能够有效捕捉用户在不同话题上的立场。BirdwatchSG则基于Twitter的Birdwatch项目,通过用户对误导信息的标注和评分,构建了一个反映用户对特定话题态度的有向图。这些数据集为研究社交网络中的立场嵌入和话题对齐提供了丰富的数据支持。
实际应用
TwitterSG和BirdwatchSG数据集在实际应用中具有广泛价值。例如,TwitterSG可以用于分析体育赛事期间用户的立场变化,帮助品牌和营销团队制定精准的广告策略。BirdwatchSG则可用于识别和追踪社交媒体上的误导信息,帮助平台和监管机构更好地管理内容。这些数据集还为社交机器人和虚假账号检测提供了数据支持,有助于提升社交网络的安全性和可信度。
衍生相关工作
基于TwitterSG和BirdwatchSG数据集,研究者们开展了多项经典工作。例如,Pougué-Biyong等人提出的立场嵌入模型(SEM)通过联合学习用户和话题的嵌入,实现了话题对齐和冷启动立场检测。此外,这些数据集还启发了多项关于社交网络立场预测、话题传播和误导信息检测的研究,推动了社交网络分析领域的发展。相关研究不仅丰富了理论框架,还为实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作