Twitter/TwitterFaveGraph
收藏Hugging Face2022-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Twitter/TwitterFaveGraph
下载链接
链接失效反馈官方服务:
资源简介:
TwitterFaveGraph是一个双向有向图,包含用户节点和推文节点,边代表用户对推文的喜欢互动。每条边都被分配到预定义的时间块中,并赋予序数。数据集包含670万用户节点、1300万推文节点和2.83亿条边。用户节点的最大度数为100,最小度数为1;推文节点的最大度数为28万,最小度数为5。
TwitterFaveGraph是一个双向有向图,包含用户节点和推文节点,边代表用户对推文的喜欢互动。每条边都被分配到预定义的时间块中,并赋予序数。数据集包含670万用户节点、1300万推文节点和2.83亿条边。用户节点的最大度数为100,最小度数为1;推文节点的最大度数为28万,最小度数为5。
提供机构:
Twitter
原始信息汇总
数据集概述
数据集名称
TwitterFaveGraph
数据集描述
TwitterFaveGraph 是一个二分有向图,其中用户节点与推文节点之间的边代表“点赞”互动。每个边被分配到预定义的时间块中,这些时间块被赋予连续的序号,以保持时间顺序。数据集包含670万用户节点,1300万推文节点,以及2.83亿条边。用户节点的最大度为100,最小度为1;推文节点的最大度为28万,最小度为5。
数据格式
| 字段 | 描述 |
|---|---|
| user_index | 用户索引 |
| tweet_index | 推文索引 |
| time_chunk | 时间块序号 |
许可
本数据集遵循Creative Commons Attribution 4.0 International License。
引用信息
若在研究中使用此数据集,请引用以下文献: bib @article{portman2022micro, title={MiCRO: Multi-interest Candidate Retrieval Online}, author={Portman, Frank and Ragain, Stephen and El-Kishky, Ahmed}, journal={arXiv preprint arXiv:2210.16271}, year={2022} }
搜集汇总
数据集介绍

构建方式
在社交网络分析领域,TwitterFaveGraph数据集的构建体现了对用户互动行为的精细化捕捉。该数据集源自Twitter平台,通过收集用户对推文的“喜欢”互动记录,构建了一个包含670万用户节点和1300万推文节点的二分有向图。每条边代表一次“喜欢”互动,并按照预设的时间块进行分箱处理,赋予连续的时间序数,从而保留了时间顺序信息。最终形成了包含2.83亿条边的图结构,其中用户节点的度分布范围限定在1至100之间,推文节点的度则介于5至28万之间,确保了数据的结构完整性与时序连贯性。
特点
TwitterFaveGraph数据集在社交网络研究中展现出独特的特点。其核心在于以二分有向图的形式呈现用户与推文之间的互动关系,边权重基于时间分箱的序数化处理,使得时序动态得以量化。数据规模庞大,涵盖数百万节点与数亿条边,同时通过设定用户和推文节点的度约束,避免了极端稀疏或密集的连接,增强了图的代表性。这种结构不仅支持多兴趣候选检索任务,还为图神经网络、推荐系统等研究提供了丰富的交互模式与时间演化信息。
使用方法
在推荐系统与图学习应用中,TwitterFaveGraph数据集的使用方法聚焦于其图结构与时序属性。研究者可通过加载数据集获取用户-推文二分图,利用边的时间序数进行时间序列分析或动态图建模。该数据适用于训练多兴趣检索模型,例如基于图的嵌入方法或神经网络,以预测用户偏好或推文流行度。使用前需遵循CC-BY-4.0许可协议,并引用相关论文,确保学术合规性。数据以表格格式提供,包含用户索引、推文索引和时间块字段,便于直接集成到机器学习流程中。
背景与挑战
背景概述
TwitterFaveGraph数据集由Twitter研究团队于2022年发布,旨在构建一个用户与推文之间的二分有向图,以捕捉社交媒体中的‘收藏’互动行为。该数据集由Frank Portman、Stephen Ragain和Ahmed El-Kishky等研究人员主导,核心研究问题聚焦于多兴趣候选检索在线(MiCRO)系统的开发,通过分析大规模用户-推文交互网络,推动推荐系统与图神经网络领域的进展。其影响力体现在为社交网络动态建模、用户行为预测及个性化推荐提供了丰富且结构化的真实世界数据支撑。
当前挑战
TwitterFaveGraph数据集所解决的领域问题在于社交网络中的多兴趣候选检索,其挑战包括处理高维稀疏的图结构、捕捉用户动态兴趣演化以及实现实时高效的推荐算法。在构建过程中,研究人员面临数据规模庞大(涉及670万用户节点、1300万推文节点和2.83亿条边)带来的存储与计算压力,同时需确保时间分块的有序性和连续性,以准确反映交互时序。此外,用户与推文节点的度分布极端不均衡(如推文最大度达28万),增加了图表示学习与模型泛化的难度。
常用场景
经典使用场景
在社交网络分析领域,TwitterFaveGraph数据集以其大规模的二部图结构,为研究用户与推文之间的互动模式提供了经典范例。该数据集通过捕捉用户对推文的“喜欢”行为,构建了包含670万用户节点、1300万推文节点和2.83亿条边的有向图,常用于探索社交网络中的信息传播动力学、用户兴趣演化以及社区检测等核心问题。其时间分块设计使得研究者能够追踪互动的时间序列特征,为动态网络分析提供了丰富的数据基础。
实际应用
在实际应用层面,TwitterFaveGraph数据集被广泛用于构建智能推荐系统与社交平台优化。基于其用户-推文互动图谱,企业能够开发更精准的内容推荐引擎,提升用户参与度与平台粘性。同时,该数据集支持广告定向投放策略的优化,通过分析用户兴趣图谱实现营销效果的最大化。此外,它在舆情监测与危机管理中也扮演关键角色,帮助机构实时追踪热点话题的传播路径,增强公共事件的响应能力。
衍生相关工作
围绕TwitterFaveGraph数据集,学术界衍生了一系列经典研究工作。例如,原论文《MiCRO: Multi-interest Candidate Retrieval Online》提出了多兴趣候选检索在线框架,利用该数据集验证了动态用户兴趣建模的有效性。后续研究扩展至图嵌入技术,如基于时序的节点表示学习,以捕捉用户行为的演化特征。此外,该数据集还促进了社交推荐系统、影响力最大化算法以及异常检测模型的比较与改进,成为图机器学习领域的重要基准资源。
以上内容由遇见数据集搜集并总结生成



