five

Twitch Gamers

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/benedekrozemberczki/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个从2018年春季公开API收集的Twitch用户社交网络。节点代表Twitch用户,边代表他们之间的互相关注关系。该图形成一个没有缺失属性的单一强连通分量。与该图相关的机器学习任务包括计数数据回归和节点分类。具体任务有:明确内容流媒体识别、广播语言预测、用户生命周期估计、流失预测、联盟状态识别和观看次数估计。

A social network of Twitch users collected from the public API in the spring of 2018. Nodes represent Twitch users, and edges represent mutual follow relationships between them. The graph forms a single strongly connected component without missing attributes. Machine learning tasks associated with this graph include count data regression and node classification. Specific tasks include: explicit content streamer identification, broadcast language prediction, user lifecycle estimation, churn prediction, affiliate status identification, and view count estimation.
创建时间:
2019-04-08
原始信息汇总

数据集概述

1. Twitch Gamers

  • 描述: 2018年春季从Twitch公共API收集的用户社交网络。节点为Twitch用户,边为互相关注关系。
  • 任务: 明确内容流媒体识别、广播语言预测、用户寿命估计、流失预测、附属状态识别、观看次数估计。
  • 属性: 无向、无节点特征、无边特征、有节点标签、非时序。
  • 统计: 节点数168,114,边数6,797,557,密度0.0005,传递性0.0184。
  • 可能任务: 二分类节点分类、多分类节点分类、计数数据回归、链接预测、社区检测、社区检测与地面真实、网络可视化。

2. LastFM Asia Social Network

  • 描述: 2020年3月从LastFM公共API收集的亚洲用户社交网络。节点为LastFM用户,边为互相关注关系。
  • 任务: 预测用户位置。
  • 属性: 无向、有节点特征、无边特征、多分类节点标签、非时序。
  • 统计: 节点数7,624,边数27,806,密度0.001,传递性0.179。
  • 可能任务: 多分类节点分类、链接预测、社区检测、网络可视化。

3. Deezer Europe Social Network

  • 描述: 2020年3月从Deezer公共API收集的欧洲用户社交网络。节点为Deezer用户,边为互相关注关系。
  • 任务: 预测用户性别。
  • 属性: 无向、有节点特征、无边特征、二分类节点标签、非时序。
  • 统计: 节点数28,281,边数92,752,密度0.0002,传递性0.0959。
  • 可能任务: 二分类节点分类、链接预测、社区检测、网络可视化。

4. GitHub StarGazer Graphs

  • 描述: 截至2019年8月,关注流行机器学习和网页开发仓库的开发者社交网络。
  • 任务: 确定社交网络属于网页还是机器学习仓库。
  • 属性: 无向、无节点特征、无边特征、二分类图标签、非时序。
  • 统计: 图数12,725,最小节点数10,最大节点数957,最小密度0.003,最大密度0.561,最小直径2,最大直径18。
  • 可能任务: 图分类。

5. Twitch Ego Nets

  • 描述: 2018年4月参与合作伙伴计划的Twitch用户的自我网络。
  • 任务: 预测用户是否玩单一或多款游戏。
  • 属性: 无向、无节点特征、无边特征、二分类图标签、非时序。
  • 统计: 图数127,094,最小节点数14,最大节点数52,最小密度0.038,最大密度0.967,最小直径1,最大直径2。
  • 可能任务: 图分类。

6. Reddit Thread Graphs

  • 描述: 2018年5月收集的Reddit讨论和非讨论基础的线程。
  • 任务: 预测线程是否基于讨论。
  • 属性: 无向、无节点特征、无边特征、二分类图标签、非时序。
  • 统计: 图数203,088,最小节点数11,最大节点数97,最小密度0.021,最大密度0.382,最小直径2,最大直径27。
  • 可能任务: 图分类。

7. Deezer Ego Nets

  • 描述: 2020年2月从音乐流媒体服务Deezer收集的东欧用户的自我网络。
  • 任务: 预测自我节点的性别。
  • 属性: 无向、无节点特征、无边特征、二分类图标签、非时序。
  • 统计: 图数9,629,最小节点数11,最大节点数363,最小密度0.015,最大密度0.909,最小直径2,最大直径2。
  • 可能任务: 图分类。

8. GitHub Social Network

  • 描述: 2019年6月从GitHub公共API收集的大型开发者社交网络。
  • 任务: 预测GitHub用户是网页还是机器学习开发者。
  • 属性: 无向、有节点特征、无边特征、二分类节点标签、非时序。
  • 统计: 节点数37,700,边数289,003,密度0.001,传递性0.013。
  • 可能任务: 二分类节点分类、链接预测、社区检测、网络可视化。

9. Deezer Social Networks

  • 描述: 2017年11月从音乐流媒体服务Deezer收集的用户友谊网络。
  • 属性: 无向、无节点特征、无边特征、多标签节点、非时序。
  • 统计: 罗马尼亚节点数41,773,边数125,826,密度0.0001,传递性0.0752;克罗地亚节点数54,573,边数498,202,密度0.0004,传递性0.1146;匈牙利节点数47,538,边数222,887,密度0.0002,传递性0.0929。
  • 可能任务: 节点分类、链接预测、社区检测、网络可视化。

10. Facebook Page-Page Networks

  • 描述: 2017年11月收集的Facebook蓝标验证页面网络。
  • 属性: 无向、无节点特征、无边特征、无节点标签、非时序。
  • 统计: 不同类别页面的节点数和边数各异,密度和传递性也不同。
  • 可能任务: 链接预测、社区检测、网络可视化。

11. Wikipedia Article Networks

  • 描述: 2018年12月从英文维基百科收集的特定主题页面网络。
  • 任务: 预测页面平均月流量。
  • 属性: 无向、有节点特征、无边特征、连续目标节点标签、非时序。
  • 统计: 变色龙主题节点数2,277,边数31,421,密度0.012,传递性0.314;鳄鱼主题节点数11,631,边数170,918,密度0.003,传递性0.026;松鼠主题节点数5,201,边数198,493,密度0.015,传递性0.348。
  • 可能任务: 回归、链接预测、社区检测、网络可视化。
搜集汇总
数据集介绍
main_image_url
构建方式
Twitch Gamers数据集通过从Twitch公共API收集的用户社交网络构建而成,时间跨度为2018年春季。该数据集的节点代表Twitch用户,边表示用户之间的相互关注关系。数据集形成了一个单一的强连通组件,且不包含缺失属性。构建过程中,数据集涵盖了多种机器学习任务,如计数数据回归和节点分类,具体包括显式内容流播者识别、播音语言预测、用户生命周期估计、流失预测、联盟状态识别和观看次数估计等。
特点
Twitch Gamers数据集具有显著的特点,包括其无向性、无节点和边特征、存在节点标签以及非时间性。该数据集包含168,114个节点和6,797,557条边,网络密度为0.0005,传递性为0.0184。这些特性使得该数据集非常适合用于二元节点分类、多类节点分类、计数数据回归、链接预测、社区检测和网络可视化等任务。
使用方法
Twitch Gamers数据集的使用方法多样,适用于多种机器学习任务。用户可以利用该数据集进行二元节点分类,预测用户是否为显式内容流播者;进行多类节点分类,预测用户的播音语言;进行计数数据回归,估计用户的观看次数等。此外,该数据集还可用于链接预测,识别潜在的社交关系;进行社区检测,发现用户群体的社交结构;以及进行网络可视化,直观展示用户间的社交网络关系。
背景与挑战
背景概述
Twitch Gamers数据集是由Benedek Rozemberczki和Rik Sarkar在2021年创建的,旨在评估网络科学、图挖掘和深度学习领域的研究。该数据集收集于2018年春季,通过Twitch的公共API获取,包含168,114个用户节点和6,797,557条边,形成了一个单一的强连通组件。其核心研究问题包括显式内容流播者识别、播音员语言预测、用户生命周期估计等,对社交网络分析和机器学习任务具有重要影响。
当前挑战
Twitch Gamers数据集在构建过程中面临的主要挑战包括数据隐私和匿名化处理,确保用户信息的安全性。此外,数据集的规模和复杂性增加了处理和分析的难度,特别是在进行节点分类和链接预测时。该数据集的另一个挑战是缺乏节点特征和边特征,这限制了某些机器学习任务的性能。最后,数据集的密度较低(0.0005),导致社区检测和网络可视化任务更具挑战性。
常用场景
经典使用场景
在社交网络分析领域,Twitch Gamers数据集被广泛用于研究用户间的相互关注关系。该数据集通过捕捉Twitch平台上的用户互动,为研究者提供了一个丰富的社交网络图谱。其经典使用场景包括节点分类、链接预测和社区检测。例如,研究者可以利用该数据集进行多类节点分类任务,以预测用户的语言偏好或游戏类型。此外,通过分析用户间的链接关系,可以预测未来的社交互动,从而为社交网络的动态演化提供洞察。
实际应用
在实际应用中,Twitch Gamers数据集可用于多种场景。例如,社交平台可以利用该数据集进行用户行为分析,以优化内容推荐系统,提升用户体验。此外,市场营销人员可以通过分析用户的社交网络,识别潜在的目标群体,制定更有效的营销策略。在网络安全领域,该数据集也可用于检测异常行为,如识别虚假账户或恶意用户,从而提高平台的安全性。
衍生相关工作
基于Twitch Gamers数据集,研究者们开展了多项相关工作。例如,有研究利用该数据集开发了新的节点嵌入算法,以更好地捕捉用户间的社交关系。此外,还有研究探讨了如何利用社交网络数据进行用户行为预测,特别是在游戏和娱乐领域。这些衍生工作不仅丰富了社交网络分析的理论框架,也为实际应用提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作