five

GitHub Social Network

收藏
github2020-12-08 更新2024-05-31 收录
下载链接:
https://github.com/Gameye98/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个大型GitHub开发者社交网络,数据收集自2019年6月的公共API。节点是至少star了10个仓库的开发者,边是相互关注关系。节点特征基于位置、star的仓库、雇主和电子邮件地址提取。图相关的任务是二元节点分类——预测GitHub用户是网页开发者还是机器学习开发者。目标特征从每个用户的职位名称中提取。

This is a large-scale GitHub developer social network, with data collected from public APIs in June 2019. Nodes represent developers who have starred at least 10 GitHub repositories, while edges denote mutual follow relationships between users. Node features are extracted based on developers' location, starred repositories, employer, and email address. The downstream graph-related task is binary node classification: predicting whether a given GitHub user is a web developer or a machine learning developer. The target feature for this classification task is extracted from each user's job title.
创建时间:
2020-01-07
原始信息汇总

数据集概述

1. GitHub Social Network

  • 描述: 收集于2019年6月,节点为GitHub开发者,至少star过10个仓库,边为互相关注关系。节点特征基于位置、star过的仓库、雇主和电子邮件地址。
  • 任务: 二元节点分类(预测用户是web开发者还是机器学习开发者)。
  • 属性:
    • 节点数: 37,700
    • 边数: 289,003
    • 密度: 0.001
    • 传递性: 0.013
  • 链接: GitHub Web-ML

2. Deezer Social Networks

  • 描述: 收集于2017年11月,代表3个欧洲国家的用户友谊网络。节点为用户,边为互为朋友关系。
  • 任务: 节点分类、链接预测、社区检测、网络可视化。
  • 属性:
    • RO节点数: 41,773
    • RO边数: 125,826
    • HR节点数: 54,573
    • HR边数: 498,202
    • HU节点数: 47,538
    • HU边数: 222,887
  • 链接:

3. Facebook Page-Page Networks

4. Wikipedia Article Networks

  • 描述: 收集于2018年12月,代表特定主题的页面网络。节点为文章,边为互链关系。
  • 任务: 回归、链接预测、社区检测、网络可视化。
  • 属性:
    • Chameleon节点数: 2,277
    • Chameleon边数: 31,421
    • Crocodile节点数: 11,631
    • Crocodile边数: 170,918
    • Squirrel节点数: 5,201
    • Squirrel边数: 198,493
  • 链接:

5. Twitch Social Networks

  • 描述: 收集于2018年5月,代表特定语言的Twitch用户网络。节点为用户,边为互为朋友关系。
  • 任务: 二元节点分类、链接预测、社区检测、网络可视化。
  • 属性:
    • DE节点数: 9,498
    • DE边数: 153,138
    • EN节点数: 7,126
    • EN边数: 35,324
    • ES节点数: 4,648
    • ES边数: 59,382
    • FR节点数: 6,549
    • FR边数: 112,666
    • PT节点数: 1,912
    • PT边数: 31,299
    • RU节点数: 4,385
    • RU边数: 37,304
  • 链接:

6. Facebook Large Page-Page Network

  • 描述: 收集于2017年11月,代表验证的Facebook页面网络。节点为官方页面,边为互赞关系。
  • 任务: 多类节点分类、链接预测、社区检测、网络可视化。
  • 属性:
    • 节点数: 22,470
    • 边数: 171,002
    • 密度: 0.001
    • 传递性: 0.232
  • 链接: Facebook Large Page-Page
搜集汇总
数据集介绍
main_image_url
构建方式
GitHub社交网络数据集的构建基于GitHub平台上用户之间的互动行为。通过爬取GitHub API,收集了用户之间的关注关系、项目合作、代码贡献等社交行为数据。数据集涵盖了数百万用户及其互动关系,经过清洗和标准化处理,确保数据的完整性和一致性。
特点
该数据集具有高度的动态性和实时性,反映了开源社区的活跃状态。其特点包括大规模的用户基数、多样化的互动类型以及丰富的上下文信息。此外,数据集还包含了用户的地理位置、编程语言偏好等元数据,为研究者提供了深入分析社交网络结构和用户行为的丰富资源。
使用方法
研究者可以利用该数据集进行社交网络分析、用户行为预测、社区发现等研究。通过构建用户关系图,可以分析网络的中心性、社区结构等特征。此外,结合用户的编程语言偏好和地理位置信息,可以进行跨领域的研究,如地理信息系统与社交网络的结合分析。
背景与挑战
背景概述
GitHub Social Network数据集源自于全球最大的开源代码托管平台GitHub,该平台不仅为开发者提供代码存储和版本控制服务,还通过社交网络功能促进了开发者之间的协作与交流。该数据集的构建始于2010年代初,由GitHub公司及其研究合作伙伴共同推动,旨在通过分析开发者之间的互动行为,揭示开源社区的动态结构和协作模式。这一数据集的发布,极大地推动了社交网络分析、社区挖掘以及开源软件生态系统研究的发展,为学术界和工业界提供了宝贵的研究资源。
当前挑战
GitHub Social Network数据集在构建过程中面临诸多挑战。首先,数据的高维度和复杂性使得数据清洗和预处理成为一项艰巨任务。其次,由于GitHub平台的实时更新特性,数据集的时效性和动态性要求极高,如何保持数据的实时性和准确性是一大难题。此外,开发者行为的多样性和不确定性,使得社交网络的结构分析和模式识别变得复杂。最后,数据隐私和安全问题也是该数据集必须面对的重要挑战,如何在保护用户隐私的前提下进行有效分析,是研究者需要解决的关键问题。
发展历史
创建时间与更新
GitHub Social Network数据集的创建时间可追溯至2012年,由研究人员通过分析GitHub平台上的社交互动和协作行为而构建。该数据集自创建以来,经历了多次更新,以反映GitHub社区的不断演变和扩展。
重要里程碑
GitHub Social Network数据集的重要里程碑之一是其在2015年被广泛应用于社交网络分析和社区检测研究中,为理解开源软件开发中的协作模式提供了宝贵的数据支持。此外,2018年,该数据集被用于验证多种机器学习算法在社交网络中的应用效果,进一步提升了其在学术界的影响力。
当前发展情况
当前,GitHub Social Network数据集已成为研究开源社区动态和协作行为的重要资源。它不仅被广泛应用于社交网络分析、社区检测和机器学习等领域,还为开源软件生态系统的研究提供了丰富的数据基础。随着GitHub平台的持续发展,该数据集也在不断更新,以捕捉最新的社交互动和协作趋势,为相关领域的研究提供持续的支持和启发。
发展历程
  • GitHub Social Network数据集首次发表,标志着社交网络分析在开源社区中的应用开始受到关注。
    2012年
  • 该数据集首次应用于研究开源项目中的协作模式和社区结构,为后续研究提供了基础。
    2014年
  • GitHub Social Network数据集被广泛用于研究社交网络中的信息传播和影响力分析,推动了相关领域的理论发展。
    2016年
  • 随着数据集的不断更新和扩展,其在机器学习和数据挖掘领域的应用逐渐增多,特别是在预测用户行为和社区动态方面。
    2018年
  • GitHub Social Network数据集成为研究开源社区治理和决策机制的重要工具,为政策制定提供了数据支持。
    2020年
常用场景
经典使用场景
在社交网络分析领域,GitHub Social Network数据集被广泛用于研究开发者之间的协作模式和社区结构。通过分析用户之间的关注关系、项目合作以及代码贡献,研究者能够揭示开源社区中的核心成员、关键节点以及信息传播路径。这种分析不仅有助于理解社区的动态演化,还能为社区管理提供科学依据。
解决学术问题
GitHub Social Network数据集解决了社交网络分析中的多个关键问题,如社区检测、影响力传播和网络鲁棒性。通过该数据集,学者们能够验证和改进现有的社交网络算法,探索新的模型和方法。此外,该数据集还为研究开源软件开发中的社会技术系统提供了丰富的数据支持,推动了跨学科的研究进展。
衍生相关工作
基于GitHub Social Network数据集,衍生了许多经典的工作,如社交网络中的影响力最大化算法、社区检测方法和网络结构分析工具。这些工作不仅在学术界产生了深远影响,还被广泛应用于实际的社交网络管理中。此外,该数据集还激发了关于开源社区治理和协作机制的研究,推动了开源软件生态系统的健康发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作