five

Geekography :: Datasets

收藏
github2015-01-10 更新2024-05-31 收录
下载链接:
https://github.com/geekography/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含从Github Archive提取的多个数据集,包含用户性别、国家等额外信息。数据涉及约150,000用户和250,000仓库,重点关注Github活动的社交编码部分,排除非社交化仓库。

This repository contains multiple datasets extracted from Github Archive, including additional information such as user gender and country. The data involves approximately 150,000 users and 250,000 repositories, with a focus on the social coding aspects of Github activities, excluding non-socialized repositories.
创建时间:
2014-06-15
原始信息汇总

数据集概述

本数据集包含从Github Archive提取的多个数据集,重点关注GitHub上的社交编码活动,涉及约150,000名用户和250,000个仓库。

数据集文件描述

  1. actors_attributes.json.gz

    • 描述:用户最后声明的属性。
  2. actors_events.csv.gz

  3. actors_patterns.csv.gz

    • 描述:用户行为模式的序列出现次数。每个模式代表一系列事件类型,用字母表示。
    • 事件类型与字母对应关系: python types = { "CommitCommentEvent": "A", "CreateEvent": "B", "DeleteEvent": "C", "FollowEvent": "D", "ForkEvent": "E", "GollumEvent": "F", "IssueCommentEvent": "G", "IssuesEvent": "H", "MemberEvent": "I", "PublicEvent": "J", "PullRequestEvent": "K", "PullRequestReviewCommentEvent": "L", "PushEvent": "M", "WatchEvent": "N" }
  4. repos_events.csv.gz

    • 描述:GitHub上仓库的活动事件计数。
搜集汇总
数据集介绍
main_image_url
构建方式
Geekography :: Datasets数据集的构建是基于GitHub Archive的数据,通过提取并整合大约150,000名用户及250,000个仓库的信息,旨在专注于GitHub社交编码活动部分,而将非社交化仓库的活动排除在外。数据集包含用户和仓库的活动事件,以及用户属性等信息。
特点
本数据集的特点在于其针对GitHub社交编码活动的精准采样,涵盖了用户属性、活动事件计数以及行为模式。数据涵盖了多种事件类型,并通过简化的字母编码表示不同的行为模式,便于分析用户的行为特征。此外,数据集规模适中,方便研究者进行深入分析而不被海量数据所困扰。
使用方法
使用该数据集时,研究者可以首先关注actors_attibutes.json.gz文件以获取用户属性信息,actors_events.csv.gz和repos_events.csv.gz文件则分别提供了用户和仓库的事件计数,有助于分析用户活跃度。actors_patterns.csv.gz文件记录了用户行为的模式,可用于挖掘用户在GitHub上的行为习惯。用户需依据GitHub API文档中的事件类型描述来解读事件计数数据。
背景与挑战
背景概述
Geekography :: Datasets数据集,源自于GitHub Archive,由研究者在特定时间提取而构建。该数据集聚焦于GitHub平台上的社会性编码活动,筛选出约150,000名用户及250,000个仓库的样本,旨在对社交编码行为进行深入分析。数据集中包含用户属性、用户活动事件计数以及行为模式等信息,为理解开源社区的社交动态提供了重要资源,对于社会学、计算机科学以及开源生态研究等领域产生了显著影响。
当前挑战
在构建Geekography :: Datasets数据集的过程中,研究者面临了多重挑战。首先,如何从海量的GitHub Archive中提取具有代表性的样本是一大难题。其次,确保数据中用户行为的准确性与完整性,对于理解社交编码模式至关重要。此外,数据集在处理用户隐私信息,如性别和国家时,也需克服法律法规和伦理道德的挑战。在研究领域问题上,该数据集试图解决如何量化并分析开源社区中用户行为的动态模式,这对于构建健康、活跃的开源生态系统具有重要意义。
常用场景
经典使用场景
在社会科学与计算社会科学领域内,Geekography :: Datasets数据集被广泛用于分析GitHub用户行为模式与社会编码活动。该数据集通过记录用户事件及其行为模式,为研究者提供了深入探索开发者社区动态的宝贵资源。
实际应用
在实际应用中,该数据集可用于改善开源项目的管理策略,帮助项目维护者了解社区成员的活跃程度和贡献模式,从而优化项目协作流程和增强社区活力。
衍生相关工作
基于Geekography :: Datasets,研究者已衍生出众多相关工作,包括但不限于用户行为预测模型、社交网络分析以及开源项目成功因素的实证研究,进一步拓宽了数据驱动的社会科学研究视野。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作