source{d} Datasets
收藏github2020-01-07 更新2024-05-31 收录
下载链接:
https://github.com/lorarjohns/datasets
下载链接
链接失效反馈官方服务:
资源简介:
source{d}提供的用于源代码分析和机器学习的数据集,包含多个子数据集,如公共Git档案、编程语言标识符、代码副本、拉取请求审查评论、提交消息、结构化提交特征、DockerHub元数据、DockerHub包、拼写错误和NuGet命名空间等。
The dataset provided by source{d} for source code analysis and machine learning includes multiple sub-datasets, such as public Git archives, programming language identifiers, code duplicates, pull request review comments, commit messages, structured commit features, DockerHub metadata, DockerHub packages, typos, and NuGet namespaces.
创建时间:
2019-12-09
原始信息汇总
数据集概述
Public Git Archive
- 大小: 6TB
- 描述: 包含超过260k个GitHub上最受欢迎的仓库,总计超过136M文件和约280亿行代码。
Programming Language Identifiers
- 大小: 1GB
- 描述: 从10多种编程语言中提取的约4900万独特标识符。
Code duplicates
- 大小: 250MB
- 描述: 包含2000个Java文件和600个Java函数对,由多个程序员标记为相似或不同。
Pull Request review comments
- 大小: 1.5GB
- 描述: 自2015年1月至2018年12月,GitHub上的2530万条Pull Request审查评论。
Commit messages
- 大小: 46GB
- 描述: 截至2019年3月,GitHub上的13亿条提交信息。
Structural commit features
- 大小: 1.9GB
- 描述: 来自622个GitHub Java仓库的160万次提交的结构特征。
DockerHub Metadata
- 大小: 1.4GB
- 描述: 2019年6月从DockerHub获取的146万Docker镜像配置和清单文件。
DockerHub Packages
- 大小: 15GB
- 描述: 2019年夏季分析的419092个Docker镜像,包括原生、Python和Node包的列表。
Typos
- 大小: 1MB
- 描述: 在GitHub仓库中发现的7375个源代码标识符名称中的拼写错误。
NuGet Namespaces
- 大小: 13MB
- 描述: 从227839个NuGet包中提取的681858个.NET命名空间的信息。
搜集汇总
数据集介绍

构建方式
source{d} Datasets的构建涉及对GitHub等平台的源代码数据进行了广泛采集,涵盖了从代码库归档到代码评论文本等不同维度的数据。该数据集的构建使用了自动化脚本和工具,旨在确保数据的一致性和可重复性,同时关联了相关学术论文以供研究参考。
特点
该数据集的特点在于其多样性和规模性,包含了大量的代码库、编程语言标识符、代码重复实例、代码评论文本、提交信息、结构化提交特征、Docker配置信息、软件包列表以及代码中的错别字等数据。这些数据覆盖了代码分析和机器学习在源代码上应用的多个方面,为相关领域的研究提供了丰富的资源。
使用方法
使用该数据集,研究者可以依据自身需求,通过数据集中的工具和脚本复现所需的数据集。数据集的使用遵循Apache 2.0许可协议,用户应遵守相应的使用条款。针对具体的数据子集,用户需要参照各自的数据结构和提供的文档进行操作,以获取和分析数据,进而开展源代码分析及机器学习相关研究。
背景与挑战
背景概述
source{d} Datasets是一组针对源代码分析和机器学习研究的专用数据集,由source{d}公司创建并维护。该数据集集合了多个与源代码相关的子数据集,涵盖了从公共Git存档到特定编程语言的标识符,再到代码重复检测、拉取请求的评论、提交信息等多种类型的数据资源。其创建旨在促进机器学习技术在源代码分析领域的应用,自推出以来,已成为相关领域研究的重要资源,对推动软件开发过程中的智能化分析有着不可忽视的贡献。
当前挑战
在研究领域,source{d} Datasets面临的挑战主要涉及数据集的多样性和规模带来的处理难度。具体挑战包括:如何高效地从大规模的Git存档中提取有用信息,处理不同编程语言标识符的复杂多样性,准确识别代码中的重复片段,以及如何从海量的提交信息和评论中提炼出有助于机器学习模型的特征。构建过程中的挑战则集中在数据的清洗、标注质量控制和数据集的可复现性等方面。
常用场景
经典使用场景
source{d} Datasets作为专注于源代码分析和机器学习领域的集成数据集,其经典的使用场景主要聚焦于对源代码进行深度学习模型的训练与评估。该数据集支持研究者对代码库的静态分析,例如通过Public Git Archive进行大规模代码库的统计分析,或使用Programming Language Identifiers对编程语言进行识别。此外,它还提供了代码相似性判断、Pull Request评论分析、提交信息挖掘等场景的实践数据,为机器学习在源代码分析中的应用提供了丰富的土壤。
解决学术问题
source{d} Datasets解决了源代码分析中的多个学术研究问题,如通过Typos数据集对源代码中标识符的错误拼写进行分析,有助于改进代码的自动纠错功能;利用NuGet Namespaces数据集,研究者能够探索.NET命名空间的分布特性,促进软件包依赖关系的理解。这些数据集的提供,极大地推动了代码理解、代码质量评估、编程语言识别等研究领域的发展。
衍生相关工作
基于source{d} Datasets的研究成果衍生出了众多相关工作,包括但不限于代码缺陷预测、编程语言识别模型的构建、代码库维护性评估工具的开发等。这些相关工作不仅拓宽了数据集的应用范围,也为软件开发和代码分析领域带来了创新的解决方案和研究视角。
以上内容由遇见数据集搜集并总结生成



