five

AISE-TUDelft/the-heap

收藏
Hugging Face2025-07-11 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/AISE-TUDelft/the-heap
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含多种编程语言代码文件的集合,每个文件都附带了详细的属性信息,如文件名、文件路径、内容、文件大小、使用的编程语言、文件扩展名、总行数、平均每行长度、最长行长度、字母数字所占比例以及代码仓库的相关信息(包括仓库名称、星标数、分支数、打开的问题数、仓库许可证和仓库提取日期)。此外,数据集还提供了关于文件重复性的信息。数据集根据不同的编程语言进行了分类,并为每种语言提供了训练集。

This dataset is a collection of code files written in various programming languages, each with detailed attribute information such as file name, file path, content, size, programming language used, file extension, total number of lines, average line length, maximum line length, alphanumeric fraction, and information about the code repository (including repository name, star count, fork count, open issue count, repository license, and extraction date). Additionally, the dataset provides information about file duplication. The dataset is categorized by different programming languages and provides a training set for each language.
提供机构:
AISE-TUDelft
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作