tianyang/repobench_raw_v1.1
收藏Hugging Face2024-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tianyang/repobench_raw_v1.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Python和Java两种编程语言的代码库信息。每个代码库的信息包括仓库名称、编程语言、创建时间、许可证、描述、星标数、分支数、URL以及代码库中的代码信息。代码信息包括代码内容、路径、仓库名称和大小。数据集分为Python和Java两个部分,分别包含4612和1750个样本,总大小为1734585643字节。
该数据集包含Python和Java两种编程语言的代码库信息。每个代码库的信息包括仓库名称、编程语言、创建时间、许可证、描述、星标数、分支数、URL以及代码库中的代码信息。代码信息包括代码内容、路径、仓库名称和大小。数据集分为Python和Java两个部分,分别包含4612和1750个样本,总大小为1734585643字节。
提供机构:
tianyang
原始信息汇总
数据集概述
许可证
- 本数据集遵循 cc-by-4.0 许可证。
配置
- 默认配置 包含以下数据文件:
split: python,路径为data/python-*split: java,路径为data/java-*
数据集信息
特征
- repo_name: 仓库名称,数据类型为
string - language: 编程语言,数据类型为
string - created_at: 创建时间,数据类型为
timestamp[ns] - license: 许可证,数据类型为
string - description: 描述,数据类型为
string - stars: 星标数量,数据类型为
int64 - forks: 分叉数量,数据类型为
int64 - url: 仓库URL,数据类型为
string - repo_code: 仓库代码,包含以下子特征:
- code: 代码内容,数据类型为
string - path: 文件路径,数据类型为
string - repo_name: 仓库名称,数据类型为
string - size: 文件大小,数据类型为
int64
- code: 代码内容,数据类型为
数据分割
- python:
- 字节数: 1262209882
- 样本数: 4612
- java:
- 字节数: 472375761
- 样本数: 1750
数据集大小
- 下载大小: 524006644 字节
- 数据集大小: 1734585643 字节



