five

tianyang/repobench_raw_v1.1

收藏
Hugging Face2024-01-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tianyang/repobench_raw_v1.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Python和Java两种编程语言的代码库信息。每个代码库的信息包括仓库名称、编程语言、创建时间、许可证、描述、星标数、分支数、URL以及代码库中的代码信息。代码信息包括代码内容、路径、仓库名称和大小。数据集分为Python和Java两个部分,分别包含4612和1750个样本,总大小为1734585643字节。

该数据集包含Python和Java两种编程语言的代码库信息。每个代码库的信息包括仓库名称、编程语言、创建时间、许可证、描述、星标数、分支数、URL以及代码库中的代码信息。代码信息包括代码内容、路径、仓库名称和大小。数据集分为Python和Java两个部分,分别包含4612和1750个样本,总大小为1734585643字节。
提供机构:
tianyang
原始信息汇总

数据集概述

许可证

  • 本数据集遵循 cc-by-4.0 许可证。

配置

  • 默认配置 包含以下数据文件:
    • split: python,路径为 data/python-*
    • split: java,路径为 data/java-*

数据集信息

特征

  • repo_name: 仓库名称,数据类型为 string
  • language: 编程语言,数据类型为 string
  • created_at: 创建时间,数据类型为 timestamp[ns]
  • license: 许可证,数据类型为 string
  • description: 描述,数据类型为 string
  • stars: 星标数量,数据类型为 int64
  • forks: 分叉数量,数据类型为 int64
  • url: 仓库URL,数据类型为 string
  • repo_code: 仓库代码,包含以下子特征:
    • code: 代码内容,数据类型为 string
    • path: 文件路径,数据类型为 string
    • repo_name: 仓库名称,数据类型为 string
    • size: 文件大小,数据类型为 int64

数据分割

  • python:
    • 字节数: 1262209882
    • 样本数: 4612
  • java:
    • 字节数: 472375761
    • 样本数: 1750

数据集大小

  • 下载大小: 524006644 字节
  • 数据集大小: 1734585643 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作