five

JetBrains/KStack-clean

收藏
Hugging Face2024-05-22 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains/KStack-clean
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从KStack数据集中选出的25,000个Kotlin代码样本,选择标准是基于代码在学习Kotlin算法概念中的价值。数据集总共包含约23M的CodeLlama-7b令牌(词汇量为32,016)。数据集的特征包括路径、所有者、仓库ID、是否为分支、语言分布、内容、问题数、主要语言、分支数、星标数、提交哈希、大小、名称和许可证等。数据集的收集过程涉及使用Mistral-7B-Instruct-v0.2模型进行零样本质量估计,以及基于CodeT5p-220m的二元分类器的训练和应用。

该数据集包含从KStack数据集中选出的25,000个Kotlin代码样本,选择标准是基于代码在学习Kotlin算法概念中的价值。数据集总共包含约23M的CodeLlama-7b令牌(词汇量为32,016)。数据集的特征包括路径、所有者、仓库ID、是否为分支、语言分布、内容、问题数、主要语言、分支数、星标数、提交哈希、大小、名称和许可证等。数据集的收集过程涉及使用Mistral-7B-Instruct-v0.2模型进行零样本质量估计,以及基于CodeT5p-220m的二元分类器的训练和应用。
提供机构:
JetBrains
原始信息汇总

数据集概述

该数据集包含25,000个Kotlin代码样本,选自KStack数据集。这些样本是基于代码在学习Kotlin算法概念中的价值进行筛选的。数据集总共包含约23M个CodeLlama-7b令牌(词汇表大小为32,016)。

列描述

数据集包含以下列:

  • size — 文件大小(字节)
  • content — 文件文本内容(移除个人识别信息)
  • repo_id — 仓库的GitHub ID
  • path — 文件路径
  • owner — GitHub上的仓库所有者
  • name — GitHub上的仓库名称
  • commit_sha — 文件修订版本的提交哈希
  • stars — 收集时仓库的星标数量
  • forks — 收集时仓库的分叉数量
  • issues — 收集时仓库的问题数量
  • is_fork — 如果仓库是分叉则为true,否则为false
  • main_language — GitHub定义的仓库主语言
  • languages_distribution — 仓库中按字节大小分布的语言JSON
  • license — 仓库的宽松许可证

数据集收集

KStack进行的筛选是使用基于Mistral-7B-Instruct-v0.2的零样本质量估计进行的。模型被提示确定哪个文件具有更高的“学习Kotlin算法的教学价值”。比较结果的平均值用于训练基于CodeT5p-220m的二元分类器。然后将该二元分类器应用于整个KStack,以获得数据集中每个样本的分数。分类器预测的对数概率用作选择标准。

数据集信息

  • 特征
    • path:字符串
    • owner:字符串
    • repo_id:int64
    • is_fork:布尔值
    • languages_distribution:字符串
    • content:字符串
    • issues:float64
    • main_language:字符串
    • forks:int64
    • stars:int64
    • commit_sha:字符串
    • size:int64
    • name:字符串
    • license:字符串
  • 分割
    • train:75063445字节,25000个样本
  • 下载大小:29298620字节
  • 数据集大小:75063445字节
  • 配置
    • default
      • traindata/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作