JetBrains/KStack-clean
收藏Hugging Face2024-05-22 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains/KStack-clean
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从KStack数据集中选出的25,000个Kotlin代码样本,选择标准是基于代码在学习Kotlin算法概念中的价值。数据集总共包含约23M的CodeLlama-7b令牌(词汇量为32,016)。数据集的特征包括路径、所有者、仓库ID、是否为分支、语言分布、内容、问题数、主要语言、分支数、星标数、提交哈希、大小、名称和许可证等。数据集的收集过程涉及使用Mistral-7B-Instruct-v0.2模型进行零样本质量估计,以及基于CodeT5p-220m的二元分类器的训练和应用。
该数据集包含从KStack数据集中选出的25,000个Kotlin代码样本,选择标准是基于代码在学习Kotlin算法概念中的价值。数据集总共包含约23M的CodeLlama-7b令牌(词汇量为32,016)。数据集的特征包括路径、所有者、仓库ID、是否为分支、语言分布、内容、问题数、主要语言、分支数、星标数、提交哈希、大小、名称和许可证等。数据集的收集过程涉及使用Mistral-7B-Instruct-v0.2模型进行零样本质量估计,以及基于CodeT5p-220m的二元分类器的训练和应用。
提供机构:
JetBrains
原始信息汇总
数据集概述
该数据集包含25,000个Kotlin代码样本,选自KStack数据集。这些样本是基于代码在学习Kotlin算法概念中的价值进行筛选的。数据集总共包含约23M个CodeLlama-7b令牌(词汇表大小为32,016)。
列描述
数据集包含以下列:
size— 文件大小(字节)content— 文件文本内容(移除个人识别信息)repo_id— 仓库的GitHub IDpath— 文件路径owner— GitHub上的仓库所有者name— GitHub上的仓库名称commit_sha— 文件修订版本的提交哈希stars— 收集时仓库的星标数量forks— 收集时仓库的分叉数量issues— 收集时仓库的问题数量is_fork— 如果仓库是分叉则为true,否则为falsemain_language— GitHub定义的仓库主语言languages_distribution— 仓库中按字节大小分布的语言JSONlicense— 仓库的宽松许可证
数据集收集
从KStack进行的筛选是使用基于Mistral-7B-Instruct-v0.2的零样本质量估计进行的。模型被提示确定哪个文件具有更高的“学习Kotlin算法的教学价值”。比较结果的平均值用于训练基于CodeT5p-220m的二元分类器。然后将该二元分类器应用于整个KStack,以获得数据集中每个样本的分数。分类器预测的对数概率用作选择标准。
数据集信息
- 特征:
path:字符串owner:字符串repo_id:int64is_fork:布尔值languages_distribution:字符串content:字符串issues:float64main_language:字符串forks:int64stars:int64commit_sha:字符串size:int64name:字符串license:字符串
- 分割:
train:75063445字节,25000个样本
- 下载大小:29298620字节
- 数据集大小:75063445字节
- 配置:
default:train:data/train-*



