JetBrains/KStack-clean

Name: JetBrains/KStack-clean
Creator: JetBrains
Published: 2024-05-22 13:58:31
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains/KStack-clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从KStack数据集中选出的25,000个Kotlin代码样本，选择标准是基于代码在学习Kotlin算法概念中的价值。数据集总共包含约23M的CodeLlama-7b令牌（词汇量为32,016）。数据集的特征包括路径、所有者、仓库ID、是否为分支、语言分布、内容、问题数、主要语言、分支数、星标数、提交哈希、大小、名称和许可证等。数据集的收集过程涉及使用Mistral-7B-Instruct-v0.2模型进行零样本质量估计，以及基于CodeT5p-220m的二元分类器的训练和应用。

提供机构：

JetBrains

原始信息汇总

数据集概述

该数据集包含25,000个Kotlin代码样本，选自KStack数据集。这些样本是基于代码在学习Kotlin算法概念中的价值进行筛选的。数据集总共包含约23M个CodeLlama-7b令牌（词汇表大小为32,016）。

列描述

数据集包含以下列：

size — 文件大小（字节）
content — 文件文本内容（移除个人识别信息）
repo_id — 仓库的GitHub ID
path — 文件路径
owner — GitHub上的仓库所有者
name — GitHub上的仓库名称
commit_sha — 文件修订版本的提交哈希
stars — 收集时仓库的星标数量
forks — 收集时仓库的分叉数量
issues — 收集时仓库的问题数量
is_fork — 如果仓库是分叉则为true，否则为false
main_language — GitHub定义的仓库主语言
languages_distribution — 仓库中按字节大小分布的语言JSON
license — 仓库的宽松许可证

数据集收集

从KStack进行的筛选是使用基于Mistral-7B-Instruct-v0.2的零样本质量估计进行的。模型被提示确定哪个文件具有更高的“学习Kotlin算法的教学价值”。比较结果的平均值用于训练基于CodeT5p-220m的二元分类器。然后将该二元分类器应用于整个KStack，以获得数据集中每个样本的分数。分类器预测的对数概率用作选择标准。

数据集信息

特征：
- path：字符串
- owner：字符串
- repo_id：int64
- is_fork：布尔值
- languages_distribution：字符串
- content：字符串
- issues：float64
- main_language：字符串
- forks：int64
- stars：int64
- commit_sha：字符串
- size：int64
- name：字符串
- license：字符串
分割：
- train：75063445字节，25000个样本
下载大小：29298620字节
数据集大小：75063445字节
配置：
- default：
  - train：data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集