chargoddard/commitpack-ft-instruct-rated
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chargoddard/commitpack-ft-instruct-rated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Octocode的CommitPackFT派生而来,并通过本地模型对指令-响应对进行了质量分析。数据集主要包含代码相关的指令和响应,且所有条目都应适应4096个标记的上下文窗口。数据集的默认配置中,Ruby、Python和JavaScript是最常见的语言。每个样本都来自具有宽松许可证的代码仓库,许可证信息在样本的`license`字段中提供。
提供机构:
chargoddard
原始信息汇总
数据集概述
数据集配置
配置 adequately_rated
- 特征:
id: stringrating: structanalysis: stringjudge: stringscore: int64
language: stringlicense: stringinstruction: stringoutput: stringinput: string
- 分割:
train:num_bytes: 502380874.99241877num_examples: 231589
- 下载大小: 233165301
- 数据集大小: 502380874.99241877
配置 best_rated
- 特征:
id: stringrating: structanalysis: stringjudge: stringscore: int64
language: stringlicense: stringinstruction: stringoutput: stringinput: string
- 分割:
train:num_bytes: 7807230.779949458num_examples: 3599
- 下载大小: 3443289
- 数据集大小: 7807230.779949458
配置 default
- 特征:
id: stringrating: structanalysis: stringjudge: stringscore: int64
language: stringlicense: stringinstruction: stringoutput: stringinput: string
- 分割:
train:num_bytes: 668703742num_examples: 308261
- 下载大小: 306198304
- 数据集大小: 668703742
配置 ratings_only
- 特征:
success: boolscore: int64response: stringid: string
- 分割:
train:num_bytes: 124887856num_examples: 308261
- 下载大小: 58208563
- 数据集大小: 124887856
配置 worst_rated
- 特征:
id: stringrating: structanalysis: stringjudge: stringscore: int64
language: stringlicense: stringinstruction: stringoutput: stringinput: string
- 分割:
train:num_bytes: 10393009.91018001num_examples: 4791
- 下载大小: 4676994
- 数据集大小: 10393009.91018001
数据文件路径
- adequately_rated: adequately_rated/train-*
- best_rated: best_rated/train-*
- default: data/train-*
- ratings_only: ratings_only/train-*
- worst_rated: worst_rated/train-*
语言
- en
标签
- code
大小分类
- 100K<n<1M



