DrChamyoung/Quinbeta5.2DataSets

Name: DrChamyoung/Quinbeta5.2DataSets
Creator: DrChamyoung
Published: 2024-07-15 16:48:54
License: 暂无描述

Hugging Face2024-07-15 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/DrChamyoung/Quinbeta5.2DataSets

下载链接

链接失效反馈

官方服务：

资源简介：

Quindataset5.1是一个高质量、大规模的编码数据集，专门用于训练编码模型。它包含超过8亿个独特的编码数据标记，支持100多种编程语言。数据集的创建过程包括从Huggingface下载各个数据集，使用Meta.ai生成代码以提取数据并将其转换为Alpaca格式，添加指令，将所有数据集组合成一个单一的数据集，并应用Claude.ai生成代码进行去重和去审查。数据集中包含的编程语言及其频率和百分比也在文件中详细列出。

提供机构：

DrChamyoung

原始信息汇总

Quindataset5.1

概述

Quindataset5.1 是一个高质量、大规模的编码数据集，专门用于训练编码模型。该数据集包含超过 8 亿个独特的编码数据标记，支持超过 100 种编程语言，为模型训练和微调提供了广泛的资源。

关键特性

数据量: 8 亿个独特的编码数据标记
行数: 超过 320 万行高质量代码
标记限制: 每行最多 10,000 个标记
语言支持: 支持 100 多种编程语言

创建过程

数据收集

从 Huggingface 上的各种来源下载了单独的数据集。

数据提取

使用 Meta.ai 生成代码来提取数据并将其转换为 Alpaca 格式。
在此过程中，大多数数据都添加了指令。

数据合并

使用相同的提取方法将所有单独的数据集合并为一个数据集。

去重和解封

使用 Claude.ai 生成代码进行去重和解封。
注意：glaiveai/glaive-function-calling-v2 数据集未解封，因为它用于函数调用，模型有时必须拒绝不正确的函数调用。

支持的语言

该数据集支持多种编程语言。以下是包含的语言及其在数据集中的频率和百分比：

语言	频率	百分比
python	1311720	3.29%
c	1975101	4.95%
self	923505	2.31%
java	631756	1.58%
javascript	589796	1.48%
ruby	562800	1.41%
sql	527178	1.32%
go	488987	1.23%
bash	461695	1.16%
rust	455318	1.14%
typescript	377306	0.95%
julia	357836	0.90%
clean	297606	0.75%
q	284196	0.71%
php	226355	0.57%
io	154093	0.39%
xml	138704	0.35%
red	105092	0.26%
factor	95553	0.24%
assembly	86287	0.22%
alice	82390	0.21%
blue	73990	0.19%
shell	57488	0.14%
dart	54459	0.14%
curl	53624	0.13%
swift	49298	0.12%
scala	45305	0.11%
icon	44932	0.11%
batch	43222	0.11%
inform	42218	0.11%
clojure	40807	0.10%
scheme	39851	0.10%
perl	39366	0.10%
verilog	37458	0.09%
bc	37017	0.09%
lua	36977	0.09%
sas	33938	0.09%
powershell	33766	0.08%
haskell	33054	0.08%
kotlin	32468	0.08%
elixir	32400	0.08%
fortran	31288	0.08%
erlang	29807	0.07%
lisp	28644	0.07%
vhdl	28002	0.07%
abc	26873	0.07%
ml	24625	0.06%
tcl	23951	0.06%
zig	22801	0.06%
sed	22645	0.06%
xslt	19771	0.05%
latex	19566	0.05%
ring	18498	0.05%
racket	18396	0.05%
groovy	17520	0.04%
whitespace	15258	0.04%
ocaml	15184	0.04%
logo	14739	0.04%
sol	13969	0.04%
spark	13751	0.03%
matlab	12689	0.03%
delphi	12688	0.03%
scratch	12461	0.03%
stata	11721	0.03%
gap	10940	0.03%
pascal	9735	0.02%
llvm	9534	0.02%
objective-c	9359	0.02%
forth	7683	0.02%
tex	7233	0.02%
common lisp	6954	0.02%
smalltalk	6813	0.02%
visual basic	6509	0.02%
prolog	6284	0.02%
c++	5946	0.02%
mathematica	5524	0.01%
emacs lisp	5288	0.01%
ada	3459	0.01%
webassembly	3320	0.01%
jade	3084	0.01%
mercury	2808	0.01%
gml	2794	0.01%
squirrel	2773	0.01%
clips	2744	0.01%
coffeescript	2546	0.01%
arduino	2390	0.01%
dylan	2266	0.01%
eiffel	2263	0.01%
cocoa	2193	0.01%
opencl	2190	0.01%
slip	2096	0.01%
m4	2082	0.01%
idris	474	0.01%
purescript	345	0.01%
c#	396	0.01%

如需详细了解数据集的组成和每种语言的比例，请参阅数据集的完整模型卡。

5,000+

优质数据集

54 个

任务类型

进入经典数据集