five

DrChamyoung/Quinbeta5.2DataSets

收藏
Hugging Face2024-07-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DrChamyoung/Quinbeta5.2DataSets
下载链接
链接失效反馈
官方服务:
资源简介:
Quindataset5.1是一个高质量、大规模的编码数据集,专门用于训练编码模型。它包含超过8亿个独特的编码数据标记,支持100多种编程语言。数据集的创建过程包括从Huggingface下载各个数据集,使用Meta.ai生成代码以提取数据并将其转换为Alpaca格式,添加指令,将所有数据集组合成一个单一的数据集,并应用Claude.ai生成代码进行去重和去审查。数据集中包含的编程语言及其频率和百分比也在文件中详细列出。

Quindataset5.1是一个高质量、大规模的编码数据集,专门用于训练编码模型。它包含超过8亿个独特的编码数据标记,支持100多种编程语言。数据集的创建过程包括从Huggingface下载各个数据集,使用Meta.ai生成代码以提取数据并将其转换为Alpaca格式,添加指令,将所有数据集组合成一个单一的数据集,并应用Claude.ai生成代码进行去重和去审查。数据集中包含的编程语言及其频率和百分比也在文件中详细列出。
提供机构:
DrChamyoung
原始信息汇总

Quindataset5.1

概述

Quindataset5.1 是一个高质量、大规模的编码数据集,专门用于训练编码模型。该数据集包含超过 8 亿个独特的编码数据标记,支持超过 100 种编程语言,为模型训练和微调提供了广泛的资源。

关键特性

  • 数据量: 8 亿个独特的编码数据标记
  • 行数: 超过 320 万行高质量代码
  • 标记限制: 每行最多 10,000 个标记
  • 语言支持: 支持 100 多种编程语言

创建过程

数据收集

  • 从 Huggingface 上的各种来源下载了单独的数据集。

数据提取

  • 使用 Meta.ai 生成代码来提取数据并将其转换为 Alpaca 格式。
  • 在此过程中,大多数数据都添加了指令。

数据合并

  • 使用相同的提取方法将所有单独的数据集合并为一个数据集。

去重和解封

  • 使用 Claude.ai 生成代码进行去重和解封。
  • 注意:glaiveai/glaive-function-calling-v2 数据集未解封,因为它用于函数调用,模型有时必须拒绝不正确的函数调用。

支持的语言

该数据集支持多种编程语言。以下是包含的语言及其在数据集中的频率和百分比:

语言 频率 百分比
python 1311720 3.29%
c 1975101 4.95%
self 923505 2.31%
java 631756 1.58%
javascript 589796 1.48%
ruby 562800 1.41%
sql 527178 1.32%
go 488987 1.23%
bash 461695 1.16%
rust 455318 1.14%
typescript 377306 0.95%
julia 357836 0.90%
clean 297606 0.75%
q 284196 0.71%
php 226355 0.57%
io 154093 0.39%
xml 138704 0.35%
red 105092 0.26%
factor 95553 0.24%
assembly 86287 0.22%
alice 82390 0.21%
blue 73990 0.19%
shell 57488 0.14%
dart 54459 0.14%
curl 53624 0.13%
swift 49298 0.12%
scala 45305 0.11%
icon 44932 0.11%
batch 43222 0.11%
inform 42218 0.11%
clojure 40807 0.10%
scheme 39851 0.10%
perl 39366 0.10%
verilog 37458 0.09%
bc 37017 0.09%
lua 36977 0.09%
sas 33938 0.09%
powershell 33766 0.08%
haskell 33054 0.08%
kotlin 32468 0.08%
elixir 32400 0.08%
fortran 31288 0.08%
erlang 29807 0.07%
lisp 28644 0.07%
vhdl 28002 0.07%
abc 26873 0.07%
ml 24625 0.06%
tcl 23951 0.06%
zig 22801 0.06%
sed 22645 0.06%
xslt 19771 0.05%
latex 19566 0.05%
ring 18498 0.05%
racket 18396 0.05%
groovy 17520 0.04%
whitespace 15258 0.04%
ocaml 15184 0.04%
logo 14739 0.04%
sol 13969 0.04%
spark 13751 0.03%
matlab 12689 0.03%
delphi 12688 0.03%
scratch 12461 0.03%
stata 11721 0.03%
gap 10940 0.03%
pascal 9735 0.02%
llvm 9534 0.02%
objective-c 9359 0.02%
forth 7683 0.02%
tex 7233 0.02%
common lisp 6954 0.02%
smalltalk 6813 0.02%
visual basic 6509 0.02%
prolog 6284 0.02%
c++ 5946 0.02%
mathematica 5524 0.01%
emacs lisp 5288 0.01%
ada 3459 0.01%
webassembly 3320 0.01%
jade 3084 0.01%
mercury 2808 0.01%
gml 2794 0.01%
squirrel 2773 0.01%
clips 2744 0.01%
coffeescript 2546 0.01%
arduino 2390 0.01%
dylan 2266 0.01%
eiffel 2263 0.01%
cocoa 2193 0.01%
opencl 2190 0.01%
slip 2096 0.01%
m4 2082 0.01%
idris 474 0.01%
purescript 345 0.01%
c# 396 0.01%

如需详细了解数据集的组成和每种语言的比例,请参阅数据集的完整模型卡。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作