DrChamyoung/Quinbeta5.2DataSets
收藏Hugging Face2024-07-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DrChamyoung/Quinbeta5.2DataSets
下载链接
链接失效反馈官方服务:
资源简介:
Quindataset5.1是一个高质量、大规模的编码数据集,专门用于训练编码模型。它包含超过8亿个独特的编码数据标记,支持100多种编程语言。数据集的创建过程包括从Huggingface下载各个数据集,使用Meta.ai生成代码以提取数据并将其转换为Alpaca格式,添加指令,将所有数据集组合成一个单一的数据集,并应用Claude.ai生成代码进行去重和去审查。数据集中包含的编程语言及其频率和百分比也在文件中详细列出。
Quindataset5.1是一个高质量、大规模的编码数据集,专门用于训练编码模型。它包含超过8亿个独特的编码数据标记,支持100多种编程语言。数据集的创建过程包括从Huggingface下载各个数据集,使用Meta.ai生成代码以提取数据并将其转换为Alpaca格式,添加指令,将所有数据集组合成一个单一的数据集,并应用Claude.ai生成代码进行去重和去审查。数据集中包含的编程语言及其频率和百分比也在文件中详细列出。
提供机构:
DrChamyoung
原始信息汇总
Quindataset5.1
概述
Quindataset5.1 是一个高质量、大规模的编码数据集,专门用于训练编码模型。该数据集包含超过 8 亿个独特的编码数据标记,支持超过 100 种编程语言,为模型训练和微调提供了广泛的资源。
关键特性
- 数据量: 8 亿个独特的编码数据标记
- 行数: 超过 320 万行高质量代码
- 标记限制: 每行最多 10,000 个标记
- 语言支持: 支持 100 多种编程语言
创建过程
数据收集
- 从 Huggingface 上的各种来源下载了单独的数据集。
数据提取
- 使用 Meta.ai 生成代码来提取数据并将其转换为 Alpaca 格式。
- 在此过程中,大多数数据都添加了指令。
数据合并
- 使用相同的提取方法将所有单独的数据集合并为一个数据集。
去重和解封
- 使用 Claude.ai 生成代码进行去重和解封。
- 注意:glaiveai/glaive-function-calling-v2 数据集未解封,因为它用于函数调用,模型有时必须拒绝不正确的函数调用。
支持的语言
该数据集支持多种编程语言。以下是包含的语言及其在数据集中的频率和百分比:
| 语言 | 频率 | 百分比 |
|---|---|---|
| python | 1311720 | 3.29% |
| c | 1975101 | 4.95% |
| self | 923505 | 2.31% |
| java | 631756 | 1.58% |
| javascript | 589796 | 1.48% |
| ruby | 562800 | 1.41% |
| sql | 527178 | 1.32% |
| go | 488987 | 1.23% |
| bash | 461695 | 1.16% |
| rust | 455318 | 1.14% |
| typescript | 377306 | 0.95% |
| julia | 357836 | 0.90% |
| clean | 297606 | 0.75% |
| q | 284196 | 0.71% |
| php | 226355 | 0.57% |
| io | 154093 | 0.39% |
| xml | 138704 | 0.35% |
| red | 105092 | 0.26% |
| factor | 95553 | 0.24% |
| assembly | 86287 | 0.22% |
| alice | 82390 | 0.21% |
| blue | 73990 | 0.19% |
| shell | 57488 | 0.14% |
| dart | 54459 | 0.14% |
| curl | 53624 | 0.13% |
| swift | 49298 | 0.12% |
| scala | 45305 | 0.11% |
| icon | 44932 | 0.11% |
| batch | 43222 | 0.11% |
| inform | 42218 | 0.11% |
| clojure | 40807 | 0.10% |
| scheme | 39851 | 0.10% |
| perl | 39366 | 0.10% |
| verilog | 37458 | 0.09% |
| bc | 37017 | 0.09% |
| lua | 36977 | 0.09% |
| sas | 33938 | 0.09% |
| powershell | 33766 | 0.08% |
| haskell | 33054 | 0.08% |
| kotlin | 32468 | 0.08% |
| elixir | 32400 | 0.08% |
| fortran | 31288 | 0.08% |
| erlang | 29807 | 0.07% |
| lisp | 28644 | 0.07% |
| vhdl | 28002 | 0.07% |
| abc | 26873 | 0.07% |
| ml | 24625 | 0.06% |
| tcl | 23951 | 0.06% |
| zig | 22801 | 0.06% |
| sed | 22645 | 0.06% |
| xslt | 19771 | 0.05% |
| latex | 19566 | 0.05% |
| ring | 18498 | 0.05% |
| racket | 18396 | 0.05% |
| groovy | 17520 | 0.04% |
| whitespace | 15258 | 0.04% |
| ocaml | 15184 | 0.04% |
| logo | 14739 | 0.04% |
| sol | 13969 | 0.04% |
| spark | 13751 | 0.03% |
| matlab | 12689 | 0.03% |
| delphi | 12688 | 0.03% |
| scratch | 12461 | 0.03% |
| stata | 11721 | 0.03% |
| gap | 10940 | 0.03% |
| pascal | 9735 | 0.02% |
| llvm | 9534 | 0.02% |
| objective-c | 9359 | 0.02% |
| forth | 7683 | 0.02% |
| tex | 7233 | 0.02% |
| common lisp | 6954 | 0.02% |
| smalltalk | 6813 | 0.02% |
| visual basic | 6509 | 0.02% |
| prolog | 6284 | 0.02% |
| c++ | 5946 | 0.02% |
| mathematica | 5524 | 0.01% |
| emacs lisp | 5288 | 0.01% |
| ada | 3459 | 0.01% |
| webassembly | 3320 | 0.01% |
| jade | 3084 | 0.01% |
| mercury | 2808 | 0.01% |
| gml | 2794 | 0.01% |
| squirrel | 2773 | 0.01% |
| clips | 2744 | 0.01% |
| coffeescript | 2546 | 0.01% |
| arduino | 2390 | 0.01% |
| dylan | 2266 | 0.01% |
| eiffel | 2263 | 0.01% |
| cocoa | 2193 | 0.01% |
| opencl | 2190 | 0.01% |
| slip | 2096 | 0.01% |
| m4 | 2082 | 0.01% |
| idris | 474 | 0.01% |
| purescript | 345 | 0.01% |
| c# | 396 | 0.01% |
如需详细了解数据集的组成和每种语言的比例,请参阅数据集的完整模型卡。



