chargoddard/commitpack-ft-instruct
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chargoddard/commitpack-ft-instruct
下载链接
链接失效反馈官方服务:
资源简介:
CommitPackFT数据集由Octocode提供,采用Alpaca instruction格式,包含多种编程语言的代码差异,旨在通过随机选择的自然语言预述使提交消息更接近用户请求。数据集主要用于训练大型语言模型,以理解和生成代码更改。数据集包含id、language、license等特征,以及instruction、input和output字段。数据集分为训练集,大小为813842543字节,包含491119个样本。数据集的下载大小为390498760字节。数据集中的语言包括YAML、Ruby、Markdown等,每种语言的指令数量和占比也有详细说明。此外,数据集中的每个样本都来自具有许可的代码仓库,许可信息通过license字段提供。
CommitPackFT数据集由Octocode提供,采用Alpaca instruction格式,包含多种编程语言的代码差异,旨在通过随机选择的自然语言预述使提交消息更接近用户请求。数据集主要用于训练大型语言模型,以理解和生成代码更改。数据集包含id、language、license等特征,以及instruction、input和output字段。数据集分为训练集,大小为813842543字节,包含491119个样本。数据集的下载大小为390498760字节。数据集中的语言包括YAML、Ruby、Markdown等,每种语言的指令数量和占比也有详细说明。此外,数据集中的每个样本都来自具有许可的代码仓库,许可信息通过license字段提供。
提供机构:
chargoddard
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- language: 字符串类型
- license: 字符串类型
- instruction: 字符串类型
- output: 字符串类型
- input: 字符串类型
数据分割
- train: 包含 491119 个样本,总字节数为 813842543
数据集大小
- 下载大小: 390498760 字节
- 数据集大小: 813842543 字节
配置
- default: 包含训练数据文件,路径为
data/train-*
语言
- 支持语言: 英语 (en)
标签
- code
大小类别
- 100K<n<1M
语言组成
| 语言 | 指令数量 | 指令百分比 |
|---|---|---|
| YAML | 114320 | 23.28% |
| Ruby | 69413 | 14.13% |
| Markdown | 62518 | 12.73% |
| Python | 56025 | 11.41% |
| JavaScript | 52989 | 10.79% |
| JSON | 39777 | 8.1% |
| PHP | 24791 | 5.05% |
| Java | 20635 | 4.2% |
| C# | 9346 | 1.9% |
| XML | 9337 | 1.9% |
| C | 8506 | 1.73% |
| TypeScript | 5868 | 1.19% |
| C++ | 4992 | 1.02% |
| Swift | 4849 | 0.99% |
| Rust | 2996 | 0.61% |
| Haskell | 1389 | 0.28% |
| Emacs Lisp | 1015 | 0.21% |
| Common Lisp | 778 | 0.16% |
| Erlang | 480 | 0.1% |
| OCaml | 333 | 0.07% |
| Smalltalk | 284 | 0.06% |
| Ada | 265 | 0.05% |
| Scheme | 213 | 0.04% |
许可信息
- 每个样本来自具有宽松许可证的代码仓库,许可证由每个样本的
license字段提供。
引用信息
bibtex @article{muennighoff2023octopack, title={OctoPack: Instruction Tuning Code Large Language Models}, author={Niklas Muennighoff and Qian Liu and Armel Zebaze and Qinkai Zheng and Binyuan Hui and Terry Yue Zhuo and Swayam Singh and Xiangru Tang and Leandro von Werra and Shayne Longpre}, journal={arXiv preprint arXiv:2308.07124}, year={2023} }



