five

chargoddard/commitpack-ft-instruct

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chargoddard/commitpack-ft-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
CommitPackFT数据集由Octocode提供,采用Alpaca instruction格式,包含多种编程语言的代码差异,旨在通过随机选择的自然语言预述使提交消息更接近用户请求。数据集主要用于训练大型语言模型,以理解和生成代码更改。数据集包含id、language、license等特征,以及instruction、input和output字段。数据集分为训练集,大小为813842543字节,包含491119个样本。数据集的下载大小为390498760字节。数据集中的语言包括YAML、Ruby、Markdown等,每种语言的指令数量和占比也有详细说明。此外,数据集中的每个样本都来自具有许可的代码仓库,许可信息通过license字段提供。

CommitPackFT数据集由Octocode提供,采用Alpaca instruction格式,包含多种编程语言的代码差异,旨在通过随机选择的自然语言预述使提交消息更接近用户请求。数据集主要用于训练大型语言模型,以理解和生成代码更改。数据集包含id、language、license等特征,以及instruction、input和output字段。数据集分为训练集,大小为813842543字节,包含491119个样本。数据集的下载大小为390498760字节。数据集中的语言包括YAML、Ruby、Markdown等,每种语言的指令数量和占比也有详细说明。此外,数据集中的每个样本都来自具有许可的代码仓库,许可信息通过license字段提供。
提供机构:
chargoddard
原始信息汇总

数据集概述

数据集特征

  • id: 字符串类型
  • language: 字符串类型
  • license: 字符串类型
  • instruction: 字符串类型
  • output: 字符串类型
  • input: 字符串类型

数据分割

  • train: 包含 491119 个样本,总字节数为 813842543

数据集大小

  • 下载大小: 390498760 字节
  • 数据集大小: 813842543 字节

配置

  • default: 包含训练数据文件,路径为 data/train-*

语言

  • 支持语言: 英语 (en)

标签

  • code

大小类别

  • 100K<n<1M

语言组成

语言 指令数量 指令百分比
YAML 114320 23.28%
Ruby 69413 14.13%
Markdown 62518 12.73%
Python 56025 11.41%
JavaScript 52989 10.79%
JSON 39777 8.1%
PHP 24791 5.05%
Java 20635 4.2%
C# 9346 1.9%
XML 9337 1.9%
C 8506 1.73%
TypeScript 5868 1.19%
C++ 4992 1.02%
Swift 4849 0.99%
Rust 2996 0.61%
Haskell 1389 0.28%
Emacs Lisp 1015 0.21%
Common Lisp 778 0.16%
Erlang 480 0.1%
OCaml 333 0.07%
Smalltalk 284 0.06%
Ada 265 0.05%
Scheme 213 0.04%

许可信息

  • 每个样本来自具有宽松许可证的代码仓库,许可证由每个样本的 license 字段提供。

引用信息

bibtex @article{muennighoff2023octopack, title={OctoPack: Instruction Tuning Code Large Language Models}, author={Niklas Muennighoff and Qian Liu and Armel Zebaze and Qinkai Zheng and Binyuan Hui and Terry Yue Zhuo and Swayam Singh and Xiangru Tang and Leandro von Werra and Shayne Longpre}, journal={arXiv preprint arXiv:2308.07124}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作