five

bigcode/commitpackft

收藏
Hugging Face2023-08-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/commitpackft
下载链接
链接失效反馈
资源简介:
CommitPackFT是CommitPack的过滤版本,大小为2GB,仅包含高质量的提交消息,这些消息类似于自然语言指令。数据集包含277种语言,可以通过提供的GitHub链接进行重现。数据集的实例包括提交ID、文件名称、文件内容、提交主题、提交消息、编程语言、许可证信息和代码来源的仓库名称。数据集的结构包括数据实例、数据字段和数据分割信息。

CommitPackFT是CommitPack的过滤版本,大小为2GB,仅包含高质量的提交消息,这些消息类似于自然语言指令。数据集包含277种语言,可以通过提供的GitHub链接进行重现。数据集的实例包括提交ID、文件名称、文件内容、提交主题、提交消息、编程语言、许可证信息和代码来源的仓库名称。数据集的结构包括数据实例、数据字段和数据分割信息。
提供机构:
bigcode
原始信息汇总

数据集卡片 for CommitPackFT

数据集描述

  • 数据集概述: CommitPackFT 是一个 2GB 的过滤版本数据集,源自 CommitPack,仅包含高质量的提交信息,这些信息类似于自然语言指令。
  • 创建方式: 数据集可以通过这里提供的指令重新创建。
  • 语言数量: 277 种

数据集结构

数据实例

一个示例数据如下:

json { "commit": "0c17311f7fd511f5dae8f8e4acc2dce1a2de3cf5", "old_file": "main.py", "new_file": "main.py", "old_contents": "import numpy as np import matplotlib.pyplot as plt

generate sample data

x_data = np.linspace(-5, 5, 20) y_data = np.random.normal(0.0, 1.0, x_data.size)

plt.plot(x_data, y_data, o) plt.show() ", "new_contents": "import math import numpy as np import matplotlib.pyplot as plt

generate sample data

x_data = np.linspace(-math.pi, math.pi, 30) y_data = np.sin(x_data) + np.random.normal(0.0, 0.1, x_data.size)

plt.plot(x_data, y_data, o) plt.show()

", "subject": "Change to sin() function with noise", "message": "Change to sin() function with noise ", "lang": "Python", "license": "mit", "repos": "MorganR/basic-gaussian-process" }

数据字段

所有分割的数据字段相同:

  • commit: 唯一的提交 ID
  • old_file: 提交前的文件名
  • new_file: 提交后的文件名
  • old_contents: 提交前的文件内容
  • new_contents: 提交后的文件内容
  • subject: 提交的主题(用于论文中的所有实验)
  • message: 提交信息(通常与主题相同)
  • lang: 编程语言
  • license: 代码来源仓库的许可证,可选值包括 [mit, artistic-2.0, isc, cc0-1.0, epl-1.0, mpl-2.0, unlicense, unknown, apache-2.0, bsd-3-clause, agpl-3.0, lgpl-2.1, bsd-2-clause]
  • repos: 代码来源的仓库名称(如果有多个,以逗号分隔)

数据分割

名称 兆字节 占总量的百分比 样本数 占总量的百分比
total 1545.02 100.0% 702062 100.0%
ruby 195.292 12.6401% 69413 9.887%
yaml 190.876 12.3543% 114320 16.2835%
python 132.68 8.5876% 56025 7.9801%
markdown 131.152 8.4887% 62518 8.9049%
javascript 125.008 8.091% 52989 7.5476%
json 86.744 5.6144% 39777 5.6657%
shell 66.864 4.3277% 31217 4.4465%
text 66.664 4.3148% 46588 6.6359%
php 60.22 3.8977% 24791 3.5312%
java 56.284 3.6429% 20635 2.9392%
html 48.42 3.1339% 20214 2.8792%
c# 26.84 1.7372% 9346 1.3312%
xml 23.676 1.5324% 9337 1.3299%
html+erb 23.104 1.4954% 10910 1.554%
c 21.08 1.3644% 8506 1.2116%
ini 21.04 1.3618% 11360 1.6181%
coffeescript 16.96 1.0977% 5513 0.7853%
swift 16.272 1.0532% 4849 0.6907%
restructuredtext 15.728 1.018% 6560 0.9344%
typescript 14.284 0.9245% 5868 0.8358%
c++ 14.136 0.9149% 4992 0.711%
scss 13.208 0.8549% 6829 0.9727%
go 12.132 0.7852% 5004 0.7128%
scala 11.184 0.7239% 5040 0.7179%
haml 10.74 0.6951% 4415 0.6289%
css 9.364 0.6061% 5049 0.7192%
rust 7.244 0.4689% 2996 0.4267%
toml 5.584 0.3614% 3424 0.4877%
jsx 5.5 0.356% 2199 0.3132%
kotlin 5.368 0.3474% 2214 0.3154%
clojure 5.068 0.328% 2403 0.3423%
perl 4.988 0.3228% 2288 0.3259%
bitbake 4.464 0.2889% 1308 0.1863%
groovy 4.168 0.2698% 1486 0.2117%
twig 3.956 0.256% 1610 0.2293%
nix 3.84 0.2485% 1593 0.2269%
sql 3.74 0.2421% 2069 0.2947%
less 3.724 0.241% 1360 0.1937%
haskell 3.308 0.2141% 1389 0.1978%
handlebars 3.292 0.2131% 1429 0.2035%
unknown 3.048 0.1973% 1597 0.2275%
batchfile 2.984 0.1931% 1466 0.2088%
cucumber 2.588 0.1675% 976 0.139%
makefile 2.528 0.1636% 960 0.1367%
elixir 2.348 0.152% 1150 0.1638%
jade 2.348 0.152% 1119 0.1594%
cmake 2.268 0.1468% 981 0.1397%
powershell 2.064 0.1336% 991 0.1412%
slim 2.056 0.1331% 1052 0.1498%
emacs-lisp 1.972 0.1276% 1015 0.1446%
dart 1.96 0.1269% 765 0.109%
viml 1.956 0.1266% 1063 0.1514%
asciidoc 1.864 0.1206% 523 0.0745%
lua 1.852 0.1199% 920 0.131%
llvm 1.6 0.1036% 780 0.1111%
smarty 1.588 0.1028% 737 0.105%
diff 1.48 0.0958% 680 0.0969%
common-lisp 1.448 0.0937% 778 0.1108%
saltstack 1.412 0.0914% 617 0.0879%
vue 1.384 0.0896% 587 0.0836%
sass 1.364 0.0883% 705 0.1004%
fish 1.328 0.086% 813 0.1158%
erlang 1.192 0.0772% 480 0.0684%
freemarker 1.028 0.0665% 510 0.0726%
stylus 0.948 0.0614% 480 0.0684%
qml 0.936 0.0606% 368 0.0524%
hcl 0.912 0.059% 421 0.06%
html+django 0.848 0.0549% 399 0.0568%
mako 0.756 0.0489% 170 0.0242%
ada 0.728 0.0471% 265 0.0377%
ocaml 0.704 0.0456% 333 0.0474%
f# 0.656 0.0425% 254 0.0362%
elm 0.62 0.0401% 265 0.0377%
tex 0.564 0.0365% 307 0.0437%
rdoc 0.552 0.0357% 270 0.0385%
csv 0.532 0.0344% 375 0.0534%
protocol-buffer 0.524 0.0339% 181 0.0258%
smalltalk 0.46 0.0298% 284 0.0405%
arduino 0.456 0.0295% 225 0.032%
java-server-pages 0.452 0.0293% 173 0.0246%
scheme 0.42 0.0272% 213 0.0303%
groff 0.396 0.0256% 192 0.0273%
objective-c++ 0.376 0.0243%
搜集汇总
数据集介绍
main_image_url
构建方式
CommitPackFT 数据集是对 CommitPack 数据集的筛选版本,仅包含高质量且类似自然语言指令的提交信息。构建过程包括从 GitHub 获取大量代码提交数据,然后通过筛选和过滤,保留那些高质量的提交信息,以便用于训练和评估代码大型语言模型。数据集的构建过程中,还使用了 OctoPack 工具进行数据处理,以确保数据的质量和一致性。
特点
CommitPackFT 数据集具有以下特点:1. 数据质量高,仅包含高质量的提交信息;2. 数据量庞大,包含超过 70 万个样本;3. 数据多样性丰富,涵盖了 277 种编程语言;4. 数据结构清晰,每个样本都包含提交 ID、文件名、文件内容、提交主题、提交消息、编程语言、许可证和代码仓库等信息。
使用方法
使用 CommitPackFT 数据集进行代码大型语言模型的训练和评估。具体使用方法如下:1. 下载 CommitPackFT 数据集;2. 使用数据集中的高质量提交信息进行代码大型语言模型的训练;3. 使用数据集中的样本进行代码大型语言模型的评估;4. 根据评估结果,对代码大型语言模型进行进一步的优化和改进。
背景与挑战
背景概述
在当代计算机科学领域,代码生成与理解是自然语言处理与编程语言研究的关键议题。CommitPackFT数据集正是为解决这一问题而创建的,它是一个由bigcode项目团队基于GitHub提交记录构建的高质量代码数据集,旨在为代码语言模型的指令微调提供基础。该数据集创建于2023年,由Niklas Muennighoff等人领导,是OctoPack项目的一部分,旨在通过过滤和筛选,提供高质量的、类似自然语言指令的代码提交信息。CommitPackFT数据集包含277种编程语言的高质量提交信息,对于提升代码语言模型的理解和生成能力具有重要意义,并对自然语言处理领域产生了深远的影响。
当前挑战
CommitPackFT数据集面临的主要挑战包括:1)数据筛选与质量保证的挑战,需要确保数据集中包含的提交信息都是高质量的、具有实际应用价值的指令性描述;2)跨语言处理的挑战,由于数据集涵盖了大量的编程语言,如何有效地处理跨语言信息,提高模型对不同编程语言的理解和生成能力是一个重要问题;3)数据集规模的挑战,虽然CommitPackFT已经是一个2GB的过滤版本,但如何进一步优化数据集,使其更适合于模型训练,同时保持数据的全面性和多样性,是一个值得探讨的问题。
常用场景
经典使用场景
CommitPackFT数据集在自然语言处理和代码生成领域具有广泛的应用。其最经典的使用场景之一是用于训练和评估代码生成模型。通过提供高质量的提交信息,该数据集有助于提高模型在理解和生成代码方面的能力。此外,CommitPackFT还常用于研究代码理解和代码补全任务,为研究人员提供了丰富的实验数据和基准。
实际应用
CommitPackFT数据集在实际应用中具有广泛的应用场景。例如,它可以帮助开发人员自动生成代码,提高开发效率。此外,该数据集还可以用于代码补全和代码重构任务,帮助开发人员快速修复代码错误和优化代码结构。此外,CommitPackFT还可以用于构建智能编程助手,为开发人员提供实时的代码建议和指导。
衍生相关工作
CommitPackFT数据集衍生了许多相关的研究工作。例如,基于CommitPackFT数据集,研究人员开发了OctoCoder和OctoGeeX等代码生成模型,这些模型在代码生成和代码理解任务上取得了显著的成果。此外,CommitPackFT还促进了代码生成和代码理解领域的研究,推动了相关技术和应用的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作