bigcode/commitpackft|代码提交数据集|数据分析数据集

hugging_face2023-08-20 更新2024-03-04 收录

代码提交

数据分析

下载链接：

https://hf-mirror.com/datasets/bigcode/commitpackft

下载链接

链接失效反馈

资源简介：

CommitPackFT是CommitPack的过滤版本，大小为2GB，仅包含高质量的提交消息，这些消息类似于自然语言指令。数据集包含277种语言，可以通过提供的GitHub链接进行重现。数据集的实例包括提交ID、文件名称、文件内容、提交主题、提交消息、编程语言、许可证信息和代码来源的仓库名称。数据集的结构包括数据实例、数据字段和数据分割信息。

提供机构：

bigcode

原始信息汇总

数据集卡片 for CommitPackFT

数据集描述

数据集概述: CommitPackFT 是一个 2GB 的过滤版本数据集，源自 CommitPack，仅包含高质量的提交信息，这些信息类似于自然语言指令。
创建方式: 数据集可以通过这里提供的指令重新创建。
语言数量: 277 种

数据集结构

数据实例

一个示例数据如下：

json { "commit": "0c17311f7fd511f5dae8f8e4acc2dce1a2de3cf5", "old_file": "main.py", "new_file": "main.py", "old_contents": "import numpy as np import matplotlib.pyplot as plt

generate sample data

x_data = np.linspace(-5, 5, 20) y_data = np.random.normal(0.0, 1.0, x_data.size)

plt.plot(x_data, y_data, o) plt.show() ", "new_contents": "import math import numpy as np import matplotlib.pyplot as plt

generate sample data

x_data = np.linspace(-math.pi, math.pi, 30) y_data = np.sin(x_data) + np.random.normal(0.0, 0.1, x_data.size)

plt.plot(x_data, y_data, o) plt.show()

", "subject": "Change to sin() function with noise", "message": "Change to sin() function with noise ", "lang": "Python", "license": "mit", "repos": "MorganR/basic-gaussian-process" }

数据字段

所有分割的数据字段相同：

commit: 唯一的提交 ID
old_file: 提交前的文件名
new_file: 提交后的文件名
old_contents: 提交前的文件内容
new_contents: 提交后的文件内容
subject: 提交的主题（用于论文中的所有实验）
message: 提交信息（通常与主题相同）
lang: 编程语言
license: 代码来源仓库的许可证，可选值包括 [mit, artistic-2.0, isc, cc0-1.0, epl-1.0, mpl-2.0, unlicense, unknown, apache-2.0, bsd-3-clause, agpl-3.0, lgpl-2.1, bsd-2-clause]
repos: 代码来源的仓库名称（如果有多个，以逗号分隔）

数据分割

名称	兆字节	占总量的百分比	样本数	占总量的百分比
total	1545.02	100.0%	702062	100.0%
ruby	195.292	12.6401%	69413	9.887%
yaml	190.876	12.3543%	114320	16.2835%
python	132.68	8.5876%	56025	7.9801%
markdown	131.152	8.4887%	62518	8.9049%
javascript	125.008	8.091%	52989	7.5476%
json	86.744	5.6144%	39777	5.6657%
shell	66.864	4.3277%	31217	4.4465%
text	66.664	4.3148%	46588	6.6359%
php	60.22	3.8977%	24791	3.5312%
java	56.284	3.6429%	20635	2.9392%
html	48.42	3.1339%	20214	2.8792%
c#	26.84	1.7372%	9346	1.3312%
xml	23.676	1.5324%	9337	1.3299%
html+erb	23.104	1.4954%	10910	1.554%
c	21.08	1.3644%	8506	1.2116%
ini	21.04	1.3618%	11360	1.6181%
coffeescript	16.96	1.0977%	5513	0.7853%
swift	16.272	1.0532%	4849	0.6907%
restructuredtext	15.728	1.018%	6560	0.9344%
typescript	14.284	0.9245%	5868	0.8358%
c++	14.136	0.9149%	4992	0.711%
scss	13.208	0.8549%	6829	0.9727%
go	12.132	0.7852%	5004	0.7128%
scala	11.184	0.7239%	5040	0.7179%
haml	10.74	0.6951%	4415	0.6289%
css	9.364	0.6061%	5049	0.7192%
rust	7.244	0.4689%	2996	0.4267%
toml	5.584	0.3614%	3424	0.4877%
jsx	5.5	0.356%	2199	0.3132%
kotlin	5.368	0.3474%	2214	0.3154%
clojure	5.068	0.328%	2403	0.3423%
perl	4.988	0.3228%	2288	0.3259%
bitbake	4.464	0.2889%	1308	0.1863%
groovy	4.168	0.2698%	1486	0.2117%
twig	3.956	0.256%	1610	0.2293%
nix	3.84	0.2485%	1593	0.2269%
sql	3.74	0.2421%	2069	0.2947%
less	3.724	0.241%	1360	0.1937%
haskell	3.308	0.2141%	1389	0.1978%
handlebars	3.292	0.2131%	1429	0.2035%
unknown	3.048	0.1973%	1597	0.2275%
batchfile	2.984	0.1931%	1466	0.2088%
cucumber	2.588	0.1675%	976	0.139%
makefile	2.528	0.1636%	960	0.1367%
elixir	2.348	0.152%	1150	0.1638%
jade	2.348	0.152%	1119	0.1594%
cmake	2.268	0.1468%	981	0.1397%
powershell	2.064	0.1336%	991	0.1412%
slim	2.056	0.1331%	1052	0.1498%
emacs-lisp	1.972	0.1276%	1015	0.1446%
dart	1.96	0.1269%	765	0.109%
viml	1.956	0.1266%	1063	0.1514%
asciidoc	1.864	0.1206%	523	0.0745%
lua	1.852	0.1199%	920	0.131%
llvm	1.6	0.1036%	780	0.1111%
smarty	1.588	0.1028%	737	0.105%
diff	1.48	0.0958%	680	0.0969%
common-lisp	1.448	0.0937%	778	0.1108%
saltstack	1.412	0.0914%	617	0.0879%
vue	1.384	0.0896%	587	0.0836%
sass	1.364	0.0883%	705	0.1004%
fish	1.328	0.086%	813	0.1158%
erlang	1.192	0.0772%	480	0.0684%
freemarker	1.028	0.0665%	510	0.0726%
stylus	0.948	0.0614%	480	0.0684%
qml	0.936	0.0606%	368	0.0524%
hcl	0.912	0.059%	421	0.06%
html+django	0.848	0.0549%	399	0.0568%
mako	0.756	0.0489%	170	0.0242%
ada	0.728	0.0471%	265	0.0377%
ocaml	0.704	0.0456%	333	0.0474%
f#	0.656	0.0425%	254	0.0362%
elm	0.62	0.0401%	265	0.0377%
tex	0.564	0.0365%	307	0.0437%
rdoc	0.552	0.0357%	270	0.0385%
csv	0.532	0.0344%	375	0.0534%
protocol-buffer	0.524	0.0339%	181	0.0258%
smalltalk	0.46	0.0298%	284	0.0405%
arduino	0.456	0.0295%	225	0.032%
java-server-pages	0.452	0.0293%	173	0.0246%
scheme	0.42	0.0272%	213	0.0303%
groff	0.396	0.0256%	192	0.0273%
objective-c++	0.376	0.0243%

AI搜集汇总

数据集介绍

构建方式

CommitPackFT 数据集是对 CommitPack 数据集的筛选版本，仅包含高质量且类似自然语言指令的提交信息。构建过程包括从 GitHub 获取大量代码提交数据，然后通过筛选和过滤，保留那些高质量的提交信息，以便用于训练和评估代码大型语言模型。数据集的构建过程中，还使用了 OctoPack 工具进行数据处理，以确保数据的质量和一致性。

特点

CommitPackFT 数据集具有以下特点：1. 数据质量高，仅包含高质量的提交信息；2. 数据量庞大，包含超过 70 万个样本；3. 数据多样性丰富，涵盖了 277 种编程语言；4. 数据结构清晰，每个样本都包含提交 ID、文件名、文件内容、提交主题、提交消息、编程语言、许可证和代码仓库等信息。

使用方法

使用 CommitPackFT 数据集进行代码大型语言模型的训练和评估。具体使用方法如下：1. 下载 CommitPackFT 数据集；2. 使用数据集中的高质量提交信息进行代码大型语言模型的训练；3. 使用数据集中的样本进行代码大型语言模型的评估；4. 根据评估结果，对代码大型语言模型进行进一步的优化和改进。

背景与挑战

背景概述

在当代计算机科学领域，代码生成与理解是自然语言处理与编程语言研究的关键议题。CommitPackFT数据集正是为解决这一问题而创建的，它是一个由bigcode项目团队基于GitHub提交记录构建的高质量代码数据集，旨在为代码语言模型的指令微调提供基础。该数据集创建于2023年，由Niklas Muennighoff等人领导，是OctoPack项目的一部分，旨在通过过滤和筛选，提供高质量的、类似自然语言指令的代码提交信息。CommitPackFT数据集包含277种编程语言的高质量提交信息，对于提升代码语言模型的理解和生成能力具有重要意义，并对自然语言处理领域产生了深远的影响。

当前挑战

CommitPackFT数据集面临的主要挑战包括：1)数据筛选与质量保证的挑战，需要确保数据集中包含的提交信息都是高质量的、具有实际应用价值的指令性描述；2)跨语言处理的挑战，由于数据集涵盖了大量的编程语言，如何有效地处理跨语言信息，提高模型对不同编程语言的理解和生成能力是一个重要问题；3)数据集规模的挑战，虽然CommitPackFT已经是一个2GB的过滤版本，但如何进一步优化数据集，使其更适合于模型训练，同时保持数据的全面性和多样性，是一个值得探讨的问题。

常用场景

经典使用场景

CommitPackFT数据集在自然语言处理和代码生成领域具有广泛的应用。其最经典的使用场景之一是用于训练和评估代码生成模型。通过提供高质量的提交信息，该数据集有助于提高模型在理解和生成代码方面的能力。此外，CommitPackFT还常用于研究代码理解和代码补全任务，为研究人员提供了丰富的实验数据和基准。

实际应用

CommitPackFT数据集在实际应用中具有广泛的应用场景。例如，它可以帮助开发人员自动生成代码，提高开发效率。此外，该数据集还可以用于代码补全和代码重构任务，帮助开发人员快速修复代码错误和优化代码结构。此外，CommitPackFT还可以用于构建智能编程助手，为开发人员提供实时的代码建议和指导。

衍生相关工作

CommitPackFT数据集衍生了许多相关的研究工作。例如，基于CommitPackFT数据集，研究人员开发了OctoCoder和OctoGeeX等代码生成模型，这些模型在代码生成和代码理解任务上取得了显著的成果。此外，CommitPackFT还促进了代码生成和代码理解领域的研究，推动了相关技术和应用的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局（NASA）发布的卫星数据集，主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据，用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录