bigcode/commitpack-subset-cf
收藏Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/commitpack-subset-cf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是CommitPack的一个子集,用于在OctoPack论文中预训练SantaCoderPack。它关注的是代码前后加上特殊标记后能够适应8192个token的数据,并且涉及6种编程语言。数据格式为commit格式,包含代码前后和提交信息。
该数据集是CommitPack的一个子集,用于在OctoPack论文中预训练SantaCoderPack。它关注的是代码前后加上特殊标记后能够适应8192个token的数据,并且涉及6种编程语言。数据格式为commit格式,包含代码前后和提交信息。
提供机构:
bigcode
原始信息汇总
数据集概述
数据来源
本数据集是CommitPack的一个子集,用于预训练SantaCoderPack。
数据特点
- 数据筛选标准:代码段(包括前代码、特殊标记、后代码)总长度不超过8192个tokens。
- 语言范围:涵盖6种编程语言。
数据格式
数据以提交格式(cf)存储,具体结构如下:
<commit_before>code_before<commit_message>commit_message<commit_after>code_after



