five

bigcode/commitpack-subset-cf

收藏
Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/commitpack-subset-cf
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是CommitPack的一个子集,用于在OctoPack论文中预训练SantaCoderPack。它关注的是代码前后加上特殊标记后能够适应8192个token的数据,并且涉及6种编程语言。数据格式为commit格式,包含代码前后和提交信息。

该数据集是CommitPack的一个子集,用于在OctoPack论文中预训练SantaCoderPack。它关注的是代码前后加上特殊标记后能够适应8192个token的数据,并且涉及6种编程语言。数据格式为commit格式,包含代码前后和提交信息。
提供机构:
bigcode
原始信息汇总

数据集概述

数据来源

本数据集是CommitPack的一个子集,用于预训练SantaCoderPack

数据特点

  • 数据筛选标准:代码段(包括前代码、特殊标记、后代码)总长度不超过8192个tokens。
  • 语言范围:涵盖6种编程语言。

数据格式

数据以提交格式(cf)存储,具体结构如下:

<commit_before>code_before<commit_message>commit_message<commit_after>code_after

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作