five

rombodawg/LimitlessCodeTraining_Guanaco_Format

收藏
Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LimitlessCodeTraining_Guanaco_Format
下载链接
链接失效反馈
官方服务:
资源简介:
LimitlessCodeTraining数据集是Megacodetraining的直接续集,现称为Legacy_MegaCodeTraining200k。该数据集包含超过646k行的纯代码数据,代表了开源代码训练的巅峰。它结合了由shahules786过滤的Megacode训练数据集和转换为alpaca格式的bigcode commitpackft数据集。
提供机构:
rombodawg
原始信息汇总

LimitlessCodeTraining 数据集

概述

LimitlessCodeTraining 数据集是 Megacodetraining 的直接续集,现称为 Legacy_MegaCodeTraining200k。该数据集包含超过 646,000 行纯精炼的编码数据,代表了开源代码训练的巅峰。

数据来源

该数据集结合了以下两个数据集:

  1. 经过 shahules786 过滤的 Megacode 训练数据集。
  2. bigcode commitpackft 数据集,已转换为 alpaca 格式。

相关链接

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作