rombodawg/LimitlessCodeTraining_Guanaco_Format
收藏Hugging Face2023-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LimitlessCodeTraining_Guanaco_Format
下载链接
链接失效反馈官方服务:
资源简介:
LimitlessCodeTraining数据集是Megacodetraining的直接续集,现称为Legacy_MegaCodeTraining200k。该数据集包含超过646k行的纯代码数据,代表了开源代码训练的巅峰。它结合了由shahules786过滤的Megacode训练数据集和转换为alpaca格式的bigcode commitpackft数据集。
提供机构:
rombodawg
原始信息汇总
LimitlessCodeTraining 数据集
概述
LimitlessCodeTraining 数据集是 Megacodetraining 的直接续集,现称为 Legacy_MegaCodeTraining200k。该数据集包含超过 646,000 行纯精炼的编码数据,代表了开源代码训练的巅峰。
数据来源
该数据集结合了以下两个数据集:
- 经过 shahules786 过滤的 Megacode 训练数据集。
- bigcode commitpackft 数据集,已转换为 alpaca 格式。



