rombodawg/LosslessMegaCodeTrainingV3_Tiny
收藏Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV3_Tiny
下载链接
链接失效反馈官方服务:
资源简介:
这是LosslessMegacodeTraining系列的一个新版本和实验版本,类似于版本3,但仅使用了数据集中最精细的部分。数据集内容大约80%是编码指令数据,20%是非编码指令数据,总计650,000行evol指令格式的数据。包含20%非编码指令数据的目的是在训练编码模型时保留逻辑和推理能力,这是诸如Wizardcoder-15b和NewHope等编码模型存在的主要问题,但使用此数据集训练模型可以缓解这一问题,同时提供类似的编码知识水平。数据集是多个数据集的组合。
提供机构:
rombodawg
原始信息汇总
数据集概述
版本与内容
- 该数据集是LosslessMegacodeTraining系列的新版本和实验版本,类似于版本3,但仅使用数据集中最精细的部分。
- 数据集内容大致为80%的编程指令数据和20%的非编程指令数据,总计约650,000行指令格式的数据。
数据集目的
- 包含20%的非编程指令数据的目的是在模型训练编程时保留逻辑和推理技能。
- 缺乏这些技能已被观察到是编程模型(如Wizardcoder-15b和NewHope)的主要问题,但使用此数据集进行训练可以缓解这一问题,同时提供相似水平的编程知识。
数据集组成
- 该数据集由以下数据集组合而成:
- Platypus_Evol
- Rombodawgs_commitpackft_Evolinstruct_Converted
- airoboros-2.1_general_purpose
- megacode-best



