rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol
收藏Hugging Face2023-10-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练AI模型的代码数据集,旨在确保模型在训练过程中不会失去其已有的逻辑能力。数据集包含50%的编码指令数据和50%的非编码指令数据,总计150万行数据。这种设计是为了在训练编码能力的同时,保留模型的逻辑和推理能力。数据集结合了多个来源的数据,并进行了去重和去审查处理。
许可证:其他
本数据集为顶级代码训练数据,旨在实现无损训练,确保AI模型在基于本数据集完成训练后,不会丢失此前已掌握的任意能力,例如逻辑推理技能。本数据集规模庞大的原因在于,需确保模型在学习代码编写的过程中,仍能牢记遵循常规指令,避免遗忘此前习得的能力。本数据集凝聚了我在数据采集、AI模型测试,以及探究代码模型性能优劣的成因与优化路径等方面的全部工作成果。
本数据集内容约50%为代码指令数据,50%为非代码指令数据,总计包含150万条采用Evol指令格式(evol instruction-formatted)的训练数据行。
在数据集中加入50%非代码指令数据的目的,是在模型进行代码训练的过程中,保留其逻辑推理与思考能力。此前已有观测显示,诸如WizardCoder-15B与NewHope这类代码模型,普遍存在逻辑推理能力缺失的问题;而基于本数据集训练的模型,不仅可缓解该问题,还能获得同等水准的代码编写知识储备。
本数据集整合了以下数据集,并额外采用了去重与无审查(uncensoring)处理技术:
代码类数据集:
- https://huggingface.co/datasets/rombodawg/2XUNCENSORED_MegaCodeTraining188k
- https://huggingface.co/datasets/rombodawg/Rombodawgs_commitpackft_Evolinstruct_Converted
指令遵循类数据集:
- https://huggingface.co/datasets/rombodawg/2XUNCENSORED_alpaca_840k_Evol_USER_ASSIST
- https://huggingface.co/datasets/garage-bAInd/Open-Platypus
提供机构:
rombodawg
原始信息汇总
数据集概述
数据集名称
- 最终代码训练数据
数据集目的
- 用于AI模型的训练,确保模型在训练后不会丧失先前已有的能力,如逻辑技能。
数据集特点
- 数据集规模庞大,旨在确保模型在学习编码的同时,能够持续遵循常规指令,避免丢失已学习的能力。
数据集开发背景
- 该数据集是基于对AI模型进行数据收集、测试以及对编码模型性能优劣的研究结果。



