rombodawg/LosslessMegaCodeTrainingV2
收藏Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV2
下载链接
链接失效反馈官方服务:
资源简介:
这是一个终极代码训练数据集,旨在无损训练AI模型,使其在学会编码的同时不丧失之前的能力(如逻辑技能)。数据集之所以庞大,是为了确保模型在学习编码时仍能遵循常规指令。数据集是作者通过收集数据、测试AI模型并分析编码模型表现好坏的原因后创建的。它结合了作者之前的两个数据集:一个是编码数据集,另一个是指令遵循数据集。
这是一个终极代码训练数据集,旨在无损训练AI模型,使其在学会编码的同时不丧失之前的能力(如逻辑技能)。数据集之所以庞大,是为了确保模型在学习编码时仍能遵循常规指令。数据集是作者通过收集数据、测试AI模型并分析编码模型表现好坏的原因后创建的。它结合了作者之前的两个数据集:一个是编码数据集,另一个是指令遵循数据集。
提供机构:
rombodawg
原始信息汇总
数据集概述
数据集名称
- LosslessMegaCodeTrainingV3_2.2m_Evol
数据集版本
- 最新版本:3
- 更新/未审查版本:1
- 非代码指令训练版本:2XUNCENSORED_alpaca_840k_Evol_USER_ASSIS
- 遗留版本:1
数据集内容
- 该数据集旨在提供无损的代码训练数据,确保AI模型在训练后不会失去先前具备的能力(如逻辑技能)。
- 数据集规模庞大,以确保模型在学习编码的同时,继续遵循常规指令,不丢失先前学习的能力。
- 数据集是基于旧的MegaCoding数据集,增加了8倍以上的纯指令基础(非编码)数据,并通过脚本移除了大量被认为受审查的指令。
数据集来源
- 该数据集是作者之前两个数据集的组合:
- 编码相关数据集:2XUNCENSORED_MegaCodeTraining188k
- 指令跟随相关数据集:2XUNCENSORED_alpaca_840k_Evol_USER_ASSIST
数据集下载
- 最新版本下载链接:https://huggingface.co/datasets/rombodawg/LosslessMegaCodeTrainingV3_2.2m_Evol



