rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol_Guanaco_Format
收藏Hugging Face2023-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol_Guanaco_Format
下载链接
链接失效反馈官方服务:
资源简介:
LosslessMegaCodeTrainingV3数据集被转换为guanaco格式,旨在训练AI模型进行编码时保持其原有的逻辑和推理能力。数据集包含大约50%的编码指令数据和50%的非编码指令数据,总计150万行evol指令格式的数据。这种设计确保模型在编码训练过程中不会忘记之前学到的能力。数据集结合了多个来源的数据,并应用了去重和去审查技术。
提供机构:
rombodawg
原始信息汇总
数据集概述
数据集名称
LosslessMegaCodeTrainingV3
数据集格式
guanaco格式
数据集目的
该数据集旨在训练AI模型编码能力的同时,不损失其逻辑技能。通过包含大量的数据,确保模型在学习和编码的过程中,能够持续遵循常规指令,从而不丢失之前学到的能力。
数据集内容
- 数据集内容大致分为50%的编码指令数据和50%的非编码指令数据。
- 数据总量达到150万条evol指令格式的数据。
数据集优势
- 通过包含50%的非编码指令数据,该数据集能够保留模型的逻辑和推理技能,解决了编码模型如Wizardcoder-15b和NewHope中缺乏此类技能的主要问题。
- 使用该数据集训练的模型不仅能解决逻辑推理问题,还能获得相似水平的编码知识。
数据集来源
该数据集是以下数据集的组合,并进行了去重和解封处理:
编码数据集
- rombodawg/2XUNCENSORED_MegaCodeTraining188k
- rombodawg/Rombodawgs_commitpackft_Evolinstruct_Converted
指令遵循数据集
- rombodawg/2XUNCENSORED_alpaca_840k_Evol_USER_ASSIST
- garage-bAInd/Open-Platypus



