five

rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol_Guanaco_Format

收藏
Hugging Face2023-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV3_1.6m_Evol_Guanaco_Format
下载链接
链接失效反馈
官方服务:
资源简介:
LosslessMegaCodeTrainingV3数据集被转换为guanaco格式,旨在训练AI模型进行编码时保持其原有的逻辑和推理能力。数据集包含大约50%的编码指令数据和50%的非编码指令数据,总计150万行evol指令格式的数据。这种设计确保模型在编码训练过程中不会忘记之前学到的能力。数据集结合了多个来源的数据,并应用了去重和去审查技术。
提供机构:
rombodawg
原始信息汇总

数据集概述

数据集名称

LosslessMegaCodeTrainingV3

数据集格式

guanaco格式

数据集目的

该数据集旨在训练AI模型编码能力的同时,不损失其逻辑技能。通过包含大量的数据,确保模型在学习和编码的过程中,能够持续遵循常规指令,从而不丢失之前学到的能力。

数据集内容

  • 数据集内容大致分为50%的编码指令数据和50%的非编码指令数据。
  • 数据总量达到150万条evol指令格式的数据。

数据集优势

  • 通过包含50%的非编码指令数据,该数据集能够保留模型的逻辑和推理技能,解决了编码模型如Wizardcoder-15b和NewHope中缺乏此类技能的主要问题。
  • 使用该数据集训练的模型不仅能解决逻辑推理问题,还能获得相似水平的编码知识。

数据集来源

该数据集是以下数据集的组合,并进行了去重和解封处理:

编码数据集

  • rombodawg/2XUNCENSORED_MegaCodeTraining188k
  • rombodawg/Rombodawgs_commitpackft_Evolinstruct_Converted

指令遵循数据集

  • rombodawg/2XUNCENSORED_alpaca_840k_Evol_USER_ASSIST
  • garage-bAInd/Open-Platypus
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作