five

rombodawg/LosslessMegaCodeTrainingV3_Tiny

收藏
Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV3_Tiny
下载链接
链接失效反馈
官方服务:
资源简介:
这是LosslessMegacodeTraining系列的一个新版本和实验版本,类似于版本3,但仅使用了数据集中最精细的部分。数据集内容大约80%是编码指令数据,20%是非编码指令数据,总计650,000行evol指令格式的数据。包含20%非编码指令数据的目的是在训练编码模型时保留逻辑和推理能力,这是诸如Wizardcoder-15b和NewHope等编码模型存在的主要问题,但使用此数据集训练模型可以缓解这一问题,同时提供类似的编码知识水平。数据集是多个数据集的组合。
提供机构:
rombodawg
原始信息汇总

数据集概述

版本与内容

  • 该数据集是LosslessMegacodeTraining系列的新版本和实验版本,类似于版本3,但仅使用数据集中最精细的部分。
  • 数据集内容大致为80%的编程指令数据和20%的非编程指令数据,总计约650,000行指令格式的数据。

数据集目的

  • 包含20%的非编程指令数据的目的是在模型训练编程时保留逻辑和推理技能。
  • 缺乏这些技能已被观察到是编程模型(如Wizardcoder-15b和NewHope)的主要问题,但使用此数据集进行训练可以缓解这一问题,同时提供相似水平的编程知识。

数据集组成

  • 该数据集由以下数据集组合而成:
    • Platypus_Evol
    • Rombodawgs_commitpackft_Evolinstruct_Converted
    • airoboros-2.1_general_purpose
    • megacode-best
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作