five

rombodawg/LosslessMegaCodeTrainingV2

收藏
Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rombodawg/LosslessMegaCodeTrainingV2
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个终极代码训练数据集,旨在无损训练AI模型,使其在学会编码的同时不丧失之前的能力(如逻辑技能)。数据集之所以庞大,是为了确保模型在学习编码时仍能遵循常规指令。数据集是作者通过收集数据、测试AI模型并分析编码模型表现好坏的原因后创建的。它结合了作者之前的两个数据集:一个是编码数据集,另一个是指令遵循数据集。

这是一个终极代码训练数据集,旨在无损训练AI模型,使其在学会编码的同时不丧失之前的能力(如逻辑技能)。数据集之所以庞大,是为了确保模型在学习编码时仍能遵循常规指令。数据集是作者通过收集数据、测试AI模型并分析编码模型表现好坏的原因后创建的。它结合了作者之前的两个数据集:一个是编码数据集,另一个是指令遵循数据集。
提供机构:
rombodawg
原始信息汇总

数据集概述

数据集名称

  • LosslessMegaCodeTrainingV3_2.2m_Evol

数据集版本

  • 最新版本:3
  • 更新/未审查版本:1
  • 非代码指令训练版本:2XUNCENSORED_alpaca_840k_Evol_USER_ASSIS
  • 遗留版本:1

数据集内容

  • 该数据集旨在提供无损的代码训练数据,确保AI模型在训练后不会失去先前具备的能力(如逻辑技能)。
  • 数据集规模庞大,以确保模型在学习编码的同时,继续遵循常规指令,不丢失先前学习的能力。
  • 数据集是基于旧的MegaCoding数据集,增加了8倍以上的纯指令基础(非编码)数据,并通过脚本移除了大量被认为受审查的指令。

数据集来源

  • 该数据集是作者之前两个数据集的组合:
    • 编码相关数据集:2XUNCENSORED_MegaCodeTraining188k
    • 指令跟随相关数据集:2XUNCENSORED_alpaca_840k_Evol_USER_ASSIST

数据集下载

  • 最新版本下载链接:https://huggingface.co/datasets/rombodawg/LosslessMegaCodeTrainingV3_2.2m_Evol
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作