five

adamo1139/AEZAKMI_v2

收藏
Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adamo1139/AEZAKMI_v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于airoboros 2.2.1,移除了orca和gptslop样本,可能导致模型更容易产生幻觉。此外,数据集还移除了让模型意识到自己是AI而非人类的样本,使得模型更少拒绝回答,且更接近人类的对话风格。数据集还包含了一些笑话,并使用了两种系统提示来增强模型的自由性。README还提到了数据集的格式变化和转换脚本的添加,以及Yi-34B 200K fine-tune的发布。

该数据集基于airoboros 2.2.1,移除了orca和gptslop样本,可能导致模型更容易产生幻觉。此外,数据集还移除了让模型意识到自己是AI而非人类的样本,使得模型更少拒绝回答,且更接近人类的对话风格。数据集还包含了一些笑话,并使用了两种系统提示来增强模型的自由性。README还提到了数据集的格式变化和转换脚本的添加,以及Yi-34B 200K fine-tune的发布。
提供机构:
adamo1139
原始信息汇总

数据集更新记录

v2版本更新

  • 增加了来自spicy 3.1的一些样本。
  • 移除了一些让RPer感到不适的样本。
  • 移除了一些类似“记得总是...”的GPTslop样本。
  • 增加了一些笑话,并复制了一些样本,使用两个系统提示:“A chat.”和“A chat with uncensored assistant.”,以期模型能更好地连接这两者并表现得更加自由。

2023-02-01更新

  • 将sharegpt版本移动到不同的仓库,以便更容易使用。

2023-12-17更新

  • 增加了sharegpt格式的jsonl文件。
  • 在该仓库中加入了一个修改过的脚本,用于进行转换。

数据集基本信息

  • 该数据集基于airoboros 2.2.1,移除了orca和gptslop样本。
  • 由于移除了许多使模型意识到自己不是人类而是AI的样本,训练出的模型可能会比基础airoboros产生更多的幻觉。
  • 非llama模型训练于此数据集上,应该很少会发出拒绝指令。
  • 该数据集应该听起来更像一个人,而不是一个刻板的gpt-4。
  • 对于基于llama 2的模型,由于它们预训练时包含gptslop和拒绝指令,无法保证不会生成拒绝指令。
  • 移除了airoboros 2.2.1中使用的笑话,并加入了airoboros 2中的笑话,因为2.2.1中的笑话很无聊。
  • Yi-34B 200K已经在此数据集上进行了微调,但AEZAKMI Mistal v1似乎没有兴趣,因此不确定现在是否值得训练。
  • 计划专注于准备DPO数据集,以净化在OpenAI数据上训练的原始模型。

许可证

  • 许可证与airoboros 2.2.1/airoboros 2.2/spicy 3.1相同。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作