adamo1139/AEZAKMI_v2

Name: adamo1139/AEZAKMI_v2
Creator: adamo1139
Published: 2024-02-03 14:41:18
License: 暂无描述

Hugging Face2024-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/adamo1139/AEZAKMI_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于airoboros 2.2.1，移除了orca和gptslop样本，可能导致模型更容易产生幻觉。此外，数据集还移除了让模型意识到自己是AI而非人类的样本，使得模型更少拒绝回答，且更接近人类的对话风格。数据集还包含了一些笑话，并使用了两种系统提示来增强模型的自由性。README还提到了数据集的格式变化和转换脚本的添加，以及Yi-34B 200K fine-tune的发布。

提供机构：

adamo1139

原始信息汇总

数据集更新记录

v2版本更新

增加了来自spicy 3.1的一些样本。
移除了一些让RPer感到不适的样本。
移除了一些类似“记得总是...”的GPTslop样本。
增加了一些笑话，并复制了一些样本，使用两个系统提示：“A chat.”和“A chat with uncensored assistant.”，以期模型能更好地连接这两者并表现得更加自由。

2023-02-01更新

将sharegpt版本移动到不同的仓库，以便更容易使用。

2023-12-17更新

增加了sharegpt格式的jsonl文件。
在该仓库中加入了一个修改过的脚本，用于进行转换。

数据集基本信息

该数据集基于airoboros 2.2.1，移除了orca和gptslop样本。
由于移除了许多使模型意识到自己不是人类而是AI的样本，训练出的模型可能会比基础airoboros产生更多的幻觉。
非llama模型训练于此数据集上，应该很少会发出拒绝指令。
该数据集应该听起来更像一个人，而不是一个刻板的gpt-4。
对于基于llama 2的模型，由于它们预训练时包含gptslop和拒绝指令，无法保证不会生成拒绝指令。
移除了airoboros 2.2.1中使用的笑话，并加入了airoboros 2中的笑话，因为2.2.1中的笑话很无聊。
Yi-34B 200K已经在此数据集上进行了微调，但AEZAKMI Mistal v1似乎没有兴趣，因此不确定现在是否值得训练。
计划专注于准备DPO数据集，以净化在OpenAI数据上训练的原始模型。

许可证

许可证与airoboros 2.2.1/airoboros 2.2/spicy 3.1相同。

5,000+

优质数据集

54 个

任务类型

进入经典数据集