ziozzang/EverythingLM-data-V2-Ko
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ziozzang/EverythingLM-data-V2-Ko
下载链接
链接失效反馈官方服务:
资源简介:
EverythingLM V2数据集是一个多样化的指令数据集,包含1000个人类与助手的对话。这些对话集是使用evol-instruct和Orca的原则生成的,涵盖了广泛的主题和互动。与V1版本相比,V2版本的所有数据均由GPT4生成,具有更高质量的数据生成管道,包括更人性化的种子提示、修复了脚本中的一些错误、更多样化的创意写作和种子提示,并尝试通过偶尔跳过evol来避免模型在复杂指令上的过拟合。生成该数据集的成本大约为40美元。数据集包含的指令类别包括推理、创意写作、常识、头脑风暴、搜索查询、编码和基本指令。该数据集还利用了各种系统提示来进行evol-instruct和响应提示,并经过过滤以去除OpenAI的对齐。数据集的特点包括长而详细的输出、人性化的创造力、CoT推理以及复杂且具有挑战性的任务。未来的计划包括训练Llama 7b和13b模型,训练Llama 70b QLoRA,并生成更多类别和GPT-4的V2版本数据集。
提供机构:
ziozzang
原始信息汇总
EverythingLM V2 数据集
EverythingLM V2 是一个多样化的指令数据集,包含1000条人类助手对话。这些数据集是基于evol-instruct和Orca的原则生成的。数据集涵盖了广泛的主题和交互。
V1 与 V2 的区别:
- V2 中的所有数据由 GPT-4 生成
- 更高的数据集生成质量:
- 更多类似人类的种子提示
- 修复了脚本中的一些错误
- 更多样化的创意写作
- 更多样化的种子提示
- 尝试避免模型过度适应复杂指令,偶尔跳过evol
成本:
重现此数据集的成本大约为40美元。
指令类别:
- 推理
- 创意写作
- 常识
- 头脑风暴
- 搜索查询
- 编程
- 基本指令
我们还利用了各种系统提示进行evol-instruct和响应提示。该数据集已经过过滤,去除了OpenAI对齐。
特点:
- 长而详细的输出
- 类似人类的创造力
- 链式思考推理
- 复杂且具有挑战性的任务
计划:
- 训练 Llama 7b 和 13b 模型(13b 模型 V1 已训练)
- 训练 Llama 70b QLoRA
- 生成 V2 数据集,增加更多类别和 GPT-4(已完成)✓
该仓库中包含了生成数据集的脚本。



