ziozzang/EverythingLM-data-V2-Ko

Name: ziozzang/EverythingLM-data-V2-Ko
Creator: ziozzang
Published: 2023-08-23 07:03:47
License: 暂无描述

Hugging Face2023-08-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ziozzang/EverythingLM-data-V2-Ko

下载链接

链接失效反馈

官方服务：

资源简介：

EverythingLM V2数据集是一个多样化的指令数据集，包含1000个人类与助手的对话。这些对话集是使用evol-instruct和Orca的原则生成的，涵盖了广泛的主题和互动。与V1版本相比，V2版本的所有数据均由GPT4生成，具有更高质量的数据生成管道，包括更人性化的种子提示、修复了脚本中的一些错误、更多样化的创意写作和种子提示，并尝试通过偶尔跳过evol来避免模型在复杂指令上的过拟合。生成该数据集的成本大约为40美元。数据集包含的指令类别包括推理、创意写作、常识、头脑风暴、搜索查询、编码和基本指令。该数据集还利用了各种系统提示来进行evol-instruct和响应提示，并经过过滤以去除OpenAI的对齐。数据集的特点包括长而详细的输出、人性化的创造力、CoT推理以及复杂且具有挑战性的任务。未来的计划包括训练Llama 7b和13b模型，训练Llama 70b QLoRA，并生成更多类别和GPT-4的V2版本数据集。

提供机构：

ziozzang

原始信息汇总

EverythingLM V2 数据集

EverythingLM V2 是一个多样化的指令数据集，包含1000条人类助手对话。这些数据集是基于evol-instruct和Orca的原则生成的。数据集涵盖了广泛的主题和交互。

V1 与 V2 的区别：

V2 中的所有数据由 GPT-4 生成
更高的数据集生成质量：
- 更多类似人类的种子提示
- 修复了脚本中的一些错误
- 更多样化的创意写作
- 更多样化的种子提示
- 尝试避免模型过度适应复杂指令，偶尔跳过evol

成本：

重现此数据集的成本大约为40美元。

指令类别：

推理
创意写作
常识
头脑风暴
搜索查询
编程
基本指令

我们还利用了各种系统提示进行evol-instruct和响应提示。该数据集已经过过滤，去除了OpenAI对齐。

特点：

长而详细的输出
类似人类的创造力
链式思考推理
复杂且具有挑战性的任务

计划：

训练 Llama 7b 和 13b 模型（13b 模型 V1 已训练）
训练 Llama 70b QLoRA
生成 V2 数据集，增加更多类别和 GPT-4（已完成）✓

该仓库中包含了生成数据集的脚本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集