five

ziozzang/EverythingLM-data-V2-Ko

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ziozzang/EverythingLM-data-V2-Ko
下载链接
链接失效反馈
官方服务:
资源简介:
EverythingLM V2数据集是一个多样化的指令数据集,包含1000个人类与助手的对话。这些对话集是使用evol-instruct和Orca的原则生成的,涵盖了广泛的主题和互动。与V1版本相比,V2版本的所有数据均由GPT4生成,具有更高质量的数据生成管道,包括更人性化的种子提示、修复了脚本中的一些错误、更多样化的创意写作和种子提示,并尝试通过偶尔跳过evol来避免模型在复杂指令上的过拟合。生成该数据集的成本大约为40美元。数据集包含的指令类别包括推理、创意写作、常识、头脑风暴、搜索查询、编码和基本指令。该数据集还利用了各种系统提示来进行evol-instruct和响应提示,并经过过滤以去除OpenAI的对齐。数据集的特点包括长而详细的输出、人性化的创造力、CoT推理以及复杂且具有挑战性的任务。未来的计划包括训练Llama 7b和13b模型,训练Llama 70b QLoRA,并生成更多类别和GPT-4的V2版本数据集。
提供机构:
ziozzang
原始信息汇总

EverythingLM V2 数据集

EverythingLM V2 是一个多样化的指令数据集,包含1000条人类助手对话。这些数据集是基于evol-instruct和Orca的原则生成的。数据集涵盖了广泛的主题和交互。

V1 与 V2 的区别:

  • V2 中的所有数据由 GPT-4 生成
  • 更高的数据集生成质量:
    • 更多类似人类的种子提示
    • 修复了脚本中的一些错误
    • 更多样化的创意写作
    • 更多样化的种子提示
    • 尝试避免模型过度适应复杂指令,偶尔跳过evol

成本:

重现此数据集的成本大约为40美元。

指令类别:

  • 推理
  • 创意写作
  • 常识
  • 头脑风暴
  • 搜索查询
  • 编程
  • 基本指令

我们还利用了各种系统提示进行evol-instruct和响应提示。该数据集已经过过滤,去除了OpenAI对齐。

特点:

  • 长而详细的输出
  • 类似人类的创造力
  • 链式思考推理
  • 复杂且具有挑战性的任务

计划:

  • 训练 Llama 7b 和 13b 模型(13b 模型 V1 已训练)
  • 训练 Llama 70b QLoRA
  • 生成 V2 数据集,增加更多类别和 GPT-4(已完成)✓

该仓库中包含了生成数据集的脚本。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作