five

totally-not-an-llm/EverythingLM-data-V3

收藏
Hugging Face2023-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/totally-not-an-llm/EverythingLM-data-V3
下载链接
链接失效反馈
官方服务:
资源简介:
EverythingLM V3是一个多样化的指令数据集,包含大约1.1k个sysprompt-user-assistant三元组,这些三元组是使用evol-instruct和Orca的原则生成的。数据集涵盖了广泛的主题和交互。与V2版本相比,V3使用了不同版本的GPT-4、动态调整的温度、增加了8个新类别、引入了Flesch提示、增加了10%的数据、改进了过滤方法,并优化了数据集生成流程。类别的分布图显示了生成时的数据分布,但经过轻微过滤后,实际值可能略有不同。
提供机构:
totally-not-an-llm
原始信息汇总

EverythingLM V3 数据集

EverythingLM V3 是一个多样化的指令数据集,包含约 1.1k 个系统提示-用户-助手三元组。这些数据是基于 evol-instruct 和 Orca 的原则生成的,涵盖了广泛的主题和交互。

V3 与 V2 的区别

  • 使用 march gpt-4 而非最新版本
  • 根据任务动态调整温度
  • 更加多样化(新增 8 个类别)
  • 增加了 Flesch 提示
  • 数据量增加 10%
  • 更好的过滤机制
  • 整体数据集生成流程更加精细

类别分布

image/png *这些数值代表生成时的数据,但经过轻微过滤,因此实际数值可能略有不同。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作