totally-not-an-llm/EverythingLM-data-V2
收藏Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/totally-not-an-llm/EverythingLM-data-V2
下载链接
链接失效反馈官方服务:
资源简介:
EverythingLM V2数据集是一个多样化的指令数据集,包含1000个人类与助手的对话。这些对话集是使用evol-instruct和Orca的原则生成的,涵盖了广泛的主题和互动。与V1版本相比,V2版本的所有数据均由GPT4生成,采用了更高质量的生成流程,包括更人性化的种子提示、修复了脚本中的错误、增加了创意写作的多样性等。数据集还包括了多种指令类别,如推理、创意写作、通用知识等,并且已经过滤了OpenAI的对齐内容。数据集的特点包括长且详细的输出、人性化的创造力、链式推理以及复杂和具有挑战性的任务。未来计划包括训练Llama 7b和13b模型,以及生成包含更多类别和GPT-4的V2版本数据集。
提供机构:
totally-not-an-llm
原始信息汇总
数据集概述
数据集名称
- EverythingLM V2
数据集类型
- 多样化的指令数据集
数据集规模
- 包含1000个人类辅助对话
数据集生成方法
- 结合了evol-instruct和Orca原则
数据集内容
- 涵盖广泛的主题和交互



