teknium/OpenHermes-2.5
收藏Hugging Face2024-04-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teknium/OpenHermes-2.5
下载链接
链接失效反馈官方服务:
资源简介:
OpenHermes 2.5数据集是为了支持Open Hermes 2/2.5和Nous Hermes 2系列模型的发展而创建的,包含了大量开源数据集和自定义合成的数据集。该数据集是Open Hermes 1数据集的延续,规模更大,多样性更高,质量更好,主要包含100万条合成的指令和聊天样本。数据集结构遵循sharegpt格式,每个条目包含对话列表,每个对话有角色和文本内容。数据集来源包括Airoboros 2.2、CamelAI领域专家数据集、ChatBot Arena、Collective Cognition、Evol Instruct、Glaive Code Assistant、GPT4-LLM、GPTeacher、Medical Tasks、MetaMath、SlimOrca、Platypus、ShareGPT和Unnatural Instructions GPT4等多个数据集。
The OpenHermes 2.5 dataset was developed to support the advancement of the Open Hermes 2/2.5 and Nous Hermes 2 series of models, comprising a large collection of open-source datasets and custom synthetic datasets. As a continuation of the Open Hermes 1 dataset, this iteration features a larger scale, higher diversity, and better overall quality, primarily containing 1 million synthetic instruction and chat samples. The dataset structure follows the ShareGPT format, where each entry includes a list of dialogues, with each dialogue containing a speaker role and corresponding text content. The dataset draws from multiple sources including Airoboros 2.2, CamelAI Domain Expert Dataset, ChatBot Arena, Collective Cognition, Evol Instruct, Glaive Code Assistant, GPT4-LLM, GPTeacher, Medical Tasks, MetaMath, SlimOrca, Platypus, ShareGPT, and Unnatural Instructions GPT4, among others.
提供机构:
teknium
原始信息汇总
数据集概述
名称: OpenHermes 2.5
语言: 英语(eng)
标签: 合成数据, GPT-4, 蒸馏, 编译
数据集描述
OpenHermes 2.5 数据集是 OpenHermes 1 数据集的延续,规模更大,多样性更强,质量更高,包含主要为合成生成的100万条指令和聊天样本。该数据集支持了 OpenHermes 2/2.5 和 Nous Hermes 2 系列模型的显著进步,这些模型基于多种开源数据集和定制创建的合成数据集的精确编译和整理。
数据集集成
该数据集已推送到 Lilac 的实时 HuggingFace 空间,这是一个数据整理和探索平台,托管了许多流行的开源数据集,支持文本嵌入搜索和数据集聚类。
数据集来源
数据集整合了多个来源,包括但不限于:
- Airoboros 2.2
- CamelAI 领域专家数据集(物理、数学、化学与生物)
- ChatBot Arena (GPT-4 Only)
- Collective Cognition
- Evol Instruct 70K & 140K
- Glaive Code Assistant
- GPT4-LLM
- GPTeacher
- Medical Tasks
- MetaMath 40k
- SlimOrca 550K
- Platypus
- ShareGPT (GPT4-Only)
- Unnatural Instructions GPT4
数据集结构
数据集遵循 sharegpt 结构,包含一系列字典,每个字典包含一个名为 "conversations" 的新列表。每个对话轮次包含两个字典,一个 "from" 字段表示该轮次的角色,一个 "value" 字段包含实际文本。
引用信息
bibtex @misc{OpenHermes 2.5, title = {OpenHermes 2.5: An Open Dataset of Synthetic Data for Generalist LLM Assistants}, author = {Teknium}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/teknium/OpenHermes-2.5} }
搜集汇总
数据集介绍

背景与挑战
背景概述
OpenHermes-2.5是一个包含1M条高质量合成指令和聊天样本的数据集,用于训练和微调大型语言模型。数据集融合了多个来源的多样化内容,包括数学、物理、化学等领域的专业知识和通用对话。
以上内容由遇见数据集搜集并总结生成



