NurtureAI/OpenHermes-2.5-flattened
收藏数据集卡片 for OpenHermes 2.5
数据集详情
数据集描述
Open Hermes 2/2.5 和 Nous Hermes 2 模型在过去几个月中取得了显著的进展,这些进展基于多个开源数据集和自定义创建的合成数据集的精确编译和整理。
Open Hermes 2.5 数据集是 Open Hermes 1 数据集的延续,规模更大、更多样化、质量更高,达到了100万条主要通过合成生成的指令和聊天样本。
数据集来源
-
Airoboros 2.2
由 Jon Durbin 创建: https://huggingface.co/datasets/jondurbin/airoboros-2.2 -
CamelAI 领域专家数据集 (物理学、数学、化学和生物学)
由 CamelAI 创建: https://huggingface.co/camel-ai -
ChatBot Arena (仅限 GPT-4)
由 LMSys 创建: https://huggingface.co/datasets/lmsys/lmsys-chat-1m -
Collective Cognition (2023-09-11)
由 Teknium 创建: https://huggingface.co/datasets/CollectiveCognition/chats-data-2023-09-22 -
CoT Alpaca GPT4
来源页面已丢失 -
Evol Instruct 70K && 140K
由 WizardLM 创建:
70K: https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_70k
140k: https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k -
Glaive Code Assistant
由 Sahil & Glaive 创建: https://huggingface.co/datasets/glaiveai/glaive-code-assistant -
GPT4-LLM
由 Baolin Peng*, Chunyuan Li*, Pengcheng He*, Michel Galley, Jianfeng Gao 创建: https://huggingface.co/datasets/teknium/GPT4-LLM-Cleaned -
GPTeacher
由 Teknium & Kuruminha 创建: https://github.com/teknium1/GPTeacher -
Medical Tasks
由 CogStack 创建: https://github.com/CogStack/OpenGPT -
MetaMath 40k
由 MetaMath 创建: https://huggingface.co/datasets/meta-math/MetaMathQA -
SlimOrca 550K
由 Wing Lian 和 Guan Wang 和 Bleys Goodson 和 Eugene Pentland 和 Austin Cook 和 Chanvichet Vong 和 Teknium 创建: https://huggingface.co/datasets/Open-Orca/SlimOrca -
Platypus
由 Garage-bAInd 创建: https://huggingface.co/datasets/garage-bAInd/Open-Platypus -
ShareGPT (仅限 GPT-4)
由 LMSys 创建: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered -
Unnatural Instructions GPT4
由 Baolin Peng*, Chunyuan Li*, Pengcheng He*, Michel Galley, Jianfeng Gao 创建: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM -
原始数据集
https://huggingface.co/datasets/teknium/OpenHermes-2.5



