five

NurtureAI/OpenHermes-2.5-flattened

收藏
Hugging Face2024-03-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/NurtureAI/OpenHermes-2.5-flattened
下载链接
链接失效反馈
官方服务:
资源简介:
Open Hermes 2/2.5和Nous Hermes 2模型在最近几个月取得了显著的进展,这些模型正是基于该数据集的编译和整理。Open Hermes 2.5数据集是Open Hermes 1数据集的延续,规模更大、多样性更高、质量更好,包含了100万条主要通过合成生成的指令和聊天样本。

Open Hermes 2/2.5 and Nous Hermes 2 models have achieved remarkable progress in recent months, and these models are developed based on the compilation and curation of this dataset. The Open Hermes 2.5 dataset, a direct successor to the Open Hermes 1 dataset, features larger scale, higher diversity and better quality, containing one million primarily synthetically generated instruction and chat samples.
提供机构:
NurtureAI
原始信息汇总

数据集卡片 for OpenHermes 2.5

数据集详情

数据集描述

Open Hermes 2/2.5 和 Nous Hermes 2 模型在过去几个月中取得了显著的进展,这些进展基于多个开源数据集和自定义创建的合成数据集的精确编译和整理。

Open Hermes 2.5 数据集是 Open Hermes 1 数据集的延续,规模更大、更多样化、质量更高,达到了100万条主要通过合成生成的指令和聊天样本。

数据集来源

  • Airoboros 2.2
    由 Jon Durbin 创建: https://huggingface.co/datasets/jondurbin/airoboros-2.2

  • CamelAI 领域专家数据集 (物理学、数学、化学和生物学)
    由 CamelAI 创建: https://huggingface.co/camel-ai

  • ChatBot Arena (仅限 GPT-4)
    由 LMSys 创建: https://huggingface.co/datasets/lmsys/lmsys-chat-1m

  • Collective Cognition (2023-09-11)
    由 Teknium 创建: https://huggingface.co/datasets/CollectiveCognition/chats-data-2023-09-22

  • CoT Alpaca GPT4
    来源页面已丢失

  • Evol Instruct 70K && 140K
    由 WizardLM 创建:
    70K: https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_70k
    140k: https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k

  • Glaive Code Assistant
    由 Sahil & Glaive 创建: https://huggingface.co/datasets/glaiveai/glaive-code-assistant

  • GPT4-LLM
    由 Baolin Peng*, Chunyuan Li*, Pengcheng He*, Michel Galley, Jianfeng Gao 创建: https://huggingface.co/datasets/teknium/GPT4-LLM-Cleaned

  • GPTeacher
    由 Teknium & Kuruminha 创建: https://github.com/teknium1/GPTeacher

  • Medical Tasks
    由 CogStack 创建: https://github.com/CogStack/OpenGPT

  • MetaMath 40k
    由 MetaMath 创建: https://huggingface.co/datasets/meta-math/MetaMathQA

  • SlimOrca 550K
    由 Wing Lian 和 Guan Wang 和 Bleys Goodson 和 Eugene Pentland 和 Austin Cook 和 Chanvichet Vong 和 Teknium 创建: https://huggingface.co/datasets/Open-Orca/SlimOrca

  • Platypus
    由 Garage-bAInd 创建: https://huggingface.co/datasets/garage-bAInd/Open-Platypus

  • ShareGPT (仅限 GPT-4)
    由 LMSys 创建: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered

  • Unnatural Instructions GPT4
    由 Baolin Peng*, Chunyuan Li*, Pengcheng He*, Michel Galley, Jianfeng Gao 创建: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

  • 原始数据集
    https://huggingface.co/datasets/teknium/OpenHermes-2.5

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作