OpenHermes-2.5-Formatted

Hugging Face2024-08-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mathewhe/OpenHermes-2.5-Formatted

下载链接

链接失效反馈

官方服务：

资源简介：

OpenHermes 2.5 - Formatted数据集是对teknium/OpenHermes-2.5数据集的最小化格式调整，包含四个配置：chat、joinsys、nosys和teknium。每个配置处理系统提示的方式不同，例如joinsys将系统提示与第一个用户提示合并，而nosys则移除系统提示。数据集中的每个实例包含一个索引和消息列表，消息包含角色和内容。

创建时间：

2024-08-11

原始信息汇总

OpenHermes 2.5 - Formatted

概述

OpenHermes 2.5 - Formatted 是基于 teknium/OpenHermes-2.5 数据集的格式化版本，旨在更方便地集成到使用 OpenAI 聊天格式或不支持系统提示的训练脚本中。

数据集结构

数据集包含四个配置：

chat：使用 OpenAI 聊天 API 格式。
joinsys：系统提示与第一个用户提示合并。
nosys：系统提示被移除。
teknium：原始的 OpenHermes-2.5 数据集。

chat

文件：openhermes_2.5_chat.jsonl
包含两列："index" 和 "messages"。
"index"：实例在原始数据集中的索引。
"messages"：聊天消息，包含 "role" 和 "content" 键。

示例： json { "index": 0, "messages": [ {"role": "system", "content": "You are an assistant and must provide concise responses."}, {"role": "user", "content": "Which is correct? A. Humans are primates. B. Humans are fish."}, {"role": "assistant", "content": "A"} ] }

joinsys

文件：openhermes_2.5_joinsys.jsonl
与 chat 相同，但系统消息与第一个用户消息合并。
系统提示与用户提示的合并使用 "

"、" " 或 " " 作为分隔符。

示例： json { "index": 0, "messages": [ {"role": "user", "content": "You are an assistant and must provide concise responses. Which is correct? A. Humans are primates. B. Humans are fish."}, {"role": "assistant", "content": "A"} ] }

nosys

文件：openhermes_2.5_nosys.jsonl
与 chat 相同，但系统消息被完全移除。

示例： json { "index": 0, "messages": [ {"role": "user", "content": "Which is correct? A. Humans are primates. B. Humans are fish."}, {"role": "assistant", "content": "A"} ] }

teknium

文件：openhermes_2.5_teknium.jsonl
原始的 OpenHermes-2.5 数据集，包含 "index" 字段。
消息在 "conversations" 列中，使用 ShareGPT 格式。

示例： json { "index": 0, "conversations": [ {"from": "system", "value": "You are an assistant and must provide concise responses."}, {"from": "human", "value": "Which is correct? A. Humans are primates. B. Humans are fish."}, {"from": "gpt", "value": "A"} ] }

引用

在发布基于此数据集的结果时，请包含指向此数据集的链接。

正式引用请使用以下格式： bibtex @misc{OpenHermes 2.5, title = {OpenHermes 2.5: An Open Dataset of Synthetic Data for Generalist LLM Assistants}, author = {Teknium}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/teknium/OpenHermes-2.5} }

搜集汇总

数据集介绍

构建方式

OpenHermes-2.5-Formatted数据集基于teknium/OpenHermes-2.5原始数据集，经过格式化处理以适应不同的训练脚本需求。数据集提供了四种配置：`chat`、`joinsys`、`nosys`和`teknium`。其中，`chat`配置采用OpenAI的Chat API格式，包含系统、用户和助手的对话角色；`joinsys`配置将系统提示与第一条用户消息合并；`nosys`配置则完全移除了系统提示；`teknium`配置保留了原始数据集的格式，但添加了缺失的键和索引字段。

特点

该数据集的特点在于其多样化的配置选项，能够满足不同训练场景的需求。`chat`配置严格遵循OpenAI的Chat API格式，便于直接应用于相关模型训练；`joinsys`配置通过合并系统提示与用户消息，简化了对话结构；`nosys`配置则完全移除了系统提示，适用于不需要系统指令的场景；`teknium`配置保留了原始数据集的格式，适合需要与原始数据集保持一致的研究。

使用方法

使用该数据集时，用户可以根据具体需求选择合适的配置。对于需要系统提示的场景，可以使用`chat`或`joinsys`配置；对于不需要系统提示的场景，则可以选择`nosys`配置。`teknium`配置适用于需要与原始数据集保持一致的研究。数据集以JSON Lines格式存储，每条记录包含索引和消息内容，便于直接加载和使用。在引用该数据集时，建议提供指向该数据集的链接，并在正式引用时引用原始OpenHermes 2.5数据集。

背景与挑战

背景概述

OpenHermes-2.5-Formatted数据集由Teknium团队于2023年发布，旨在为通用型大型语言模型（LLM）助手提供高质量的合成数据支持。该数据集基于OpenAI的聊天格式进行了优化，便于集成到训练脚本中，尤其适用于不支持系统提示的模型训练场景。数据集的核心研究问题在于如何通过格式化的对话数据提升模型在自然语言理解和生成任务中的表现。OpenHermes-2.5的发布为LLM领域的研究者提供了丰富的对话数据资源，推动了通用型助手模型的开发与优化。

当前挑战

OpenHermes-2.5-Formatted数据集在构建与应用中面临多重挑战。首先，数据集旨在解决通用型助手模型在对话生成和系统提示处理中的复杂性，但如何确保系统提示与用户输入的合理整合仍是一个技术难点。其次，在数据格式化过程中，系统提示与用户消息的合并策略需要兼顾语义连贯性与格式一致性，这对数据处理提出了较高要求。此外，原始数据集中的部分配置（如`teknium`）存在加载失败的问题，需进一步修复以确保数据的完整性与可用性。这些挑战不仅影响了数据集的直接应用，也对后续模型的训练效果提出了更高的要求。

常用场景

经典使用场景

OpenHermes-2.5-Formatted数据集广泛应用于自然语言处理领域，特别是在对话系统的训练和评估中。其经典使用场景包括基于OpenAI聊天格式的模型训练，通过提供结构化的对话数据，帮助研究人员和开发者构建更加智能和灵活的对话助手。该数据集支持多种配置，如`chat`、`joinsys`和`nosys`，能够适应不同的训练需求，尤其适用于需要系统提示或无系统提示的对话生成任务。

解决学术问题

OpenHermes-2.5-Formatted数据集解决了对话系统研究中常见的几个关键问题。首先，它提供了标准化的对话格式，简化了模型训练中的数据预处理步骤。其次，通过提供多种配置选项，研究人员可以灵活地调整系统提示的呈现方式，从而更好地理解系统提示对模型生成结果的影响。此外，该数据集还支持对模型在不同对话场景下的表现进行评估，为对话系统的优化和改进提供了重要依据。

衍生相关工作

基于OpenHermes-2.5-Formatted数据集，许多经典的研究工作得以展开。例如，研究人员利用该数据集开发了多种对话生成模型，探索了系统提示对模型生成结果的影响。此外，该数据集还被用于评估不同对话系统的性能，推动了对话系统领域的标准化和规范化。这些研究工作不仅丰富了对话系统的理论体系，还为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集