OpenHermes-2.5-Uncensored|自然语言处理数据集|数据集训练数据集

huggingface2024-10-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/rombodawg/OpenHermes-2.5-Uncensored

下载链接

链接失效反馈

资源简介：

Open Hermes 2.5数据集是一个由多个开源和合成数据集组成的集合，主要用于训练Open Hermes 2.5和Nous Hermes 2系列模型。该数据集涵盖了物理、数学、化学、生物等多个领域的数据集。数据集的结构类似于ShareGPT，每个条目包含一个对话，对话中包含角色和内容。该数据集还与Lilac数据管理和探索平台集成，并已被用于多个模型和项目中。数据集包含100万条主要由合成生成的指令和聊天样本。

创建时间：

2024-10-09

原始信息汇总

数据集卡片

数据集描述

Open Hermes 2.5 数据集是 Open Hermes 1 数据集的延续，规模更大、多样性更高、质量更高，主要包含合成生成的指令和聊天样本，总量达到 100 万。

数据集来源

该数据集整合了多个开源数据集和自定义生成的合成数据集，包括：

Airoboros 2.2
CamelAI 领域专家数据集（物理、数学、化学和生物）
ChatBot Arena（仅 GPT-4）
Collective Cognition（2023-09-22）
CoT Alpaca GPT4
Evol Instruct 70K 和 140K
Glaive Code Assistant
GPT4-LLM
GPTeacher
Medical Tasks
MetaMath 40k
SlimOrca 550K
Platypus
ShareGPT（仅 GPT-4）
Unnatural Instructions GPT4

数据集结构

数据集遵循 sharegpt 结构，包含一系列字典，每个字典包含一个名为 conversations 的新列表。每个对话轮次包含两个字典，一个 "from" 字段表示该轮次的角色，一个 "value" 字段包含实际文本。

示例：

json { "conversations": [ { "from": "system", "value": "" }, { "from": "human", "value": "Every day, a tree drops 7 leaves. How many leaves would it drop in a month of February in a non-leap year? Include your logic." }, { "from": "gpt", "value": "Heres the logic behind this:

We know that February has 28 days in a non-leap year.
If the tree drops 7 leaves every day, then over the course of February, it would drop: Leaves dropped in February = Leaves per day * Days in February = 7 leaves * 28 days = 196 leaves

So, the tree would drop 196 leaves in February in a non-leap year." } ], "source": "airoboros2.2", "category": "orca" }

引用

bibtex @misc{OpenHermes 2.5, title = {OpenHermes 2.5: An Open Dataset of Synthetic Data for Generalist LLM Assistants}, author = {Teknium}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/teknium/OpenHermes-2.5} }

AI搜集汇总

数据集介绍

构建方式

OpenHermes-2.5-Uncensored数据集是基于teknium/OpenHermes-2.5数据集构建的，通过移除其中的2,697条被审查的内容行，生成了一个未经审查的版本。该数据集整合了多个开源数据集和自定义生成的合成数据集，涵盖了广泛的指令和对话样本，规模达到100万条。数据集的构建过程依赖于多种来源，包括Airoboros 2.2、CamelAI领域专家数据集、ChatBot Arena等，确保了数据的多样性和高质量。

使用方法

OpenHermes-2.5-Uncensored数据集可用于训练和评估大型语言模型，特别是在生成对话和指令遵循任务中表现出色。用户可以通过HuggingFace平台直接访问该数据集，并利用其提供的Lilac集成功能进行数据探索和文本嵌入搜索。数据集的结构清晰，每个对话以字典形式存储，便于开发者快速加载和处理。此外，数据集还提供了详细的元数据信息，帮助用户更好地理解数据的来源和用途，从而优化模型的训练过程。

背景与挑战

背景概述

OpenHermes-2.5-Uncensored数据集是OpenHermes系列模型的重要组成部分，由Teknium团队于2023年发布。该数据集是OpenHermes 1的延续，规模更大、多样性更丰富、质量更高，包含了约100万条主要基于合成生成的指令和对话样本。这些数据来源于多个开源数据集和自定义合成数据集，如Airoboros 2.2、CamelAI领域专家数据集、ChatBot Arena等。OpenHermes-2.5-Uncensored通过移除原始数据集中的2,697条被审查内容，进一步提升了数据的开放性和多样性。该数据集在推动大语言模型（LLM）的发展中发挥了重要作用，尤其是在提升模型的通用性和对话能力方面。

当前挑战

OpenHermes-2.5-Uncensored数据集在构建和应用中面临多重挑战。首先，数据集的构建依赖于大量开源和合成数据，如何确保数据的多样性和质量是一个核心问题。其次，移除被审查内容的过程需要精确的算法支持，以避免误删或遗漏重要信息。此外，数据集的结构遵循ShareGPT格式，要求每条对话记录包含角色和文本信息，这对数据的标准化和一致性提出了较高要求。最后，由于数据集规模庞大，如何高效地进行数据处理、存储和检索也是技术上的重要挑战。这些挑战不仅影响了数据集的构建过程，也对基于该数据集训练的模型性能产生了深远影响。

常用场景

经典使用场景

OpenHermes-2.5-Uncensored数据集在自然语言处理领域中被广泛应用于训练和评估大型语言模型（LLMs）。该数据集通过去除原始数据集中的审查内容，提供了更为开放和多样化的对话样本，特别适用于生成式对话系统的开发。研究人员利用该数据集进行模型微调，以提升模型在开放域对话中的表现，尤其是在处理复杂指令和多轮对话时的能力。

解决学术问题

OpenHermes-2.5-Uncensored数据集解决了大型语言模型在开放域对话中的多样性和泛化能力问题。通过提供大量高质量的合成指令和对话样本，该数据集帮助研究人员克服了传统数据集在内容多样性和复杂性上的局限性。其丰富的对话结构和多领域覆盖使得模型能够在更广泛的情境下进行有效学习和推理，推动了对话系统研究的进展。

实际应用

在实际应用中，OpenHermes-2.5-Uncensored数据集被广泛用于开发智能助手、客服机器人和教育工具。其开放的对话样本使得模型能够更好地理解用户意图并提供准确的响应，尤其在需要处理复杂指令或跨领域知识的场景中表现出色。此外，该数据集还被用于生成高质量的对话数据，以支持多语言和多文化背景下的对话系统开发。

数据集最近研究