HuggingFaceH4/OpenHermes-2.5-1k-longest

Name: HuggingFaceH4/OpenHermes-2.5-1k-longest
Creator: HuggingFaceH4
Published: 2024-02-16 16:32:00
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceH4/OpenHermes-2.5-1k-longest

下载链接

链接失效反馈

官方服务：

资源简介：

OpenHermes-2.5-1k-longest数据集是从teknium/OpenHermes-2.5数据集中提取的1000个样本，使用了Long is More for Alignment协议，该协议选择了最长的1000个响应，提供了一个强大的基线来衡量性能。数据集的结构包括source、category、messages和average_response_length等字段，其中messages包含多轮对话，可以用于训练聊天模型。数据集的创建过程包括从OpenHermes-2.5数据集中选择样本，并按照一定的比例进行分层采样。

提供机构：

HuggingFaceH4

原始信息汇总

数据集概述

名称: OpenHermes-2.5-1k-longest

描述: 该数据集包含1,000个样本，是从teknium/OpenHermes-2.5中选取的最长的1,000个响应，用于训练聊天模型。

数据集特征

source: 字符串类型，原始数据集的来源标识。
category: 字符串类型，原始数据集的分类信息。
messages: 列表类型，包含对话内容和角色信息。
- content: 字符串类型，对话内容。
- role: 字符串类型，对话角色（如用户、助手）。
average_response_length: 浮点数类型，表示助手对话的平均长度，以字符为单位。

数据集分割

train_sft: 训练集，包含1000个样本，总大小为6190190字节。
test_sft: 测试集，包含1000个样本，总大小为8730167字节。

数据集大小

下载大小: 5949801字节
数据集总大小: 14920357字节

数据集配置

config_name: default
data_files:
- split: train_sft, path: data/train_sft-*
- split: test_sft, path: data/test_sft-*

任务类别

text-generation

许可证

other

数据集结构

每个样本的结构如下：

json { "source": "string", "category": "string", "messages": [ { "content": "string", "role": "string" } ], "average_response_length": "float" }

使用场景

该数据集适合用于通过监督微调（SFT）训练聊天模型。加载数据集的示例代码如下：

python from datasets import load_dataset from transformers import AutoTokenizer

ds = load_dataset("HuggingFaceH4/OpenHermes-2.5-1k-longest") tokenizer = AutoTokenizer.from_pretrained("teknium/OpenHermes-2.5-Mistral-7B") example = ds["train_sft"][0] formatted_example = tokenizer.apply_chat_template(example["messages"], tokenize=False) print(formatted_example)