five

HuggingFaceH4/OpenHermes-2.5-1k-longest

收藏
Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/OpenHermes-2.5-1k-longest
下载链接
链接失效反馈
官方服务:
资源简介:
OpenHermes-2.5-1k-longest数据集是从teknium/OpenHermes-2.5数据集中提取的1000个样本,使用了Long is More for Alignment协议,该协议选择了最长的1000个响应,提供了一个强大的基线来衡量性能。数据集的结构包括source、category、messages和average_response_length等字段,其中messages包含多轮对话,可以用于训练聊天模型。数据集的创建过程包括从OpenHermes-2.5数据集中选择样本,并按照一定的比例进行分层采样。

OpenHermes-2.5-1k-longest数据集是从teknium/OpenHermes-2.5数据集中提取的1000个样本,使用了Long is More for Alignment协议,该协议选择了最长的1000个响应,提供了一个强大的基线来衡量性能。数据集的结构包括source、category、messages和average_response_length等字段,其中messages包含多轮对话,可以用于训练聊天模型。数据集的创建过程包括从OpenHermes-2.5数据集中选择样本,并按照一定的比例进行分层采样。
提供机构:
HuggingFaceH4
原始信息汇总

数据集概述

名称: OpenHermes-2.5-1k-longest

描述: 该数据集包含1,000个样本,是从teknium/OpenHermes-2.5中选取的最长的1,000个响应,用于训练聊天模型。

数据集特征

  • source: 字符串类型,原始数据集的来源标识。
  • category: 字符串类型,原始数据集的分类信息。
  • messages: 列表类型,包含对话内容和角色信息。
    • content: 字符串类型,对话内容。
    • role: 字符串类型,对话角色(如用户、助手)。
  • average_response_length: 浮点数类型,表示助手对话的平均长度,以字符为单位。

数据集分割

  • train_sft: 训练集,包含1000个样本,总大小为6190190字节。
  • test_sft: 测试集,包含1000个样本,总大小为8730167字节。

数据集大小

  • 下载大小: 5949801字节
  • 数据集总大小: 14920357字节

数据集配置

  • config_name: default
  • data_files:
    • split: train_sft, path: data/train_sft-*
    • split: test_sft, path: data/test_sft-*

任务类别

  • text-generation

标签

  • sft
  • synthetic

许可证

  • other

数据集结构

每个样本的结构如下:

json { "source": "string", "category": "string", "messages": [ { "content": "string", "role": "string" } ], "average_response_length": "float" }

使用场景

该数据集适合用于通过监督微调(SFT)训练聊天模型。加载数据集的示例代码如下:

python from datasets import load_dataset from transformers import AutoTokenizer

ds = load_dataset("HuggingFaceH4/OpenHermes-2.5-1k-longest") tokenizer = AutoTokenizer.from_pretrained("teknium/OpenHermes-2.5-Mistral-7B") example = ds["train_sft"][0] formatted_example = tokenizer.apply_chat_template(example["messages"], tokenize=False) print(formatted_example)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作