HuggingFaceH4/OpenHermes-2.5-1k-longest
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/OpenHermes-2.5-1k-longest
下载链接
链接失效反馈官方服务:
资源简介:
OpenHermes-2.5-1k-longest数据集是从teknium/OpenHermes-2.5数据集中提取的1000个样本,使用了Long is More for Alignment协议,该协议选择了最长的1000个响应,提供了一个强大的基线来衡量性能。数据集的结构包括source、category、messages和average_response_length等字段,其中messages包含多轮对话,可以用于训练聊天模型。数据集的创建过程包括从OpenHermes-2.5数据集中选择样本,并按照一定的比例进行分层采样。
OpenHermes-2.5-1k-longest数据集是从teknium/OpenHermes-2.5数据集中提取的1000个样本,使用了Long is More for Alignment协议,该协议选择了最长的1000个响应,提供了一个强大的基线来衡量性能。数据集的结构包括source、category、messages和average_response_length等字段,其中messages包含多轮对话,可以用于训练聊天模型。数据集的创建过程包括从OpenHermes-2.5数据集中选择样本,并按照一定的比例进行分层采样。
提供机构:
HuggingFaceH4
原始信息汇总
数据集概述
名称: OpenHermes-2.5-1k-longest
描述: 该数据集包含1,000个样本,是从teknium/OpenHermes-2.5中选取的最长的1,000个响应,用于训练聊天模型。
数据集特征
- source: 字符串类型,原始数据集的来源标识。
- category: 字符串类型,原始数据集的分类信息。
- messages: 列表类型,包含对话内容和角色信息。
- content: 字符串类型,对话内容。
- role: 字符串类型,对话角色(如用户、助手)。
- average_response_length: 浮点数类型,表示助手对话的平均长度,以字符为单位。
数据集分割
- train_sft: 训练集,包含1000个样本,总大小为6190190字节。
- test_sft: 测试集,包含1000个样本,总大小为8730167字节。
数据集大小
- 下载大小: 5949801字节
- 数据集总大小: 14920357字节
数据集配置
- config_name: default
- data_files:
- split: train_sft, path: data/train_sft-*
- split: test_sft, path: data/test_sft-*
任务类别
- text-generation
标签
- sft
- synthetic
许可证
- other
数据集结构
每个样本的结构如下:
json { "source": "string", "category": "string", "messages": [ { "content": "string", "role": "string" } ], "average_response_length": "float" }
使用场景
该数据集适合用于通过监督微调(SFT)训练聊天模型。加载数据集的示例代码如下:
python from datasets import load_dataset from transformers import AutoTokenizer
ds = load_dataset("HuggingFaceH4/OpenHermes-2.5-1k-longest") tokenizer = AutoTokenizer.from_pretrained("teknium/OpenHermes-2.5-Mistral-7B") example = ds["train_sft"][0] formatted_example = tokenizer.apply_chat_template(example["messages"], tokenize=False) print(formatted_example)



