argilla/OpenHermes2.5-dpo-binarized-alpha
收藏Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/OpenHermes2.5-dpo-binarized-alpha
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为OpenHermes-2.5-DPO-binarized-alpha,是基于OpenHermes-2.5数据集构建的DPO(Direct Preference Optimization)数据集。数据集使用了distilabel工具,并采用了PairRM进行偏好选择,而不是使用OpenAI模型。数据集包含了训练集和测试集,分别有8813和980个样本。数据集的构建过程包括使用vLLM和Nous-Hermes-2-Yi-34B模型生成响应,并使用PairRM进行偏好排序,最终生成chosen和rejected对。数据集的使用方法包括如何格式化数据以用于偏好调优chatml兼容的模型。
该数据集名为OpenHermes-2.5-DPO-binarized-alpha,是基于OpenHermes-2.5数据集构建的DPO(Direct Preference Optimization)数据集。数据集使用了distilabel工具,并采用了PairRM进行偏好选择,而不是使用OpenAI模型。数据集包含了训练集和测试集,分别有8813和980个样本。数据集的构建过程包括使用vLLM和Nous-Hermes-2-Yi-34B模型生成响应,并使用PairRM进行偏好排序,最终生成chosen和rejected对。数据集的使用方法包括如何格式化数据以用于偏好调优chatml兼容的模型。
提供机构:
argilla
原始信息汇总
数据集概述
数据集信息
-
特征列表:
hash: 数据类型为nullavatarUrl: 数据类型为nullmodel: 数据类型为nullcategory: 数据类型为stringviews: 数据类型为nullsystem_prompt: 数据类型为nullmodel_name: 数据类型为nulllanguage: 数据类型为nullid: 数据类型为nullskip_prompt_formatting: 数据类型为boolcustom_instruction: 数据类型为nulltopic: 数据类型为nulltitle: 数据类型为nullidx: 数据类型为nullsource: 数据类型为stringconversations: 列表类型,包含以下子特征:from: 数据类型为stringvalue: 数据类型为stringweight: 数据类型为null
input: 数据类型为stringgeneration_model: 序列类型,数据类型为stringgeneration_prompt: 序列类型,数据类型为stringraw_generation_responses: 序列类型,数据类型为stringgenerations: 序列类型,数据类型为stringrating: 序列类型,数据类型为float32chosen: 列表类型,包含以下子特征:content: 数据类型为stringrole: 数据类型为string
rejected: 列表类型,包含以下子特征:content: 数据类型为stringrole: 数据类型为string
chosen_model: 数据类型为stringrejected_model: 数据类型为stringrejected_score: 数据类型为float64chosen_score: 数据类型为float64
-
数据集划分:
train: 包含 8813 个样本,总大小为 85831620.35596855 字节test: 包含 980 个样本,总大小为 9544421.64403145 字节
-
数据集大小:
- 下载大小: 50892554 字节
- 数据集总大小: 95376042 字节
-
配置:
default配置包含以下数据文件:train数据文件路径:data/train-*test数据文件路径:data/test-*
-
标签:
syntheticdistilabelrlaifrlhfdpo



