lee221/assignment4-pairrm-preferences
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lee221/assignment4-pairrm-preferences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于训练或评估对话模型的结构化数据集,包含50个训练样本。每个样本由三个主要部分组成:prompt(提示)、chosen(被选中的回复)和rejected(被拒绝的回复)。每个部分都是一个列表,包含role(角色,例如用户或助手)和content(内容,即文本消息)字段,数据类型均为字符串。数据集可能用于对比学习或偏好对齐任务,例如在强化学习从人类反馈(RLHF)中区分高质量和低质量回复,但具体应用未在README中说明。数据以训练集形式提供,总大小约为209551字节。
提供机构:
lee221



