weqweasdas/preference_dataset_mixture2_and_safe_pku
收藏Hugging Face2024-04-29 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/weqweasdas/preference_dataset_mixture2_and_safe_pku
下载链接
链接失效反馈官方服务:
资源简介:
该数据集混合用于训练奖励模型weqweasdas/RM-Mistral-7B,包含以下数据集:HH-RLHF、SHP、UltraFeedback、Capybara、HelpSteer、Orca和PKU-Alignment/PKU-SafeRLHF-30K。每个数据集都经过了特定的预处理,例如HH-RLHF仅使用有帮助的子集并删除噪声样本,SHP仅使用得分比大于2的样本,UltraFeedback使用细粒度得分进行样本排序,HelpSteer使用帮助性和正确性的平均值进行样本排序等。
该数据集混合用于训练奖励模型weqweasdas/RM-Mistral-7B,包含以下数据集:HH-RLHF、SHP、UltraFeedback、Capybara、HelpSteer、Orca和PKU-Alignment/PKU-SafeRLHF-30K。每个数据集都经过了特定的预处理,例如HH-RLHF仅使用有帮助的子集并删除噪声样本,SHP仅使用得分比大于2的样本,UltraFeedback使用细粒度得分进行样本排序,HelpSteer使用帮助性和正确性的平均值进行样本排序等。
提供机构:
weqweasdas
原始信息汇总
奖励模型概述
该数据集用于训练奖励模型 weqweasdas/RM-Mistral-7B,训练脚本位于 https://github.com/WeiXiongUST/RLHF-Reward-Modeling。
模型详情
模型训练数据集包括以下几个部分:
数据集预处理
数据集预处理细节如下:
- HH-RLHF:仅使用有帮助的子集,并删除 chosen_response 等于 rejected_response 的噪声样本;
- SHP:仅使用评分比率大于2的样本,每个提示最多取5个比较,共109526个样本;
- UltraFeedback:类似于 UltraFeedback-Binarized,使用细粒度评分而非总体评分来排序样本。每个提示取所有可能的6对比较,最后删除评分相等的选择对,共267416个样本;
- HelpSteer:使用帮助性和正确性的平均值来排序样本。每个提示取所有可能的6对比较,最后删除评分相等的选择对,共21576个样本。



