weqweasdas/preference_dataset_mixture2_and_safe_pku

Name: weqweasdas/preference_dataset_mixture2_and_safe_pku
Creator: weqweasdas
Published: 2024-04-29 01:05:46
License: 暂无描述

Hugging Face2024-04-29 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/weqweasdas/preference_dataset_mixture2_and_safe_pku

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集混合用于训练奖励模型weqweasdas/RM-Mistral-7B，包含以下数据集：HH-RLHF、SHP、UltraFeedback、Capybara、HelpSteer、Orca和PKU-Alignment/PKU-SafeRLHF-30K。每个数据集都经过了特定的预处理，例如HH-RLHF仅使用有帮助的子集并删除噪声样本，SHP仅使用得分比大于2的样本，UltraFeedback使用细粒度得分进行样本排序，HelpSteer使用帮助性和正确性的平均值进行样本排序等。

提供机构：

weqweasdas

原始信息汇总

奖励模型概述

该数据集用于训练奖励模型 weqweasdas/RM-Mistral-7B，训练脚本位于 https://github.com/WeiXiongUST/RLHF-Reward-Modeling。

模型详情

模型训练数据集包括以下几个部分：

数据集预处理

数据集预处理细节如下：

HH-RLHF：仅使用有帮助的子集，并删除 chosen_response 等于 rejected_response 的噪声样本；
SHP：仅使用评分比率大于2的样本，每个提示最多取5个比较，共109526个样本；
UltraFeedback：类似于 UltraFeedback-Binarized，使用细粒度评分而非总体评分来排序样本。每个提示取所有可能的6对比较，最后删除评分相等的选择对，共267416个样本；
HelpSteer：使用帮助性和正确性的平均值来排序样本。每个提示取所有可能的6对比较，最后删除评分相等的选择对，共21576个样本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集