OpenLLMAI/preference_dataset_mixture2_and_safe_pku
收藏Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/OpenLLMAI/preference_dataset_mixture2_and_safe_pku
下载链接
链接失效反馈官方服务:
资源简介:
该数据集混合用于训练奖励模型weqweasdas/RM-Mistral-7B,包含以下数据集的混合:HH-RLHF、SHP、UltraFeedback、Capybara、HelpSteer、Orca和PKU-Alignment/PKU-SafeRLHF-30K。数据处理方法包括删除噪声样本、使用特定评分比率筛选样本、使用细粒度评分进行样本排序等。
该数据集混合用于训练奖励模型weqweasdas/RM-Mistral-7B,包含以下数据集的混合:HH-RLHF、SHP、UltraFeedback、Capybara、HelpSteer、Orca和PKU-Alignment/PKU-SafeRLHF-30K。数据处理方法包括删除噪声样本、使用特定评分比率筛选样本、使用细粒度评分进行样本排序等。
提供机构:
OpenLLMAI
原始信息汇总
数据集概述
数据集组成
该数据集是用于训练奖励模型 weqweasdas/RM-Mistral-7B 的数据混合体,包含以下子数据集:
数据预处理
- HH-RLHF: 仅使用有帮助的子集,并删除
chosen_response == rejected_response的噪声样本。 - SHP: 仅使用评分比率大于2的样本,每个提示最多取5个比较,最终得到109526个样本。
- UltraFeedback: 使用细粒度评分而非总体评分来排序样本,每个提示取所有可能的6对比较,删除评分相等的选择对,最终得到267416个样本。
- HelpSteer: 使用帮助性和正确性的平均值来排序样本,每个提示取所有可能的6对比较,删除评分相等的选择对,最终得到21576个样本。



