snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset

Name: snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset
Creator: snorkelai
Published: 2024-01-23 04:31:44
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/snorkelai/Snorkel-Mistral-PairRM-DPO-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练Snorkel模型，仅使用了UltraFeedback的提示，未使用外部LLM响应。生成方法包括：为每个提示生成5个响应变体，使用PairRM进行响应重排序，并应用直接偏好优化（DPO）更新LLM。数据集分为三个迭代的训练和测试集，每个迭代使用不同的提示集。

提供机构：

snorkelai

原始信息汇总

数据集概述

5,000+

优质数据集

54 个

任务类型

进入经典数据集