yale-nlp/RefDPO

Name: yale-nlp/RefDPO
Creator: yale-nlp
Published: 2024-07-18 22:43:15
License: 暂无描述

Hugging Face2024-07-18 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/yale-nlp/RefDPO

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究论文《理解直接偏好优化中的参考策略》，基于UltraFeedback数据集构建，特别是其二进制版本ultrafeedback_binarized_cleaned。

This dataset is built upon the binarized version of the UltraFeedback dataset, used for studying reference policies in direct preference optimization. The dataset includes multiple configurations, each corresponding to different training and validation data files.

提供机构：

yale-nlp

原始信息汇总

数据集概述

数据集名称

RefDPO

数据集描述

该数据集用于论文《Understanding Reference Policies in Direct Preference Optimization》中的实验。数据集基于UltraFeedback数据集的二值化版本ultrafeedback_binarized_cleaned，该二值化版本由ultrafeedback_binarized转换而来。

数据集配置

config_name: mistral
- train: mistral_train.jsonl
- val: mistral_val.jsonl
config_name: tulu2
- train: tulu2_train.jsonl
- val: tulu2_val.jsonl
config_name: mistralv2
- train: mistralv2_train.jsonl
- val: mistralv2_val.jsonl
config_name: mistral_prior
- train: mistral_prior_train.jsonl
- val: mistral_prior_val.jsonl
config_name: llama3
- train: llama3_train.jsonl
- val: llama3_val.jsonl

5,000+

优质数据集

54 个

任务类型

进入经典数据集