yale-nlp/RefDPO
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/yale-nlp/RefDPO
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于研究论文《理解直接偏好优化中的参考策略》,基于UltraFeedback数据集构建,特别是其二进制版本ultrafeedback_binarized_cleaned。
This dataset is built upon the binarized version of the UltraFeedback dataset, used for studying reference policies in direct preference optimization. The dataset includes multiple configurations, each corresponding to different training and validation data files.
提供机构:
yale-nlp
原始信息汇总
数据集概述
数据集名称
RefDPO
数据集描述
该数据集用于论文《Understanding Reference Policies in Direct Preference Optimization》中的实验。数据集基于UltraFeedback数据集的二值化版本ultrafeedback_binarized_cleaned,该二值化版本由ultrafeedback_binarized转换而来。
数据集配置
-
config_name: mistral
- train:
mistral_train.jsonl - val:
mistral_val.jsonl
- train:
-
config_name: tulu2
- train:
tulu2_train.jsonl - val:
tulu2_val.jsonl
- train:
-
config_name: mistralv2
- train:
mistralv2_train.jsonl - val:
mistralv2_val.jsonl
- train:
-
config_name: mistral_prior
- train:
mistral_prior_train.jsonl - val:
mistral_prior_val.jsonl
- train:
-
config_name: llama3
- train:
llama3_train.jsonl - val:
llama3_val.jsonl
- train:



