RefDPO

Name: RefDPO
Creator: maas
Published: 2025-12-05 16:21:59
License: 暂无描述

魔搭社区2025-12-05 更新2025-02-01 收录

下载链接：

https://modelscope.cn/datasets/yale-nlp/RefDPO

下载链接

链接失效反馈

官方服务：

资源简介：

# RefDPO This repo contains the datasets we used in our work "Understanding Reference Policies in Direct Preference Optimization". The datasets are built upon the [UltraFeedback](https://huggingface.co/datasets/openbmb/UltraFeedback) dataset, specifically its binarized version [ultrafeedback_binarized_cleaned](https://huggingface.co/datasets/allenai/ultrafeedback_binarized_cleaned) converted from [ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized).

# RefDPO 本仓库收录了我们在研究工作《理解直接偏好优化中的参考策略》中所使用的全部数据集。该数据集基于[UltraFeedback](https://huggingface.co/datasets/openbmb/UltraFeedback)数据集构建，具体采用其经[ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized)转换得到的二值化清理版本[ultrafeedback_binarized_cleaned](https://huggingface.co/datasets/allenai/ultrafeedback_binarized_cleaned)。

提供机构：

maas

创建时间：

2025-01-29

5,000+

优质数据集

54 个

任务类型

进入经典数据集