RefDPO
收藏魔搭社区2025-12-05 更新2025-02-01 收录
下载链接:
https://modelscope.cn/datasets/yale-nlp/RefDPO
下载链接
链接失效反馈官方服务:
资源简介:
# RefDPO
This repo contains the datasets we used in our work "Understanding Reference Policies in Direct Preference Optimization".
The datasets are built upon the [UltraFeedback](https://huggingface.co/datasets/openbmb/UltraFeedback) dataset, specifically its binarized version [ultrafeedback_binarized_cleaned](https://huggingface.co/datasets/allenai/ultrafeedback_binarized_cleaned) converted from [ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized).
# RefDPO
本仓库收录了我们在研究工作《理解直接偏好优化中的参考策略》中所使用的全部数据集。
该数据集基于[UltraFeedback](https://huggingface.co/datasets/openbmb/UltraFeedback)数据集构建,具体采用其经[ultrafeedback_binarized](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized)转换得到的二值化清理版本[ultrafeedback_binarized_cleaned](https://huggingface.co/datasets/allenai/ultrafeedback_binarized_cleaned)。
提供机构:
maas
创建时间:
2025-01-29



