five

yale-nlp/RefDPO

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/yale-nlp/RefDPO
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于研究论文《理解直接偏好优化中的参考策略》,基于UltraFeedback数据集构建,特别是其二进制版本ultrafeedback_binarized_cleaned。

This dataset is built upon the binarized version of the UltraFeedback dataset, used for studying reference policies in direct preference optimization. The dataset includes multiple configurations, each corresponding to different training and validation data files.
提供机构:
yale-nlp
原始信息汇总

数据集概述

数据集名称

RefDPO

数据集描述

该数据集用于论文《Understanding Reference Policies in Direct Preference Optimization》中的实验。数据集基于UltraFeedback数据集的二值化版本ultrafeedback_binarized_cleaned,该二值化版本由ultrafeedback_binarized转换而来。

数据集配置

  • config_name: mistral

    • train: mistral_train.jsonl
    • val: mistral_val.jsonl
  • config_name: tulu2

    • train: tulu2_train.jsonl
    • val: tulu2_val.jsonl
  • config_name: mistralv2

    • train: mistralv2_train.jsonl
    • val: mistralv2_val.jsonl
  • config_name: mistral_prior

    • train: mistral_prior_train.jsonl
    • val: mistral_prior_val.jsonl
  • config_name: llama3

    • train: llama3_train.jsonl
    • val: llama3_val.jsonl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作