five

0-hero/prompt-perfect-dpo

收藏
Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/0-hero/prompt-perfect-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Prompt Perfect的DPO版本,通过对多个流行数据集进行评分和生成新的数据对来创建。数据集包含四个额外的列:accepted_pair(原始输出或生成输出,评分为4或5)、rejected_pair(原始输出或生成输出,评分为1、2或3)、generated(生成的数据对,包括接受和拒绝的)和generator_model(用于生成数据对的模型)。数据集的创建过程包括使用GPT-3.5-turbo对原始数据集进行评分,然后使用GPT-4-0125-preview生成accepted_pairs,使用GPT-3.5-turbo-0125生成rejected_pairs。数据集还涉及对生成提示的调整,以测试模型生成长响应的可能性。

该数据集是Prompt Perfect的DPO版本,通过对多个流行数据集进行评分和生成新的数据对来创建。数据集包含四个额外的列:accepted_pair(原始输出或生成输出,评分为4或5)、rejected_pair(原始输出或生成输出,评分为1、2或3)、generated(生成的数据对,包括接受和拒绝的)和generator_model(用于生成数据对的模型)。数据集的创建过程包括使用GPT-3.5-turbo对原始数据集进行评分,然后使用GPT-4-0125-preview生成accepted_pairs,使用GPT-3.5-turbo-0125生成rejected_pairs。数据集还涉及对生成提示的调整,以测试模型生成长响应的可能性。
提供机构:
0-hero
原始信息汇总

DPO Version of Prompt Perfect

更新

2024年2月22日

  • 发现rejected_pair生成提示(或评分)与响应长度(详细程度)几乎成正比。
  • 测试新的提示,以确保质量不直接与响应长度成正比。
  • 这可能导致模型生成较长的响应。

所有数据集包含的额外列

  • accepted_pair - 原始输出或生成的输出(评分4,5)
  • rejected_pair - 原始输出或生成的输出(评分1,2,3)
  • generated - 生成的配对(accepted/rejected)
  • generator_model - 用于生成配对的模型

数据集创建过程

  1. 使用gpt-3.5-turbo对流行数据集进行1-5评分(原始Prompt Perfect数据集)。
  2. 使用gpt-4-0125-preview为评分1,2,3的行生成accepted_pairs(评分5)。
  3. 使用gpt-3.5-turbo-0125为评分4,5的行生成rejected_pairs(评分2,1)。

本批次中的数据集

  • airoboros-2.1
  • alpaca-gpt4
  • open-platypus
  • Synthia-1.3

评分标准

使用"Self-Alignment with Instruction Backtranslation"进行评分:

  1. 评分1:答案不完整、模糊、离题、有争议或非用户所问。
  2. 评分2:答案大部分回应了用户的需求,但不直接回答用户的问题。
  3. 评分3:答案有帮助,但不是由AI助手编写。
  4. 评分4:答案由AI助手编写,清晰、全面地回应了用户的问题。
  5. 评分5:答案是AI助手的完美回答,高质量、逻辑清晰、易于理解。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作