0-hero/prompt-perfect-dpo
收藏Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/0-hero/prompt-perfect-dpo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Prompt Perfect的DPO版本,通过对多个流行数据集进行评分和生成新的数据对来创建。数据集包含四个额外的列:accepted_pair(原始输出或生成输出,评分为4或5)、rejected_pair(原始输出或生成输出,评分为1、2或3)、generated(生成的数据对,包括接受和拒绝的)和generator_model(用于生成数据对的模型)。数据集的创建过程包括使用GPT-3.5-turbo对原始数据集进行评分,然后使用GPT-4-0125-preview生成accepted_pairs,使用GPT-3.5-turbo-0125生成rejected_pairs。数据集还涉及对生成提示的调整,以测试模型生成长响应的可能性。
该数据集是Prompt Perfect的DPO版本,通过对多个流行数据集进行评分和生成新的数据对来创建。数据集包含四个额外的列:accepted_pair(原始输出或生成输出,评分为4或5)、rejected_pair(原始输出或生成输出,评分为1、2或3)、generated(生成的数据对,包括接受和拒绝的)和generator_model(用于生成数据对的模型)。数据集的创建过程包括使用GPT-3.5-turbo对原始数据集进行评分,然后使用GPT-4-0125-preview生成accepted_pairs,使用GPT-3.5-turbo-0125生成rejected_pairs。数据集还涉及对生成提示的调整,以测试模型生成长响应的可能性。
提供机构:
0-hero
原始信息汇总
DPO Version of Prompt Perfect
更新
2024年2月22日
- 发现rejected_pair生成提示(或评分)与响应长度(详细程度)几乎成正比。
- 测试新的提示,以确保质量不直接与响应长度成正比。
- 这可能导致模型生成较长的响应。
所有数据集包含的额外列
- accepted_pair - 原始输出或生成的输出(评分4,5)
- rejected_pair - 原始输出或生成的输出(评分1,2,3)
- generated - 生成的配对(accepted/rejected)
- generator_model - 用于生成配对的模型
数据集创建过程
- 使用
gpt-3.5-turbo对流行数据集进行1-5评分(原始Prompt Perfect数据集)。 - 使用
gpt-4-0125-preview为评分1,2,3的行生成accepted_pairs(评分5)。 - 使用
gpt-3.5-turbo-0125为评分4,5的行生成rejected_pairs(评分2,1)。
本批次中的数据集
- airoboros-2.1
- alpaca-gpt4
- open-platypus
- Synthia-1.3
评分标准
使用"Self-Alignment with Instruction Backtranslation"进行评分:
- 评分1:答案不完整、模糊、离题、有争议或非用户所问。
- 评分2:答案大部分回应了用户的需求,但不直接回答用户的问题。
- 评分3:答案有帮助,但不是由AI助手编写。
- 评分4:答案由AI助手编写,清晰、全面地回应了用户的问题。
- 评分5:答案是AI助手的完美回答,高质量、逻辑清晰、易于理解。



