0-hero/prompt-perfect-dpo

收藏

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/0-hero/prompt-perfect-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Prompt Perfect的DPO版本，通过对多个流行数据集进行评分和生成新的数据对来创建。数据集包含四个额外的列：accepted_pair（原始输出或生成输出，评分为4或5）、rejected_pair（原始输出或生成输出，评分为1、2或3）、generated（生成的数据对，包括接受和拒绝的）和generator_model（用于生成数据对的模型）。数据集的创建过程包括使用GPT-3.5-turbo对原始数据集进行评分，然后使用GPT-4-0125-preview生成accepted_pairs，使用GPT-3.5-turbo-0125生成rejected_pairs。数据集还涉及对生成提示的调整，以测试模型生成长响应的可能性。

该数据集是Prompt Perfect的DPO版本，通过对多个流行数据集进行评分和生成新的数据对来创建。数据集包含四个额外的列：accepted_pair（原始输出或生成输出，评分为4或5）、rejected_pair（原始输出或生成输出，评分为1、2或3）、generated（生成的数据对，包括接受和拒绝的）和generator_model（用于生成数据对的模型）。数据集的创建过程包括使用GPT-3.5-turbo对原始数据集进行评分，然后使用GPT-4-0125-preview生成accepted_pairs，使用GPT-3.5-turbo-0125生成rejected_pairs。数据集还涉及对生成提示的调整，以测试模型生成长响应的可能性。

提供机构：

0-hero

原始信息汇总

DPO Version of Prompt Perfect

更新

2024年2月22日

发现rejected_pair生成提示（或评分）与响应长度（详细程度）几乎成正比。
测试新的提示，以确保质量不直接与响应长度成正比。
这可能导致模型生成较长的响应。

所有数据集包含的额外列

accepted_pair - 原始输出或生成的输出（评分4,5）
rejected_pair - 原始输出或生成的输出（评分1,2,3）
generated - 生成的配对（accepted/rejected）
generator_model - 用于生成配对的模型

数据集创建过程

使用gpt-3.5-turbo对流行数据集进行1-5评分（原始Prompt Perfect数据集）。
使用gpt-4-0125-preview为评分1,2,3的行生成accepted_pairs（评分5）。
使用gpt-3.5-turbo-0125为评分4,5的行生成rejected_pairs（评分2,1）。

本批次中的数据集

airoboros-2.1
alpaca-gpt4
open-platypus
Synthia-1.3

评分标准

使用"Self-Alignment with Instruction Backtranslation"进行评分：

评分1：答案不完整、模糊、离题、有争议或非用户所问。
评分2：答案大部分回应了用户的需求，但不直接回答用户的问题。
评分3：答案有帮助，但不是由AI助手编写。
评分4：答案由AI助手编写，清晰、全面地回应了用户的问题。
评分5：答案是AI助手的完美回答，高质量、逻辑清晰、易于理解。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作