five

efederici/alpaca-vs-alpaca-orpo-dpo

收藏
Hugging Face2024-05-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/efederici/alpaca-vs-alpaca-orpo-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca vs. Alpaca数据集是Alpaca数据集和Alpaca GPT-4数据集的混合,这两个数据集均可在HuggingFace Datasets上找到。它使用标准GPT数据集作为rejected答案,引导模型选择GPT-4答案作为chosen。需要注意的是,这里的正确性并非绝对,前提是假设GPT-4答案在连贯性、语法和风格上通常更优,因此在人类评估环境中更受青睐。这可能并不总是成立。数据集经过过滤,排除了引用GPT-4的行、两个模型输出相同的行以及GPT-4拒绝回答的实例。该数据集主要用于对话任务,训练奖励模型或应用DPO等技术。
提供机构:
efederici
原始信息汇总

Alpaca vs. Alpaca 数据集概述

数据集描述

Alpaca vs. Alpaca 数据集是 Alpaca 数据集Alpaca GPT-4 数据集 的精选混合,这两个数据集均可在 HuggingFace Datasets 上获取。该数据集使用标准 GPT 数据集作为 rejected 答案,引导模型倾向于 GPT-4 答案,后者被视为 chosen 答案。

需要注意的是,这里的 正确性 并非绝对。前提是基于 GPT-4 答案在连贯性、语法和风格方面通常更优越的假设,因此在人类评估环境中更受欢迎。但这并不总是适用。

数据集经过筛选,排除了提及 GPT-4 的行、两个模型输出相同的行以及 GPT-4 拒绝响应的实例(部分)。

该数据集主要设计用于对话任务,训练奖励模型或应用 DPO 等技术。

数据集信息

特征

  • prompt: 字符串类型
  • rejected: 列表类型
    • content: 字符串类型
    • role: 字符串类型
  • chosen: 列表类型
    • content: 字符串类型
    • role: 字符串类型

分割

  • train:
    • 字节数: 64319355
    • 样本数: 49194

大小

  • 下载大小: 36898348
  • 数据集大小: 64319355

配置

  • default:
    • 数据文件:
      • train: data/train-*

标签

  • dpo
  • rlhf
  • synthetic
  • orpo
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作