efederici/alpaca-vs-alpaca-orpo-dpo

Name: efederici/alpaca-vs-alpaca-orpo-dpo
Creator: efederici
Published: 2024-05-15 13:59:43
License: 暂无描述

Hugging Face2024-05-15 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/efederici/alpaca-vs-alpaca-orpo-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca vs. Alpaca数据集是Alpaca数据集和Alpaca GPT-4数据集的混合，这两个数据集均可在HuggingFace Datasets上找到。它使用标准GPT数据集作为rejected答案，引导模型选择GPT-4答案作为chosen。需要注意的是，这里的正确性并非绝对，前提是假设GPT-4答案在连贯性、语法和风格上通常更优，因此在人类评估环境中更受青睐。这可能并不总是成立。数据集经过过滤，排除了引用GPT-4的行、两个模型输出相同的行以及GPT-4拒绝回答的实例。该数据集主要用于对话任务，训练奖励模型或应用DPO等技术。

提供机构：

efederici

原始信息汇总

Alpaca vs. Alpaca 数据集概述

数据集描述

Alpaca vs. Alpaca 数据集是 Alpaca 数据集和 Alpaca GPT-4 数据集的精选混合，这两个数据集均可在 HuggingFace Datasets 上获取。该数据集使用标准 GPT 数据集作为 rejected 答案，引导模型倾向于 GPT-4 答案，后者被视为 chosen 答案。

需要注意的是，这里的正确性并非绝对。前提是基于 GPT-4 答案在连贯性、语法和风格方面通常更优越的假设，因此在人类评估环境中更受欢迎。但这并不总是适用。

数据集经过筛选，排除了提及 GPT-4 的行、两个模型输出相同的行以及 GPT-4 拒绝响应的实例（部分）。

该数据集主要设计用于对话任务，训练奖励模型或应用 DPO 等技术。

数据集信息

特征

prompt: 字符串类型
rejected: 列表类型
- content: 字符串类型
- role: 字符串类型
chosen: 列表类型
- content: 字符串类型
- role: 字符串类型

分割

train:
- 字节数: 64319355
- 样本数: 49194

大小

下载大小: 36898348
数据集大小: 64319355

配置

default:
- 数据文件:
  - train: data/train-*

efederici/alpaca-vs-alpaca-orpo-dpo

Alpaca vs. Alpaca 数据集概述

数据集描述

数据集信息

特征

分割

大小

配置

标签