efederici/alpaca-vs-alpaca-orpo-dpo
收藏Hugging Face2024-05-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/efederici/alpaca-vs-alpaca-orpo-dpo
下载链接
链接失效反馈官方服务:
资源简介:
Alpaca vs. Alpaca数据集是Alpaca数据集和Alpaca GPT-4数据集的混合,这两个数据集均可在HuggingFace Datasets上找到。它使用标准GPT数据集作为rejected答案,引导模型选择GPT-4答案作为chosen。需要注意的是,这里的正确性并非绝对,前提是假设GPT-4答案在连贯性、语法和风格上通常更优,因此在人类评估环境中更受青睐。这可能并不总是成立。数据集经过过滤,排除了引用GPT-4的行、两个模型输出相同的行以及GPT-4拒绝回答的实例。该数据集主要用于对话任务,训练奖励模型或应用DPO等技术。
提供机构:
efederici
原始信息汇总
Alpaca vs. Alpaca 数据集概述
数据集描述
Alpaca vs. Alpaca 数据集是 Alpaca 数据集 和 Alpaca GPT-4 数据集 的精选混合,这两个数据集均可在 HuggingFace Datasets 上获取。该数据集使用标准 GPT 数据集作为 rejected 答案,引导模型倾向于 GPT-4 答案,后者被视为 chosen 答案。
需要注意的是,这里的 正确性 并非绝对。前提是基于 GPT-4 答案在连贯性、语法和风格方面通常更优越的假设,因此在人类评估环境中更受欢迎。但这并不总是适用。
数据集经过筛选,排除了提及 GPT-4 的行、两个模型输出相同的行以及 GPT-4 拒绝响应的实例(部分)。
该数据集主要设计用于对话任务,训练奖励模型或应用 DPO 等技术。
数据集信息
特征
- prompt: 字符串类型
- rejected: 列表类型
- content: 字符串类型
- role: 字符串类型
- chosen: 列表类型
- content: 字符串类型
- role: 字符串类型
分割
- train:
- 字节数: 64319355
- 样本数: 49194
大小
- 下载大小: 36898348
- 数据集大小: 64319355
配置
- default:
- 数据文件:
- train:
data/train-*
- train:
- 数据文件:
标签
- dpo
- rlhf
- synthetic
- orpo



