arcee-ai/ultrafeedback-binarized
收藏Hugging Face2024-05-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/arcee-ai/ultrafeedback-binarized
下载链接
链接失效反馈官方服务:
资源简介:
Ultrafeedback二值化数据集使用Argilla的偏好评分均值进行处理。该数据集包含三个主要特征:prompt(提示)、chosen(选择的回答)和rejected(拒绝的回答),每个回答都有内容和角色两个子特征。数据集分为训练集,包含60917个样本,总大小为281196481字节。处理步骤包括计算偏好评分均值、选择最佳评分作为chosen、随机选择评分较低的rejected,并过滤掉chosen和rejected评分相同的样本。
Ultrafeedback二值化数据集使用Argilla的偏好评分均值进行处理。该数据集包含三个主要特征:prompt(提示)、chosen(选择的回答)和rejected(拒绝的回答),每个回答都有内容和角色两个子特征。数据集分为训练集,包含60917个样本,总大小为281196481字节。处理步骤包括计算偏好评分均值、选择最佳评分作为chosen、随机选择评分较低的rejected,并过滤掉chosen和rejected评分相同的样本。
提供机构:
arcee-ai
原始信息汇总
数据集概述
数据集信息
- 名称: Ultrafeedback binarized
- 语言: 英语 (en)
- 许可证: MIT
- 标签: dpo, orpo, ultrafeedback
- 大小类别: 10K<n<100K
数据集特征
- prompt: 字符串类型
- chosen:
- content: 字符串类型
- role: 字符串类型
- rejected:
- content: 字符串类型
- role: 字符串类型
数据集分割
- 训练集 (train):
- 样本数: 60917
- 数据大小: 281196481字节
- 下载大小: 143011081字节
数据处理步骤
- 计算偏好评分的平均值(诚实度、遵循指令等)
- 选择最佳平均评分作为chosen
- 随机选择具有较低平均评分的rejected(或选择另一个随机评分如果与chosen评分相等)
- 过滤掉chosen评分等于rejected评分的示例



