yizhilll/demo_rejection_sampling_QA_phi-2_deberta-v3-large-v2_temp0.2

Name: yizhilll/demo_rejection_sampling_QA_phi-2_deberta-v3-large-v2_temp0.2
Creator: yizhilll
Published: 2023-12-30 00:18:08
License: 暂无描述

Hugging Face2023-12-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yizhilll/demo_rejection_sampling_QA_phi-2_deberta-v3-large-v2_temp0.2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于对齐/偏好学习的演示数据集。数据集包含部分手工制作的问题（提示），答案由phi-2模型生成，温度为0.2，并由deberta-large-v2模型评分。数据集包含问题、从高到低选择的答案，以及拒绝采样的结果（K=8）。

提供机构：

yizhilll

原始信息汇总

数据集概述

特征信息

问题 (question): 字符串类型
答案 (answer): 字符串类型
基础跟随难度 (base_follow_difficulty): 字符串类型
标签 (tag): 字符串类型
来源 (source): 字符串类型
选定答案 (selected_answer): 字符串类型
选定奖励 (selected_reward): 浮点数类型 (float64)
拒绝答案 (rejected_answers): 字符串序列
拒绝奖励 (rejected_rewards): 浮点数序列 (float64)

数据分割

训练集 (train):
- 字节数: 29297
- 样本数: 10

数据大小

下载大小: 20255 字节
数据集大小: 29297 字节

配置

默认配置 (default):
- 数据文件:
  - 分割: 训练集
  - 路径: data/train-*

任务类别

文本生成 (text-generation)

语言

英语 (en)

数据集大小类别

小于1K (n<1K)

5,000+

优质数据集

54 个

任务类型

进入经典数据集