Mitsuki-Sakamoto/alpaca_farm-reward-model-deberta-v3-large-v2-re-preference-64-nsample-8_random
收藏Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Mitsuki-Sakamoto/alpaca_farm-reward-model-deberta-v3-large-v2-re-preference-64-nsample-8_random
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
- name: preference
dtype: int64
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: reward_model_prompt_format
dtype: string
- name: gen_prompt_format
dtype: string
- name: gen_kwargs
struct:
- name: do_sample
dtype: bool
- name: max_new_tokens
dtype: int64
- name: pad_token_id
dtype: int64
- name: top_k
dtype: int64
- name: top_p
dtype: float64
- name: reward_1
dtype: float64
- name: reward_2
dtype: float64
- name: n_samples
dtype: int64
- name: reject_select
dtype: string
splits:
- name: preference
num_bytes: 25769164
num_examples: 20001
download_size: 12288408
dataset_size: 25769164
- config_name: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
- name: preference
dtype: int64
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: reward_model_prompt_format
dtype: string
- name: gen_prompt_format
dtype: string
- name: gen_kwargs
struct:
- name: do_sample
dtype: bool
- name: max_new_tokens
dtype: int64
- name: pad_token_id
dtype: int64
- name: top_k
dtype: int64
- name: top_p
dtype: float64
- name: reward_1
dtype: float64
- name: reward_2
dtype: float64
- name: n_samples
dtype: int64
- name: reject_select
dtype: string
splits:
- name: preference
num_bytes: 25841710
num_examples: 20001
download_size: 12249297
dataset_size: 25841710
- config_name: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output
dtype: string
- name: preference
dtype: int64
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: reward_model_prompt_format
dtype: string
- name: gen_prompt_format
dtype: string
- name: gen_kwargs
struct:
- name: do_sample
dtype: bool
- name: max_new_tokens
dtype: int64
- name: pad_token_id
dtype: int64
- name: top_k
dtype: int64
- name: top_p
dtype: float64
- name: reward_1
dtype: float64
- name: reward_2
dtype: float64
- name: n_samples
dtype: int64
- name: reject_select
dtype: string
splits:
- name: preference
num_bytes: 25739637
num_examples: 20001
download_size: 11961077
dataset_size: 25739637
configs:
- config_name: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
data_files:
- split: preference
path: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500/preference-*
- config_name: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
data_files:
- split: preference
path: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*
- config_name: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
data_files:
- split: preference
path: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*
---
数据集信息:
- 配置名称: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
特征:
- 名称:指令(instruction),数据类型:字符串
- 名称:输入(input),数据类型:字符串
- 名称:输出(output),数据类型:字符串
- 名称:偏好(preference),数据类型:64位整数
- 名称:输出1(output_1),数据类型:字符串
- 名称:输出2(output_2),数据类型:字符串
- 名称:奖励模型提示格式(reward_model_prompt_format),数据类型:字符串
- 名称:生成提示格式(gen_prompt_format),数据类型:字符串
- 名称:生成参数配置(gen_kwargs),结构体:
- 名称:采样开关(do_sample),数据类型:布尔值
- 名称:最大新Token数(max_new_tokens),数据类型:64位整数
- 名称:填充Token ID(pad_token_id),数据类型:64位整数
- 名称:Top-K采样(top_k),数据类型:64位整数
- 名称:Top-P采样(top_p),数据类型:双精度浮点数
- 名称:奖励值1(reward_1),数据类型:双精度浮点数
- 名称:奖励值2(reward_2),数据类型:双精度浮点数
- 名称:样本数(n_samples),数据类型:64位整数
- 名称:拒绝选择(reject_select),数据类型:字符串
划分:
- 划分名称:preference,字节数:25769164,样本数量:20001
下载大小:12288408
数据集大小:25769164
- 配置名称: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
特征:
- 名称:指令,数据类型:字符串
- 名称:输入,数据类型:字符串
- 名称:输出,数据类型:字符串
- 名称:偏好,数据类型:64位整数
- 名称:输出1,数据类型:字符串
- 名称:输出2,数据类型:字符串
- 名称:奖励模型提示格式,数据类型:字符串
- 名称:生成提示格式,数据类型:字符串
- 名称:生成参数配置,结构体:
- 名称:采样开关,数据类型:布尔值
- 名称:最大新Token数,数据类型:64位整数
- 名称:填充Token ID,数据类型:64位整数
- 名称:Top-K采样,数据类型:64位整数
- 名称:Top-P采样,数据类型:双精度浮点数
- 名称:奖励值1,数据类型:双精度浮点数
- 名称:奖励值2,数据类型:双精度浮点数
- 名称:样本数,数据类型:64位整数
- 名称:拒绝选择,数据类型:字符串
划分:
- 划分名称:preference,字节数:25841710,样本数量:20001
下载大小:12249297
数据集大小:25841710
- 配置名称: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
特征:
- 名称:指令,数据类型:字符串
- 名称:输入,数据类型:字符串
- 名称:输出,数据类型:字符串
- 名称:偏好,数据类型:64位整数
- 名称:输出1,数据类型:字符串
- 名称:输出2,数据类型:字符串
- 名称:奖励模型提示格式,数据类型:字符串
- 名称:生成提示格式,数据类型:字符串
- 名称:生成参数配置,结构体:
- 名称:采样开关,数据类型:布尔值
- 名称:最大新Token数,数据类型:64位整数
- 名称:填充Token ID,数据类型:64位整数
- 名称:Top-K采样,数据类型:64位整数
- 名称:Top-P采样,数据类型:双精度浮点数
- 名称:奖励值1,数据类型:双精度浮点数
- 名称:奖励值2,数据类型:双精度浮点数
- 名称:样本数,数据类型:64位整数
- 名称:拒绝选择,数据类型:字符串
划分:
- 划分名称:preference,字节数:25739637,样本数量:20001
下载大小:11961077
数据集大小:25739637
配置集:
- 配置名称: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
数据文件:
- 划分:preference,路径:alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500/preference-*
- 配置名称: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
数据文件:
- 划分:preference,路径:alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*
- 配置名称: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
数据文件:
- 划分:preference,路径:alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*
提供机构:
Mitsuki-Sakamoto
原始信息汇总
数据集概述
配置名称及特征
配置名称:alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
- 特征列表:
instruction: 字符串类型input: 字符串类型output: 字符串类型preference: 64位整数类型output_1: 字符串类型output_2: 字符串类型reward_model_prompt_format: 字符串类型gen_prompt_format: 字符串类型gen_kwargs: 结构体类型,包含以下字段:do_sample: 布尔类型max_new_tokens: 64位整数类型pad_token_id: 64位整数类型top_k: 64位整数类型top_p: 64位浮点数类型
reward_1: 64位浮点数类型reward_2: 64位浮点数类型n_samples: 64位整数类型reject_select: 字符串类型
- 数据分割:
preference: 25769164字节,20001个样本
- 下载大小:12288408字节
- 数据集大小:25769164字节
配置名称:alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
- 特征列表:
instruction: 字符串类型input: 字符串类型output: 字符串类型preference: 64位整数类型output_1: 字符串类型output_2: 字符串类型reward_model_prompt_format: 字符串类型gen_prompt_format: 字符串类型gen_kwargs: 结构体类型,包含以下字段:do_sample: 布尔类型max_new_tokens: 64位整数类型pad_token_id: 64位整数类型top_k: 64位整数类型top_p: 64位浮点数类型
reward_1: 64位浮点数类型reward_2: 64位浮点数类型n_samples: 64位整数类型reject_select: 字符串类型
- 数据分割:
preference: 25841710字节,20001个样本
- 下载大小:12249297字节
- 数据集大小:25841710字节
配置名称:alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
- 特征列表:
instruction: 字符串类型input: 字符串类型output: 字符串类型preference: 64位整数类型output_1: 字符串类型output_2: 字符串类型reward_model_prompt_format: 字符串类型gen_prompt_format: 字符串类型gen_kwargs: 结构体类型,包含以下字段:do_sample: 布尔类型max_new_tokens: 64位整数类型pad_token_id: 64位整数类型top_k: 64位整数类型top_p: 64位浮点数类型
reward_1: 64位浮点数类型reward_2: 64位浮点数类型n_samples: 64位整数类型reject_select: 字符串类型
- 数据分割:
preference: 25739637字节,20001个样本
- 下载大小:11961077字节
- 数据集大小:25739637字节
数据文件路径
-
配置名称:alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
preference分割路径:alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500/preference-*
-
配置名称:alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
preference分割路径:alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*
-
配置名称:alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
preference分割路径:alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*



