Mitsuki-Sakamoto/alpaca_farm-alpaca_gpt4_preference-re-preference_test
收藏Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Mitsuki-Sakamoto/alpaca_farm-alpaca_gpt4_preference-re-preference_test
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 326835
num_examples: 194
download_size: 218330
dataset_size: 326835
- config_name: opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 521048
num_examples: 194
download_size: 311073
dataset_size: 521048
- config_name: pythia-1.3b-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 340641
num_examples: 194
download_size: 229970
dataset_size: 340641
- config_name: pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
splits:
- name: preference
num_bytes: 333120
num_examples: 194
download_size: 213247
dataset_size: 333120
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 487413
num_examples: 194
download_size: 314679
dataset_size: 487413
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 537218
num_examples: 194
download_size: 319560
dataset_size: 537218
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 517341
num_examples: 194
download_size: 320773
dataset_size: 517341
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 363613
num_examples: 194
download_size: 229405
dataset_size: 363613
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 381652
num_examples: 194
download_size: 241724
dataset_size: 381652
- config_name: pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 447991
num_examples: 194
download_size: 271136
dataset_size: 447991
- config_name: pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 162223
num_examples: 194
download_size: 110142
dataset_size: 162223
- config_name: pythia-1B-static-sft-reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
- name: old_output_1
dtype: string
- name: old_output_2
dtype: string
splits:
- name: preference
num_bytes: 120611
num_examples: 194
download_size: 83257
dataset_size: 120611
- config_name: reward-model-deberta-v3-large-v2
features:
- name: instruction
dtype: string
- name: input
dtype: string
- name: output_1
dtype: string
- name: output_2
dtype: string
- name: preference
dtype: int64
- name: old_preference
dtype: int64
splits:
- name: preference
num_bytes: 113541
num_examples: 194
download_size: 76166
dataset_size: 113541
configs:
- config_name: opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2/preference-*
- config_name: opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2/preference-*
- config_name: pythia-1B-static-sft-reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: pythia-1B-static-sft-reward-model-deberta-v3-large-v2/preference-*
- config_name: reward-model-deberta-v3-large-v2
data_files:
- split: preference
path: reward-model-deberta-v3-large-v2/preference-*
---
数据集信息:
- 配置名称: opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 326835
样本数: 194
下载大小: 218330
数据集大小: 326835
- 配置名称: opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 521048
样本数: 194
下载大小: 311073
数据集大小: 521048
- 配置名称: pythia-1.3b-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 340641
样本数: 194
下载大小: 229970
数据集大小: 340641
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
拆分:
- 名称: preference
字节数: 333120
样本数: 194
下载大小: 213247
数据集大小: 333120
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 487413
样本数: 194
下载大小: 314679
数据集大小: 487413
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 537218
样本数: 194
下载大小: 319560
数据集大小: 537218
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 517341
样本数: 194
下载大小: 320773
数据集大小: 517341
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 363613
样本数: 194
下载大小: 229405
数据集大小: 363613
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 381652
样本数: 194
下载大小: 241724
数据集大小: 381652
- 配置名称: pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 447991
样本数: 194
下载大小: 271136
数据集大小: 447991
- 配置名称: pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 162223
样本数: 194
下载大小: 110142
数据集大小: 162223
- 配置名称: pythia-1B-static-sft-reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
- 名称: 旧输出1
数据类型: string
- 名称: 旧输出2
数据类型: string
拆分:
- 名称: preference
字节数: 120611
样本数: 194
下载大小: 83257
数据集大小: 120611
- 配置名称: reward-model-deberta-v3-large-v2
特征:
- 名称: 指令
数据类型: string
- 名称: 输入
数据类型: string
- 名称: 输出1
数据类型: string
- 名称: 输出2
数据类型: string
- 名称: 偏好
数据类型: int64
- 名称: 旧偏好
数据类型: int64
拆分:
- 名称: preference
字节数: 113541
样本数: 194
下载大小: 76166
数据集大小: 113541
配置:
- 配置名称: opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: pythia-1B-static-sft-reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: pythia-1B-static-sft-reward-model-deberta-v3-large-v2/preference-*
- 配置名称: reward-model-deberta-v3-large-v2
数据文件:
- 拆分: preference
路径: reward-model-deberta-v3-large-v2/preference-*
提供机构:
Mitsuki-Sakamoto
原始信息汇总
数据集概述
数据集配置
配置名称:opt-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 326835num_examples: 194
- 下载大小:218330
- 数据集大小:326835
配置名称:opt-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 521048num_examples: 194
- 下载大小:311073
- 数据集大小:521048
配置名称:pythia-1.3b-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 340641num_examples: 194
- 下载大小:229970
- 数据集大小:340641
配置名称:pythia-1.3b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64
- 分割:
preference:num_bytes: 333120num_examples: 194
- 下载大小:213247
- 数据集大小:333120
配置名称:pythia-1.3b_alpaca_farm_instructions_sft_constant-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 487413num_examples: 194
- 下载大小:314679
- 数据集大小:487413
配置名称:pythia-1.3b_alpaca_farm_instructions_sft_constant_slow-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 537218num_examples: 194
- 下载大小:319560
- 数据集大小:537218
配置名称:pythia-1.3b_alpaca_farm_instructions_sft_constant_slow_w_peft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 517341num_examples: 194
- 下载大小:320773
- 数据集大小:517341
配置名称:pythia-1.3b_alpaca_farm_instructions_sft_slow-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 363613num_examples: 194
- 下载大小:229405
- 数据集大小:363613
配置名称:pythia-1.3b_alpaca_farm_instructions_sft_wo_peft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 381652num_examples: 194
- 下载大小:241724
- 数据集大小:381652
配置名称:pythia-1.4b_alpaca_farm_instructions_sft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 447991num_examples: 194
- 下载大小:271136
- 数据集大小:447991
配置名称:pythia-1B-response-full-static-sft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 162223num_examples: 194
- 下载大小:110142
- 数据集大小:162223
配置名称:pythia-1B-static-sft-reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64old_output_1: stringold_output_2: string
- 分割:
preference:num_bytes: 120611num_examples: 194
- 下载大小:83257
- 数据集大小:120611
配置名称:reward-model-deberta-v3-large-v2
- 特征:
instruction: stringinput: stringoutput_1: stringoutput_2: stringpreference: int64old_preference: int64
- 分割:
preference:num_bytes: 113541num_examples: 194
- 下载大小:76166
- 数据集大小:113541



