Mitsuki-Sakamoto/alpaca_farm-reward-model-deberta-v3-large-v2-re-preference-64-nsample-8_random

Name: Mitsuki-Sakamoto/alpaca_farm-reward-model-deberta-v3-large-v2-re-preference-64-nsample-8_random
Creator: Mitsuki-Sakamoto
Published: 2024-03-10 15:41:48
License: 暂无描述

Hugging Face2024-03-10 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Mitsuki-Sakamoto/alpaca_farm-reward-model-deberta-v3-large-v2-re-preference-64-nsample-8_random

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500 features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: preference dtype: int64 - name: output_1 dtype: string - name: output_2 dtype: string - name: reward_model_prompt_format dtype: string - name: gen_prompt_format dtype: string - name: gen_kwargs struct: - name: do_sample dtype: bool - name: max_new_tokens dtype: int64 - name: pad_token_id dtype: int64 - name: top_k dtype: int64 - name: top_p dtype: float64 - name: reward_1 dtype: float64 - name: reward_2 dtype: float64 - name: n_samples dtype: int64 - name: reject_select dtype: string splits: - name: preference num_bytes: 25769164 num_examples: 20001 download_size: 12288408 dataset_size: 25769164 - config_name: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1 features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: preference dtype: int64 - name: output_1 dtype: string - name: output_2 dtype: string - name: reward_model_prompt_format dtype: string - name: gen_prompt_format dtype: string - name: gen_kwargs struct: - name: do_sample dtype: bool - name: max_new_tokens dtype: int64 - name: pad_token_id dtype: int64 - name: top_k dtype: int64 - name: top_p dtype: float64 - name: reward_1 dtype: float64 - name: reward_2 dtype: float64 - name: n_samples dtype: int64 - name: reject_select dtype: string splits: - name: preference num_bytes: 25841710 num_examples: 20001 download_size: 12249297 dataset_size: 25841710 - config_name: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1 features: - name: instruction dtype: string - name: input dtype: string - name: output dtype: string - name: preference dtype: int64 - name: output_1 dtype: string - name: output_2 dtype: string - name: reward_model_prompt_format dtype: string - name: gen_prompt_format dtype: string - name: gen_kwargs struct: - name: do_sample dtype: bool - name: max_new_tokens dtype: int64 - name: pad_token_id dtype: int64 - name: top_k dtype: int64 - name: top_p dtype: float64 - name: reward_1 dtype: float64 - name: reward_2 dtype: float64 - name: n_samples dtype: int64 - name: reject_select dtype: string splits: - name: preference num_bytes: 25739637 num_examples: 20001 download_size: 11961077 dataset_size: 25739637 configs: - config_name: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500 data_files: - split: preference path: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500/preference-* - config_name: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1 data_files: - split: preference path: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-* - config_name: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1 data_files: - split: preference path: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-* ---

数据集信息： - 配置名称: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500 特征： - 名称：指令（instruction），数据类型：字符串 - 名称：输入（input），数据类型：字符串 - 名称：输出（output），数据类型：字符串 - 名称：偏好（preference），数据类型：64位整数 - 名称：输出1（output_1），数据类型：字符串 - 名称：输出2（output_2），数据类型：字符串 - 名称：奖励模型提示格式（reward_model_prompt_format），数据类型：字符串 - 名称：生成提示格式（gen_prompt_format），数据类型：字符串 - 名称：生成参数配置（gen_kwargs），结构体： - 名称：采样开关（do_sample），数据类型：布尔值 - 名称：最大新Token数（max_new_tokens），数据类型：64位整数 - 名称：填充Token ID（pad_token_id），数据类型：64位整数 - 名称：Top-K采样（top_k），数据类型：64位整数 - 名称：Top-P采样（top_p），数据类型：双精度浮点数 - 名称：奖励值1（reward_1），数据类型：双精度浮点数 - 名称：奖励值2（reward_2），数据类型：双精度浮点数 - 名称：样本数（n_samples），数据类型：64位整数 - 名称：拒绝选择（reject_select），数据类型：字符串划分： - 划分名称：preference，字节数：25769164，样本数量：20001 下载大小：12288408 数据集大小：25769164 - 配置名称: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1 特征： - 名称：指令，数据类型：字符串 - 名称：输入，数据类型：字符串 - 名称：输出，数据类型：字符串 - 名称：偏好，数据类型：64位整数 - 名称：输出1，数据类型：字符串 - 名称：输出2，数据类型：字符串 - 名称：奖励模型提示格式，数据类型：字符串 - 名称：生成提示格式，数据类型：字符串 - 名称：生成参数配置，结构体： - 名称：采样开关，数据类型：布尔值 - 名称：最大新Token数，数据类型：64位整数 - 名称：填充Token ID，数据类型：64位整数 - 名称：Top-K采样，数据类型：64位整数 - 名称：Top-P采样，数据类型：双精度浮点数 - 名称：奖励值1，数据类型：双精度浮点数 - 名称：奖励值2，数据类型：双精度浮点数 - 名称：样本数，数据类型：64位整数 - 名称：拒绝选择，数据类型：字符串划分： - 划分名称：preference，字节数：25841710，样本数量：20001 下载大小：12249297 数据集大小：25841710 - 配置名称: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1 特征： - 名称：指令，数据类型：字符串 - 名称：输入，数据类型：字符串 - 名称：输出，数据类型：字符串 - 名称：偏好，数据类型：64位整数 - 名称：输出1，数据类型：字符串 - 名称：输出2，数据类型：字符串 - 名称：奖励模型提示格式，数据类型：字符串 - 名称：生成提示格式，数据类型：字符串 - 名称：生成参数配置，结构体： - 名称：采样开关，数据类型：布尔值 - 名称：最大新Token数，数据类型：64位整数 - 名称：填充Token ID，数据类型：64位整数 - 名称：Top-K采样，数据类型：64位整数 - 名称：Top-P采样，数据类型：双精度浮点数 - 名称：奖励值1，数据类型：双精度浮点数 - 名称：奖励值2，数据类型：双精度浮点数 - 名称：样本数，数据类型：64位整数 - 名称：拒绝选择，数据类型：字符串划分： - 划分名称：preference，字节数：25739637，样本数量：20001 下载大小：11961077 数据集大小：25739637 配置集： - 配置名称: alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500 数据文件： - 划分：preference，路径：alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500/preference-* - 配置名称: alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1 数据文件： - 划分：preference，路径：alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-* - 配置名称: alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1 数据文件： - 划分：preference，路径：alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*

提供机构：

Mitsuki-Sakamoto

原始信息汇总

数据集概述

配置名称及特征

配置名称：alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500

特征列表：
- instruction: 字符串类型
- input: 字符串类型
- output: 字符串类型
- preference: 64位整数类型
- output_1: 字符串类型
- output_2: 字符串类型
- reward_model_prompt_format: 字符串类型
- gen_prompt_format: 字符串类型
- gen_kwargs: 结构体类型，包含以下字段：
  - do_sample: 布尔类型
  - max_new_tokens: 64位整数类型
  - pad_token_id: 64位整数类型
  - top_k: 64位整数类型
  - top_p: 64位浮点数类型
- reward_1: 64位浮点数类型
- reward_2: 64位浮点数类型
- n_samples: 64位整数类型
- reject_select: 字符串类型
数据分割：
- preference: 25769164字节，20001个样本
下载大小：12288408字节
数据集大小：25769164字节

配置名称：alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1

特征列表：
- instruction: 字符串类型
- input: 字符串类型
- output: 字符串类型
- preference: 64位整数类型
- output_1: 字符串类型
- output_2: 字符串类型
- reward_model_prompt_format: 字符串类型
- gen_prompt_format: 字符串类型
- gen_kwargs: 结构体类型，包含以下字段：
  - do_sample: 布尔类型
  - max_new_tokens: 64位整数类型
  - pad_token_id: 64位整数类型
  - top_k: 64位整数类型
  - top_p: 64位浮点数类型
- reward_1: 64位浮点数类型
- reward_2: 64位浮点数类型
- n_samples: 64位整数类型
- reject_select: 字符串类型
数据分割：
- preference: 25841710字节，20001个样本
下载大小：12249297字节
数据集大小：25841710字节

配置名称：alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1

特征列表：
- instruction: 字符串类型
- input: 字符串类型
- output: 字符串类型
- preference: 64位整数类型
- output_1: 字符串类型
- output_2: 字符串类型
- reward_model_prompt_format: 字符串类型
- gen_prompt_format: 字符串类型
- gen_kwargs: 结构体类型，包含以下字段：
  - do_sample: 布尔类型
  - max_new_tokens: 64位整数类型
  - pad_token_id: 64位整数类型
  - top_k: 64位整数类型
  - top_p: 64位浮点数类型
- reward_1: 64位浮点数类型
- reward_2: 64位浮点数类型
- n_samples: 64位整数类型
- reject_select: 字符串类型
数据分割：
- preference: 25739637字节，20001个样本
下载大小：11961077字节
数据集大小：25739637字节

数据文件路径

配置名称：alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500
- preference分割路径：alpaca_instructions-pythia-1.4b_alpaca_farm_instructions_sft_constant_pa-checkpoint-7500/preference-*
配置名称：alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1
- preference分割路径：alpaca_instructions-pythia_160m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*
配置名称：alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1
- preference分割路径：alpaca_instructions-pythia_70m_alpaca_farm_instructions_sft_constant_pa_seed_1/preference-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集