zjhhhh/Llama-3.2-3B-Instruct_multi_armo_2rewards_preprocessed_rewardidx1_tokenized_gap_0.2_logprob

Name: zjhhhh/Llama-3.2-3B-Instruct_multi_armo_2rewards_preprocessed_rewardidx1_tokenized_gap_0.2_logprob
Creator: zjhhhh
Published: 2025-12-04 04:17:32
License: 暂无描述

Hugging Face2025-12-04 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/zjhhhh/Llama-3.2-3B-Instruct_multi_armo_2rewards_preprocessed_rewardidx1_tokenized_gap_0.2_logprob

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt_id dtype: string - name: prompt dtype: string - name: response_0 dtype: string - name: response_1 dtype: string - name: response_2 dtype: string - name: response_3 dtype: string - name: response_4 dtype: string - name: response_5 dtype: string - name: response_6 dtype: string - name: response_7 dtype: string - name: response_8 dtype: string - name: response_9 dtype: string - name: response_10 dtype: string - name: response_11 dtype: string - name: response_12 dtype: string - name: response_13 dtype: string - name: response_14 dtype: string - name: response_15 dtype: string - name: response_0_reward list: float64 - name: response_1_reward list: float64 - name: response_2_reward list: float64 - name: response_3_reward list: float64 - name: response_4_reward list: float64 - name: response_5_reward list: float64 - name: response_6_reward list: float64 - name: response_7_reward list: float64 - name: response_8_reward list: float64 - name: response_9_reward list: float64 - name: response_10_reward list: float64 - name: response_11_reward list: float64 - name: response_12_reward list: float64 - name: response_13_reward list: float64 - name: response_14_reward list: float64 - name: response_15_reward list: float64 - name: llama_prompt dtype: string - name: llama_prompt_tokens list: int64 - name: chosen dtype: string - name: reject dtype: string - name: chosen_reward dtype: float64 - name: reject_reward dtype: float64 - name: g_chosen dtype: float64 - name: g_reject dtype: float64 - name: gap dtype: float64 - name: llama_chosen dtype: string - name: llama_chosen_tokens list: int64 - name: llama_reject dtype: string - name: llama_reject_tokens list: int64 - name: chosen_logprob dtype: float64 - name: reject_logprob dtype: float64 splits: - name: train num_bytes: 5829800124 num_examples: 66788 - name: test num_bytes: 95737830 num_examples: 1088 download_size: 988732292 dataset_size: 5925537954 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

数据集信息：特征列表： - 提示词ID（prompt_id）：数据类型为字符串（string） - 提示词（prompt）：数据类型为字符串（string） - 响应0至响应15（response_0 ~ response_15）：数据类型均为字符串（string） - 响应0至响应15的奖励值（response_0_reward ~ response_15_reward）：数据类型为浮点型列表（list: float64） - Llama提示词（llama_prompt）：数据类型为字符串（string） - Llama提示词Token序列（llama_prompt_tokens）：数据类型为整数型列表（list: int64） - 优选响应（chosen）：数据类型为字符串（string） - 弃选响应（reject）：数据类型为字符串（string） - 优选响应奖励值（chosen_reward）：数据类型为浮点型（float64） - 弃选响应奖励值（reject_reward）：数据类型为浮点型（float64） - 全局优选奖励（g_chosen）：数据类型为浮点型（float64） - 全局弃选奖励（g_reject）：数据类型为浮点型（float64） - 奖励差值（gap）：数据类型为浮点型（float64） - Llama优选响应（llama_chosen）：数据类型为字符串（string） - Llama优选响应Token序列（llama_chosen_tokens）：数据类型为整数型列表（list: int64） - Llama弃选响应（llama_reject）：数据类型为字符串（string） - Llama弃选响应Token序列（llama_reject_tokens）：数据类型为整数型列表（list: int64） - 优选响应对数概率（chosen_logprob）：数据类型为浮点型（float64） - 弃选响应对数概率（reject_logprob）：数据类型为浮点型（float64）数据集划分： - 训练集（train）：数据体量为5829800124字节，样本总量为66788 - 测试集（test）：数据体量为95737830字节，样本总量为1088 下载总大小：988732292字节；数据集总存储大小：5925537954字节配置项： - 默认配置（default）：数据文件对应如下： - 训练集：数据文件路径为data/train-* - 测试集：数据文件路径为data/test-*

提供机构：

zjhhhh

5,000+

优质数据集

54 个

任务类型

进入经典数据集