zjhhhh/3b_iter1_rlcf_rlcf_expand_tokenized_gap_ratio_0.22
收藏Hugging Face2025-12-05 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/zjhhhh/3b_iter1_rlcf_rlcf_expand_tokenized_gap_ratio_0.22
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: prompt
dtype: string
- name: requirements
dtype: string
- name: selection_response_1
dtype: string
- name: selection_response_2
dtype: string
- name: selection_response_3
dtype: string
- name: base_response_1
dtype: string
- name: base_response_2
dtype: string
- name: current_response_1
dtype: string
- name: current_response_2
dtype: string
- name: selection_1_base_1_mean
list: float64
- name: selection_1_base_1_majority
list: float64
- name: selection_1_base_2_mean
list: float64
- name: selection_1_base_2_majority
list: float64
- name: selection_2_base_1_mean
list: float64
- name: selection_2_base_1_majority
list: float64
- name: selection_2_base_2_mean
list: float64
- name: selection_2_base_2_majority
list: float64
- name: selection_3_base_1_mean
list: float64
- name: selection_3_base_1_majority
list: float64
- name: selection_3_base_2_mean
list: float64
- name: selection_3_base_2_majority
list: float64
- name: current_1_base_1_mean
list: float64
- name: current_1_base_1_majority
list: float64
- name: current_1_base_2_mean
list: float64
- name: current_1_base_2_majority
list: float64
- name: current_2_base_1_mean
list: float64
- name: current_2_base_1_majority
list: float64
- name: current_2_base_2_mean
list: float64
- name: current_2_base_2_majority
list: float64
- name: selection_1_mean
list: float64
- name: selection_1_majority
list: float64
- name: selection_1_reward
dtype: float64
- name: selection_2_mean
list: float64
- name: selection_2_majority
list: float64
- name: selection_2_reward
dtype: float64
- name: selection_3_mean
list: float64
- name: selection_3_majority
list: float64
- name: selection_3_reward
dtype: float64
- name: base_1_mean
list: float64
- name: base_1_majority
list: float64
- name: base_1_reward
dtype: float64
- name: base_2_mean
list: float64
- name: base_2_majority
list: float64
- name: base_2_reward
dtype: float64
- name: current_1_mean
list: float64
- name: current_1_majority
list: float64
- name: current_1_reward
dtype: float64
- name: current_2_mean
list: float64
- name: current_2_majority
list: float64
- name: current_2_reward
dtype: float64
- name: qwen_prompt
dtype: string
- name: qwen_prompt_tokens
list: int64
- name: chosen
dtype: string
- name: reject
dtype: string
- name: qwen_chosen
dtype: string
- name: qwen_reject
dtype: string
- name: qwen_chosen_tokens
list: int64
- name: qwen_reject_tokens
list: int64
- name: chosen_reward
dtype: float64
- name: reject_reward
dtype: float64
- name: g_chosen
dtype: float64
- name: g_reject
dtype: float64
splits:
- name: train
num_bytes: 2405544604
num_examples: 26308
- name: test
num_bytes: 68517001
num_examples: 754
download_size: 490213898
dataset_size: 2474061605
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
dataset_info:
features:
- name: 提示词(prompt)
dtype: 字符串
- name: 需求说明(requirements)
dtype: 字符串
- name: 备选回复1(selection_response_1)
dtype: 字符串
- name: 备选回复2(selection_response_2)
dtype: 字符串
- name: 备选回复3(selection_response_3)
dtype: 字符串
- name: 基础回复1(base_response_1)
dtype: 字符串
- name: 基础回复2(base_response_2)
dtype: 字符串
- name: 当前回复1(current_response_1)
dtype: 字符串
- name: 当前回复2(current_response_2)
dtype: 字符串
- name: 备选回复1与基础回复1的均值(selection_1_base_1_mean)
dtype: 64位浮点型列表
- name: 备选回复1与基础回复1的多数投票结果(selection_1_base_1_majority)
dtype: 64位浮点型列表
- name: 备选回复1与基础回复2的均值(selection_1_base_2_mean)
dtype: 64位浮点型列表
- name: 备选回复1与基础回复2的多数投票结果(selection_1_base_2_majority)
dtype: 64位浮点型列表
- name: 备选回复2与基础回复1的均值(selection_2_base_1_mean)
dtype: 64位浮点型列表
- name: 备选回复2与基础回复1的多数投票结果(selection_2_base_1_majority)
dtype: 64位浮点型列表
- name: 备选回复2与基础回复2的均值(selection_2_base_2_mean)
dtype: 64位浮点型列表
- name: 备选回复2与基础回复2的多数投票结果(selection_2_base_2_majority)
dtype: 64位浮点型列表
- name: 备选回复3与基础回复1的均值(selection_3_base_1_mean)
dtype: 64位浮点型列表
- name: 备选回复3与基础回复1的多数投票结果(selection_3_base_1_majority)
dtype: 64位浮点型列表
- name: 备选回复3与基础回复2的均值(selection_3_base_2_mean)
dtype: 64位浮点型列表
- name: 备选回复3与基础回复2的多数投票结果(selection_3_base_2_majority)
dtype: 64位浮点型列表
- name: 当前回复1与基础回复1的均值(current_1_base_1_mean)
dtype: 64位浮点型列表
- name: 当前回复1与基础回复1的多数投票结果(current_1_base_1_majority)
dtype: 64位浮点型列表
- name: 当前回复1与基础回复2的均值(current_1_base_2_mean)
dtype: 64位浮点型列表
- name: 当前回复1与基础回复2的多数投票结果(current_1_base_2_majority)
dtype: 64位浮点型列表
- name: 当前回复2与基础回复1的均值(current_2_base_1_mean)
dtype: 64位浮点型列表
- name: 当前回复2与基础回复1的多数投票结果(current_2_base_1_majority)
dtype: 64位浮点型列表
- name: 当前回复2与基础回复2的均值(current_2_base_2_mean)
dtype: 64位浮点型列表
- name: 当前回复2与基础回复2的多数投票结果(current_2_base_2_majority)
dtype: 64位浮点型列表
- name: 备选回复1的均值(selection_1_mean)
dtype: 64位浮点型列表
- name: 备选回复1的多数投票结果(selection_1_majority)
dtype: 64位浮点型列表
- name: 备选回复1的奖励分(selection_1_reward)
dtype: 64位浮点型
- name: 备选回复2的均值(selection_2_mean)
dtype: 64位浮点型列表
- name: 备选回复2的多数投票结果(selection_2_majority)
dtype: 64位浮点型列表
- name: 备选回复2的奖励分(selection_2_reward)
dtype: 64位浮点型
- name: 备选回复3的均值(selection_3_mean)
dtype: 64位浮点型列表
- name: 备选回复3的多数投票结果(selection_3_majority)
dtype: 64位浮点型列表
- name: 备选回复3的奖励分(selection_3_reward)
dtype: 64位浮点型
- name: 基础回复1的均值(base_1_mean)
dtype: 64位浮点型列表
- name: 基础回复1的多数投票结果(base_1_majority)
dtype: 64位浮点型列表
- name: 基础回复1的奖励分(base_1_reward)
dtype: 64位浮点型
- name: 基础回复2的均值(base_2_mean)
dtype: 64位浮点型列表
- name: 基础回复2的多数投票结果(base_2_majority)
dtype: 64位浮点型列表
- name: 基础回复2的奖励分(base_2_reward)
dtype: 64位浮点型
- name: 当前回复1的均值(current_1_mean)
dtype: 64位浮点型列表
- name: 当前回复1的多数投票结果(current_1_majority)
dtype: 64位浮点型列表
- name: 当前回复1的奖励分(current_1_reward)
dtype: 64位浮点型
- name: 当前回复2的均值(current_2_mean)
dtype: 64位浮点型列表
- name: 当前回复2的多数投票结果(current_2_majority)
dtype: 64位浮点型列表
- name: 当前回复2的奖励分(current_2_reward)
dtype: 64位浮点型
- name: 通义千问提示词(qwen_prompt)
dtype: 字符串
- name: 通义千问提示词Token数量(qwen_prompt_tokens)
dtype: 64位整型列表
- name: 选中回复(chosen)
dtype: 字符串
- name: 被拒绝回复(reject)
dtype: 字符串
- name: 通义千问选中回复(qwen_chosen)
dtype: 字符串
- name: 通义千问被拒绝回复(qwen_reject)
dtype: 字符串
- name: 通义千问选中回复Token数量(qwen_chosen_tokens)
dtype: 64位整型列表
- name: 通义千问被拒绝回复Token数量(qwen_reject_tokens)
dtype: 64位整型列表
- name: 选中回复奖励分(chosen_reward)
dtype: 64位浮点型
- name: 被拒绝回复奖励分(reject_reward)
dtype: 64位浮点型
- name: g选中值(g_chosen)
dtype: 64位浮点型
- name: g被拒绝值(g_reject)
dtype: 64位浮点型
splits:
- name: 训练集(train)
num_bytes: 2405544604
num_examples: 26308
- name: 测试集(test)
num_bytes: 68517001
num_examples: 754
download_size: 490213898
dataset_size: 2474061605
configs:
- config_name: 默认配置(default)
data_files:
- split: 训练集(train)
path: data/train-*
- split: 测试集(test)
path: data/test-*
提供机构:
zjhhhh



