zjhhhh/3b_iter2_rlcf_scores_rlcf_expand_tokenized

Name: zjhhhh/3b_iter2_rlcf_scores_rlcf_expand_tokenized
Creator: zjhhhh
Published: 2025-12-07 21:39:24
License: 暂无描述

Hugging Face2025-12-07 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/zjhhhh/3b_iter2_rlcf_scores_rlcf_expand_tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: requirements dtype: string - name: selection_response_1 dtype: string - name: selection_response_2 dtype: string - name: selection_response_3 dtype: string - name: selection_response_4 dtype: string - name: current_response_1 dtype: string - name: current_response_2 dtype: string - name: adversary_response_1 dtype: string - name: adversary_response_2 dtype: string - name: base_response_1 dtype: string - name: base_response_2 dtype: string - name: selection_1_mean list: float64 - name: selection_1_majority list: float64 - name: selection_1_reward dtype: float64 - name: selection_2_mean list: float64 - name: selection_2_majority list: float64 - name: selection_2_reward dtype: float64 - name: selection_3_mean list: float64 - name: selection_3_majority list: float64 - name: selection_3_reward dtype: float64 - name: selection_4_mean list: float64 - name: selection_4_majority list: float64 - name: selection_4_reward dtype: float64 - name: base_1_mean list: float64 - name: base_1_majority list: float64 - name: base_1_reward dtype: float64 - name: base_2_mean list: float64 - name: base_2_majority list: float64 - name: base_2_reward dtype: float64 - name: current_1_mean list: float64 - name: current_1_majority list: float64 - name: current_1_reward dtype: float64 - name: current_2_mean list: float64 - name: current_2_majority list: float64 - name: current_2_reward dtype: float64 - name: qwen_prompt dtype: string - name: qwen_prompt_tokens list: int64 - name: chosen dtype: string - name: reject dtype: string - name: qwen_chosen dtype: string - name: qwen_reject dtype: string - name: qwen_chosen_tokens list: int64 - name: qwen_reject_tokens list: int64 - name: chosen_reward dtype: float64 - name: reject_reward dtype: float64 - name: g_chosen dtype: float64 - name: g_reject dtype: float64 splits: - name: train num_bytes: 23460930907 num_examples: 231097 - name: test num_bytes: 72876826 num_examples: 721 download_size: 1961566052 dataset_size: 23533807733 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

数据集信息：特征字段： - 名称：提示词（prompt），数据类型：字符串 - 名称：需求（requirements），数据类型：字符串 - 名称：候选回复1（selection_response_1），数据类型：字符串 - 名称：候选回复2（selection_response_2），数据类型：字符串 - 名称：候选回复3（selection_response_3），数据类型：字符串 - 名称：候选回复4（selection_response_4），数据类型：字符串 - 名称：当前回复1（current_response_1），数据类型：字符串 - 名称：当前回复2（current_response_2），数据类型：字符串 - 名称：对抗回复1（adversary_response_1），数据类型：字符串 - 名称：对抗回复2（adversary_response_2），数据类型：字符串 - 名称：基础回复1（base_response_1），数据类型：字符串 - 名称：基础回复2（base_response_2），数据类型：字符串 - 名称：候选1均值（selection_1_mean），数据类型：64位浮点型列表 - 名称：候选1多数投票结果（selection_1_majority），数据类型：64位浮点型列表 - 名称：候选1奖励得分（selection_1_reward），数据类型：64位浮点型 - 名称：候选2均值（selection_2_mean），数据类型：64位浮点型列表 - 名称：候选2多数投票结果（selection_2_majority），数据类型：64位浮点型列表 - 名称：候选2奖励得分（selection_2_reward），数据类型：64位浮点型 - 名称：候选3均值（selection_3_mean），数据类型：64位浮点型列表 - 名称：候选3多数投票结果（selection_3_majority），数据类型：64位浮点型列表 - 名称：候选3奖励得分（selection_3_reward），数据类型：64位浮点型 - 名称：候选4均值（selection_4_mean），数据类型：64位浮点型列表 - 名称：候选4多数投票结果（selection_4_majority），数据类型：64位浮点型列表 - 名称：候选4奖励得分（selection_4_reward），数据类型：64位浮点型 - 名称：基础1均值（base_1_mean），数据类型：64位浮点型列表 - 名称：基础1多数投票结果（base_1_majority），数据类型：64位浮点型列表 - 名称：基础1奖励得分（base_1_reward），数据类型：64位浮点型 - 名称：基础2均值（base_2_mean），数据类型：64位浮点型列表 - 名称：基础2多数投票结果（base_2_majority），数据类型：64位浮点型列表 - 名称：基础2奖励得分（base_2_reward），数据类型：64位浮点型 - 名称：当前1均值（current_1_mean），数据类型：64位浮点型列表 - 名称：当前1多数投票结果（current_1_majority），数据类型：64位浮点型列表 - 名称：当前1奖励得分（current_1_reward），数据类型：64位浮点型 - 名称：当前2均值（current_2_mean），数据类型：64位浮点型列表 - 名称：当前2多数投票结果（current_2_majority），数据类型：64位浮点型列表 - 名称：当前2奖励得分（current_2_reward），数据类型：64位浮点型 - 名称：通义千问提示词（qwen_prompt），数据类型：字符串 - 名称：通义千问提示词Token序列（qwen_prompt_tokens），数据类型：64位整型列表 - 名称：选中回复（chosen），数据类型：字符串 - 名称：拒答回复（reject），数据类型：字符串 - 名称：通义千问选中回复（qwen_chosen），数据类型：字符串 - 名称：通义千问拒答回复（qwen_reject），数据类型：字符串 - 名称：通义千问选中回复Token序列（qwen_chosen_tokens），数据类型：64位整型列表 - 名称：通义千问拒答回复Token序列（qwen_reject_tokens），数据类型：64位整型列表 - 名称：选中回复奖励得分（chosen_reward），数据类型：64位浮点型 - 名称：拒答回复奖励得分（reject_reward），数据类型：64位浮点型 - 名称：生成选中回复奖励（g_chosen），数据类型：64位浮点型 - 名称：生成拒答回复奖励（g_reject），数据类型：64位浮点型数据集划分： - 划分名称：训练集（train），字节数：23460930907，样本数：231097 - 划分名称：测试集（test），字节数：72876826，样本数：721 下载大小：1961566052 总数据集大小：23533807733 配置项： - 配置名称：默认（default），数据文件： - 划分：训练集，路径：data/train-* - 划分：测试集，路径：data/test-*

提供机构：

zjhhhh

5,000+

优质数据集

54 个

任务类型

进入经典数据集