five

zjhhhh/3b_iter1_rlcf_rlcf_expand_tokenized_gap_ratio_0.22

收藏
Hugging Face2025-12-05 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/zjhhhh/3b_iter1_rlcf_rlcf_expand_tokenized_gap_ratio_0.22
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: prompt dtype: string - name: requirements dtype: string - name: selection_response_1 dtype: string - name: selection_response_2 dtype: string - name: selection_response_3 dtype: string - name: base_response_1 dtype: string - name: base_response_2 dtype: string - name: current_response_1 dtype: string - name: current_response_2 dtype: string - name: selection_1_base_1_mean list: float64 - name: selection_1_base_1_majority list: float64 - name: selection_1_base_2_mean list: float64 - name: selection_1_base_2_majority list: float64 - name: selection_2_base_1_mean list: float64 - name: selection_2_base_1_majority list: float64 - name: selection_2_base_2_mean list: float64 - name: selection_2_base_2_majority list: float64 - name: selection_3_base_1_mean list: float64 - name: selection_3_base_1_majority list: float64 - name: selection_3_base_2_mean list: float64 - name: selection_3_base_2_majority list: float64 - name: current_1_base_1_mean list: float64 - name: current_1_base_1_majority list: float64 - name: current_1_base_2_mean list: float64 - name: current_1_base_2_majority list: float64 - name: current_2_base_1_mean list: float64 - name: current_2_base_1_majority list: float64 - name: current_2_base_2_mean list: float64 - name: current_2_base_2_majority list: float64 - name: selection_1_mean list: float64 - name: selection_1_majority list: float64 - name: selection_1_reward dtype: float64 - name: selection_2_mean list: float64 - name: selection_2_majority list: float64 - name: selection_2_reward dtype: float64 - name: selection_3_mean list: float64 - name: selection_3_majority list: float64 - name: selection_3_reward dtype: float64 - name: base_1_mean list: float64 - name: base_1_majority list: float64 - name: base_1_reward dtype: float64 - name: base_2_mean list: float64 - name: base_2_majority list: float64 - name: base_2_reward dtype: float64 - name: current_1_mean list: float64 - name: current_1_majority list: float64 - name: current_1_reward dtype: float64 - name: current_2_mean list: float64 - name: current_2_majority list: float64 - name: current_2_reward dtype: float64 - name: qwen_prompt dtype: string - name: qwen_prompt_tokens list: int64 - name: chosen dtype: string - name: reject dtype: string - name: qwen_chosen dtype: string - name: qwen_reject dtype: string - name: qwen_chosen_tokens list: int64 - name: qwen_reject_tokens list: int64 - name: chosen_reward dtype: float64 - name: reject_reward dtype: float64 - name: g_chosen dtype: float64 - name: g_reject dtype: float64 splits: - name: train num_bytes: 2405544604 num_examples: 26308 - name: test num_bytes: 68517001 num_examples: 754 download_size: 490213898 dataset_size: 2474061605 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

dataset_info: features: - name: 提示词(prompt) dtype: 字符串 - name: 需求说明(requirements) dtype: 字符串 - name: 备选回复1(selection_response_1) dtype: 字符串 - name: 备选回复2(selection_response_2) dtype: 字符串 - name: 备选回复3(selection_response_3) dtype: 字符串 - name: 基础回复1(base_response_1) dtype: 字符串 - name: 基础回复2(base_response_2) dtype: 字符串 - name: 当前回复1(current_response_1) dtype: 字符串 - name: 当前回复2(current_response_2) dtype: 字符串 - name: 备选回复1与基础回复1的均值(selection_1_base_1_mean) dtype: 64位浮点型列表 - name: 备选回复1与基础回复1的多数投票结果(selection_1_base_1_majority) dtype: 64位浮点型列表 - name: 备选回复1与基础回复2的均值(selection_1_base_2_mean) dtype: 64位浮点型列表 - name: 备选回复1与基础回复2的多数投票结果(selection_1_base_2_majority) dtype: 64位浮点型列表 - name: 备选回复2与基础回复1的均值(selection_2_base_1_mean) dtype: 64位浮点型列表 - name: 备选回复2与基础回复1的多数投票结果(selection_2_base_1_majority) dtype: 64位浮点型列表 - name: 备选回复2与基础回复2的均值(selection_2_base_2_mean) dtype: 64位浮点型列表 - name: 备选回复2与基础回复2的多数投票结果(selection_2_base_2_majority) dtype: 64位浮点型列表 - name: 备选回复3与基础回复1的均值(selection_3_base_1_mean) dtype: 64位浮点型列表 - name: 备选回复3与基础回复1的多数投票结果(selection_3_base_1_majority) dtype: 64位浮点型列表 - name: 备选回复3与基础回复2的均值(selection_3_base_2_mean) dtype: 64位浮点型列表 - name: 备选回复3与基础回复2的多数投票结果(selection_3_base_2_majority) dtype: 64位浮点型列表 - name: 当前回复1与基础回复1的均值(current_1_base_1_mean) dtype: 64位浮点型列表 - name: 当前回复1与基础回复1的多数投票结果(current_1_base_1_majority) dtype: 64位浮点型列表 - name: 当前回复1与基础回复2的均值(current_1_base_2_mean) dtype: 64位浮点型列表 - name: 当前回复1与基础回复2的多数投票结果(current_1_base_2_majority) dtype: 64位浮点型列表 - name: 当前回复2与基础回复1的均值(current_2_base_1_mean) dtype: 64位浮点型列表 - name: 当前回复2与基础回复1的多数投票结果(current_2_base_1_majority) dtype: 64位浮点型列表 - name: 当前回复2与基础回复2的均值(current_2_base_2_mean) dtype: 64位浮点型列表 - name: 当前回复2与基础回复2的多数投票结果(current_2_base_2_majority) dtype: 64位浮点型列表 - name: 备选回复1的均值(selection_1_mean) dtype: 64位浮点型列表 - name: 备选回复1的多数投票结果(selection_1_majority) dtype: 64位浮点型列表 - name: 备选回复1的奖励分(selection_1_reward) dtype: 64位浮点型 - name: 备选回复2的均值(selection_2_mean) dtype: 64位浮点型列表 - name: 备选回复2的多数投票结果(selection_2_majority) dtype: 64位浮点型列表 - name: 备选回复2的奖励分(selection_2_reward) dtype: 64位浮点型 - name: 备选回复3的均值(selection_3_mean) dtype: 64位浮点型列表 - name: 备选回复3的多数投票结果(selection_3_majority) dtype: 64位浮点型列表 - name: 备选回复3的奖励分(selection_3_reward) dtype: 64位浮点型 - name: 基础回复1的均值(base_1_mean) dtype: 64位浮点型列表 - name: 基础回复1的多数投票结果(base_1_majority) dtype: 64位浮点型列表 - name: 基础回复1的奖励分(base_1_reward) dtype: 64位浮点型 - name: 基础回复2的均值(base_2_mean) dtype: 64位浮点型列表 - name: 基础回复2的多数投票结果(base_2_majority) dtype: 64位浮点型列表 - name: 基础回复2的奖励分(base_2_reward) dtype: 64位浮点型 - name: 当前回复1的均值(current_1_mean) dtype: 64位浮点型列表 - name: 当前回复1的多数投票结果(current_1_majority) dtype: 64位浮点型列表 - name: 当前回复1的奖励分(current_1_reward) dtype: 64位浮点型 - name: 当前回复2的均值(current_2_mean) dtype: 64位浮点型列表 - name: 当前回复2的多数投票结果(current_2_majority) dtype: 64位浮点型列表 - name: 当前回复2的奖励分(current_2_reward) dtype: 64位浮点型 - name: 通义千问提示词(qwen_prompt) dtype: 字符串 - name: 通义千问提示词Token数量(qwen_prompt_tokens) dtype: 64位整型列表 - name: 选中回复(chosen) dtype: 字符串 - name: 被拒绝回复(reject) dtype: 字符串 - name: 通义千问选中回复(qwen_chosen) dtype: 字符串 - name: 通义千问被拒绝回复(qwen_reject) dtype: 字符串 - name: 通义千问选中回复Token数量(qwen_chosen_tokens) dtype: 64位整型列表 - name: 通义千问被拒绝回复Token数量(qwen_reject_tokens) dtype: 64位整型列表 - name: 选中回复奖励分(chosen_reward) dtype: 64位浮点型 - name: 被拒绝回复奖励分(reject_reward) dtype: 64位浮点型 - name: g选中值(g_chosen) dtype: 64位浮点型 - name: g被拒绝值(g_reject) dtype: 64位浮点型 splits: - name: 训练集(train) num_bytes: 2405544604 num_examples: 26308 - name: 测试集(test) num_bytes: 68517001 num_examples: 754 download_size: 490213898 dataset_size: 2474061605 configs: - config_name: 默认配置(default) data_files: - split: 训练集(train) path: data/train-* - split: 测试集(test) path: data/test-*
提供机构:
zjhhhh
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作