five

W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从一个New-DPO训练运行中导出的每步边缘摘要统计信息。包含了训练过程中的多个统计特征,如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac等,以及每个步骤的样本边缘和保存的完整边缘数组路径。数据集来源于特定的模型训练运行,使用了特定的训练参数和数据集混合器(Anthropic/hh-rlhf)。

配置项: - 配置名称:default 数据文件: - 划分:train 路径:data/train-* 数据集信息: 特征字段: - 名称:epoch,数据类型:float64(64位浮点型) - 名称:step,数据类型:int64(64位整型) - 名称:batch_size,数据类型:int64(64位整型) - 名称:mean,数据类型:float64(64位浮点型) - 名称:std,数据类型:float64(64位浮点型) - 名称:min,数据类型:float64(64位浮点型) - 名称:p10,数据类型:float64(64位浮点型) - 名称:median,数据类型:float64(64位浮点型) - 名称:p90,数据类型:float64(64位浮点型) - 名称:max,数据类型:float64(64位浮点型) - 名称:pos_frac,数据类型:float64(64位浮点型) - 名称:sample,数据类型:浮点型序列 - 名称:npy,数据类型:字符串类型 数据集划分: - 划分名称:train,占用字节数:483852,样本数:661 下载大小:385800,数据集总大小:483852 # W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log 从New-DPO(Direct Preference Optimization,直接偏好优化)训练运行中导出的逐步边际统计量。 ## 源训练运行 - 模型仓库标识符:`W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01` - 基础模型:`W-61/llama-3-8b-base-sft-hh-harmless-4xh200`(Supervised Fine-Tuning,监督微调,简称SFT) - 训练运行名称:`llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01` - Weights & Biases(简称W&B)项目:`llama3-hh-new-dpo-hyperparameter-sweep` - 训练器类型:`new_dpo` - 边际日志路径:`margin_outputs/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01/margin_logs` - 边际日志记录步长:`1` - 是否保存完整边际数组:`True` - 发布的数据集划分:`train` - 样本总数:`661` ## 边际训练参数 - β(beta):`0.1` - f散度类型:`reverse_kl`(反向KL散度) - fα散度系数(f_alpha_divergence_coef):`1.0` - s_star:`0.4` - η(eta):`0.01` - 目标q值(q_t,即q_target):`0.45` ## 字段说明 - `epoch`:训练轮次 - `step`:训练步数 - `batch_size`:批次大小 - `mean`:均值 - `std`:标准差 - `min`:最小值 - `p10`:10%分位数 - `median`:中位数 - `p90`:90%分位数 - `max`:最大值 - `pos_frac`:正样本占比 - `sample`:该日志记录步长下有效批次的逐示例边际值 - `npy`:当`margin_save_full=true`时,保存的完整边际数组的可选路径 ## 数据集混合器 json { "Anthropic/hh-rlhf": 1.0 }
提供机构:
W-61
二维码
社区交流群
二维码
科研交流群
商业服务