W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log

Name: W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log
Creator: W-61
Published: 2026-04-28 06:19:58
License: 暂无描述

Hugging Face2026-04-28 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从一个New-DPO训练运行中导出的每步边缘摘要统计信息。包含了训练过程中的多个统计特征，如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac等，以及每个步骤的样本边缘和保存的完整边缘数组路径。数据集来源于特定的模型训练运行，使用了特定的训练参数和数据集混合器（Anthropic/hh-rlhf）。

配置项： - 配置名称：default 数据文件： - 划分：train 路径：data/train-* 数据集信息：特征字段： - 名称：epoch，数据类型：float64（64位浮点型） - 名称：step，数据类型：int64（64位整型） - 名称：batch_size，数据类型：int64（64位整型） - 名称：mean，数据类型：float64（64位浮点型） - 名称：std，数据类型：float64（64位浮点型） - 名称：min，数据类型：float64（64位浮点型） - 名称：p10，数据类型：float64（64位浮点型） - 名称：median，数据类型：float64（64位浮点型） - 名称：p90，数据类型：float64（64位浮点型） - 名称：max，数据类型：float64（64位浮点型） - 名称：pos_frac，数据类型：float64（64位浮点型） - 名称：sample，数据类型：浮点型序列 - 名称：npy，数据类型：字符串类型数据集划分： - 划分名称：train，占用字节数：483852，样本数：661 下载大小：385800，数据集总大小：483852 # W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log 从New-DPO（Direct Preference Optimization，直接偏好优化）训练运行中导出的逐步边际统计量。 ## 源训练运行 - 模型仓库标识符：`W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01` - 基础模型：`W-61/llama-3-8b-base-sft-hh-harmless-4xh200`（Supervised Fine-Tuning，监督微调，简称SFT） - 训练运行名称：`llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01` - Weights & Biases（简称W&B）项目：`llama3-hh-new-dpo-hyperparameter-sweep` - 训练器类型：`new_dpo` - 边际日志路径：`margin_outputs/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01/margin_logs` - 边际日志记录步长：`1` - 是否保存完整边际数组：`True` - 发布的数据集划分：`train` - 样本总数：`661` ## 边际训练参数 - β（beta）：`0.1` - f散度类型：`reverse_kl`（反向KL散度） - fα散度系数（f_alpha_divergence_coef）：`1.0` - s_star：`0.4` - η（eta）：`0.01` - 目标q值（q_t，即q_target）：`0.45` ## 字段说明 - `epoch`：训练轮次 - `step`：训练步数 - `batch_size`：批次大小 - `mean`：均值 - `std`：标准差 - `min`：最小值 - `p10`：10%分位数 - `median`：中位数 - `p90`：90%分位数 - `max`：最大值 - `pos_frac`：正样本占比 - `sample`：该日志记录步长下有效批次的逐示例边际值 - `npy`：当`margin_save_full=true`时，保存的完整边际数组的可选路径 ## 数据集混合器 json { "Anthropic/hh-rlhf": 1.0 }

提供机构：

W-61