W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从一个New-DPO训练运行中导出的每步边缘摘要统计信息。包含了训练过程中的多个统计特征,如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac等,以及每个步骤的样本边缘和保存的完整边缘数组路径。数据集来源于特定的模型训练运行,使用了特定的训练参数和数据集混合器(Anthropic/hh-rlhf)。
配置项:
- 配置名称:default
数据文件:
- 划分:train
路径:data/train-*
数据集信息:
特征字段:
- 名称:epoch,数据类型:float64(64位浮点型)
- 名称:step,数据类型:int64(64位整型)
- 名称:batch_size,数据类型:int64(64位整型)
- 名称:mean,数据类型:float64(64位浮点型)
- 名称:std,数据类型:float64(64位浮点型)
- 名称:min,数据类型:float64(64位浮点型)
- 名称:p10,数据类型:float64(64位浮点型)
- 名称:median,数据类型:float64(64位浮点型)
- 名称:p90,数据类型:float64(64位浮点型)
- 名称:max,数据类型:float64(64位浮点型)
- 名称:pos_frac,数据类型:float64(64位浮点型)
- 名称:sample,数据类型:浮点型序列
- 名称:npy,数据类型:字符串类型
数据集划分:
- 划分名称:train,占用字节数:483852,样本数:661
下载大小:385800,数据集总大小:483852
# W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01-margin-log
从New-DPO(Direct Preference Optimization,直接偏好优化)训练运行中导出的逐步边际统计量。
## 源训练运行
- 模型仓库标识符:`W-61/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01`
- 基础模型:`W-61/llama-3-8b-base-sft-hh-harmless-4xh200`(Supervised Fine-Tuning,监督微调,简称SFT)
- 训练运行名称:`llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01`
- Weights & Biases(简称W&B)项目:`llama3-hh-new-dpo-hyperparameter-sweep`
- 训练器类型:`new_dpo`
- 边际日志路径:`margin_outputs/llama-3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.01/margin_logs`
- 边际日志记录步长:`1`
- 是否保存完整边际数组:`True`
- 发布的数据集划分:`train`
- 样本总数:`661`
## 边际训练参数
- β(beta):`0.1`
- f散度类型:`reverse_kl`(反向KL散度)
- fα散度系数(f_alpha_divergence_coef):`1.0`
- s_star:`0.4`
- η(eta):`0.01`
- 目标q值(q_t,即q_target):`0.45`
## 字段说明
- `epoch`:训练轮次
- `step`:训练步数
- `batch_size`:批次大小
- `mean`:均值
- `std`:标准差
- `min`:最小值
- `p10`:10%分位数
- `median`:中位数
- `p90`:90%分位数
- `max`:最大值
- `pos_frac`:正样本占比
- `sample`:该日志记录步长下有效批次的逐示例边际值
- `npy`:当`margin_save_full=true`时,保存的完整边际数组的可选路径
## 数据集混合器
json
{
"Anthropic/hh-rlhf": 1.0
}
提供机构:
W-61



