five

jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.3-margin-log

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.3-margin-log
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从New-DPO训练运行中导出的每一步的边缘摘要统计信息。数据集包含了训练过程中的多个统计特征,如epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac、sample和npy等。数据集的来源是模型repo jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.3,基础模型是jackf857/qwen3-8b-base-sft-hh-harmless-4xh200-batch-64-20260417-214452。训练参数包括beta、f_divergence_type、f_alpha_divergence_coef、s_star、eta和q_t等。数据集混合器使用了Anthropic/hh-rlhf数据集。

Per-step margin summary statistics exported from a New-DPO training run. The dataset includes various statistical features during the training process, such as epoch, step, batch_size, mean, std, min, p10, median, p90, max, pos_frac, sample, and npy. The source of the dataset is the model repo jackf857/qwen3-8b-base-new-dpo-hh-harmless-4xh200-batch-64-q_t-0.45-s_star-0.4-eta-0.3, with the base model being jackf857/qwen3-8b-base-sft-hh-harmless-4xh200-batch-64-20260417-214452. Training arguments include beta, f_divergence_type, f_alpha_divergence_coef, s_star, eta, and q_t. The dataset mixer uses the Anthropic/hh-rlhf dataset.
提供机构:
jackf857
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自一次针对Qwen3-8B基座模型的新版直接偏好优化(New-DPO)训练过程,旨在记录并导出每步训练中margin统计量的详细信息。训练采用jackf857/qwen3-8b-base-sft-hh-harmless作为基础模型,在Anthropic/hh-rlhf无害性偏好数据集上以1.0权重进行混合训练。通过设置margin log steps为1且启用margin save full arrays,系统在每步训练后自动计算并保存margin值,最终汇总形成包含661条样本的训练集,涵盖从epoch、step到各分位数及完整样本margin数组的多维度信息。
使用方法
用户可通过Hugging Face数据集加载工具便捷使用本数据,指定default配置后调用load_dataset函数即可获取训练拆分,数据以Arrow格式高效存储,支持流式处理。每个样本包含的margin统计量可被直接用于可视化训练进展、对比不同超参数组合的收敛行为或作为后验分析的输入数据。此外,npy字段提供了完整margin数组的持久化路径,便于进行更深入的梯度分布分析或与其它训练日志进行交叉验证,因此非常适合偏好对齐研究领域的二次开发与复现实验。
背景与挑战
背景概述
该数据集由研究者jackf857于2025年创建,基于Qwen3-8B基座模型,在Anthropic发布的HH-RLHF无害性偏好数据集上进行New-DPO训练过程中的边际统计信息记录。核心研究问题聚焦于通过新型直接偏好优化算法(New-DPO)调整语言模型的无害性对齐能力,探索边际分布动态对训练稳定性的影响。作为超参数扫描实验(W&B项目qwen3-hh-new-dpo-hyperparamter-sweep)的副产品,该数据集为分析f散度类型(如reverse_kl)与关键参数(s_star、eta、q_target)的相互作用提供了细粒度观测窗口,对理解偏好对齐算法的边际行为演变具有重要参考价值。
当前挑战
该数据集主要应对的领域挑战在于,传统DPO方法可能难以精确控制模型在无害性对齐过程中的响应边界,尤其是针对微妙的有害/无害区分场景。New-DPO通过引入q_target、s_star、eta等参数试图优化这一过程,但边际统计量的实时监控暴露了训练中的不稳定性:如正样本比例(pos_frac)在不同步骤间的剧烈波动、边际分布的厚尾特征(p90与max的显著差异)。构建过程中的挑战则包括:需要在高计算成本下(4×H200 GPU)保持64批次大小的训练效率,同时记录全量边际数组(margin_save_full=true)导致的存储与I/O开销,以及超参数组合空间探索带来的实验复杂度。
常用场景
经典使用场景
在强化学习与人类反馈对齐领域,该数据集作为New-DPO(Direct Preference Optimization)训练过程中逐步边际统计量的快照,为研究偏好优化算法的动态行为提供了珍贵的微观视角。研究人员常利用其中记录的均值、标准差、分位数等统计特征,结合逐样本的边际值,分析模型在训练过程中对正负样本区分度的演变规律。该数据集尤其适用于探索超参数如目标概率(q_t)、参考策略优势(s_star)与缩放因子(eta)对边际分布形态的影响,从而揭示不同配置下对齐效果的收敛特性与稳定性。
解决学术问题
该数据集有效解决了偏好优化研究中一个关键但长期被忽视的问题——缺乏对训练过程中边际信号动态演化的细粒度观测。通过记录每个有效批次的边际值分布及其统计特征,它为学术界提供了实证基础,用以量化不同DPO变体在抑制有害输出任务中的行为差异。具体而言,它帮助研究者验证了存在一个最优边际区间,在该区间内模型在保持无害响应的同时最大化对偏好数据的自适应能力,从而推动了对齐算法中正则化强度与探索效率之间权衡关系的理论理解。
实际应用
在实际应用中,该数据集为构建更安全、更可控的语言模型提供了数据驱动的调优依据。基于其中记录的边际演化模式,开发者可以针对特定应用场景(如客服对话过滤或教育内容审核)设计出更可靠的奖励信号阈值,从而精准抑制模型产生有害或越狱式回复。此外,数据集中的统计摘要可直接用于自动化超参数搜索系统,帮助算法工程师在不进行完整重训练的前提下,快速评估不同超参数配置对偏好对齐稳定性的潜在影响,大幅降低实际部署中的试错成本。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型对齐训练中的边际动态分析,特别是基于New-DPO算法的无害性优化前沿。通过记录Qwen3-8B模型在Anthropic/hh-rlhf数据集上每步训练的边际统计量(如均值、分位数及正样本比例),研究者得以深入洞察奖励模型偏好强度的演变规律。结合f-散度约束(reverse_kl)与超参数探索(如q_t=0.45、s_star=0.4、eta=0.3),该工作为理解DPO变体在安全对齐任务中的收敛行为提供了关键实证,推动了可控对齐细粒度调优的学术边界。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务