five

jackf857/llama-3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.5-s_star-0.5-20260429-032138-margin

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/jackf857/llama-3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.5-s_star-0.5-20260429-032138-margin
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从一个New-DPO训练运行中导出的每步边缘摘要统计。数据集包含477个训练样本,每个样本包含epoch、step、batch_size、mean、std、min、p10、median、p90、max、pos_frac、sample和npy等特征。数据集的来源运行基于模型repo id: jackf857/llama-3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.5-s_star-0.5-20260429-032138,基础模型为/scratch/qu.yang1/dynamic-dpo-v4/base_models/llama-3-8b-base-sft-ultrachat-8xh200。训练参数包括beta=0.01、f_divergence_type=reverse_kl、f_alpha_divergence_coef=1.0、s_star=0.5、eta=0.1和q_t=0.5。数据集混合器使用了HuggingFaceH4/ultrafeedback_binarized数据集,比例为1.0。

Per-step margin summary statistics exported from a New-DPO training run. The dataset contains 477 training examples, each with features such as epoch, step, batch_size, mean, std, min, p10, median, p90, max, pos_frac, sample, and npy. The source run is based on the model repo id: jackf857/llama-3-8b-base-new-dpo-ultrafeedback-4xh200-batch-128-q_t-0.5-s_star-0.5-20260429-032138, with the base model /scratch/qu.yang1/dynamic-dpo-v4/base_models/llama-3-8b-base-sft-ultrachat-8xh200. Training arguments include beta=0.01, f_divergence_type=reverse_kl, f_alpha_divergence_coef=1.0, s_star=0.5, eta=0.1, and q_t=0.5. The dataset mixer uses HuggingFaceH4/ultrafeedback_binarized with a ratio of 1.0.
提供机构:
jackf857
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自基于Llama-3-8B-base模型的新版直接偏好优化(New-DPO)训练流程,具体于Ultrafeedback数据集上执行,配置了4倍累积步长(4xh200)、批量大小为128、目标软标签q_t为0.5以及参考策略强度s_star为0.5。训练过程中,系统在每个记录步骤导出批次内各样本的边际(margin)统计信息,包括均值、标准差、分位数及正样本比例等,并将完整的边际数组以npy格式持久化保存,最终汇集为包含477条训练样本的数据集。
使用方法
用户可通过HuggingFace Datasets库加载本数据集,默认使用train分割,数据文件以parquet格式存储。建议研究人员结合New-DPO训练框架中的边际日志路径及W&B项目记录,将本次运行与基准实验进行对比分析。数据集中的统计摘要可直接用于可视化训练稳定性,而sample与npy字段所包含的逐样本边际信息,则适用于探究偏好优化算法对推理边际的影响机制,或作为后续动态调整超参数的参考依据。
背景与挑战
背景概述
该数据集由研究者jackf857基于Meta发布的Llama-3-8B基座模型构建,旨在探索新型直接偏好优化(New-DPO)算法在人类反馈强化学习中的应用。发布于2026年4月29日,核心研究问题在于如何通过动态调整DPO训练过程中的边际(margin)统计量,提升大语言模型与人类偏好对齐的效率。数据集记录了单步训练中边际的均值、标准差、分位数等关键统计量,以及每个样本的具体边际值,为分析New-DPO训练动态提供了细粒度数据。作为DPO算法改进的实证工具,该数据集对偏好学习和大模型对齐领域具有重要参考价值,尤其有助于理解超参数如s_star和q_target对优化行为的影响。
当前挑战
该数据集主要挑战包括:1)领域问题层面,传统DPO训练中固定边际策略难以适应多样化的偏好分布,限制了对齐效果,而New-DPO通过引入动态边际机制解决此问题,但如何最优地设置超参数如s_star和q_target仍存困难;2)构建过程中,数据集仅包含477条训练样本且来自单一UltraFeedback数据集,规模与多样性有限,可能无法全面反映复杂场景下的边际变化规律;此外,边际统计量的保存依赖于特定训练配置(如batch_size=128),不同超参数组合下的泛化性尚待验证。
常用场景
经典使用场景
在大型语言模型的对齐优化领域,该数据集记录了基于New-DPO算法微调Llama-3-8B模型时,每一训练步的边际统计信息。其核心用途在于分析偏好学习过程中模型对正负样本判别能力的动态演变,为研究者提供细粒度的训练动力学观测窗口。通过均值、标准差、分位数等统计量,可深入探究不同超参数配置(如目标策略概率q_t、参考策略概率s_star)对边际分布形态的影响,从而优化DPO类算法的训练稳定性与收敛效率。
解决学术问题
该数据集有效解决了偏好对齐训练中边际演化规律难以量化追踪的学术难题。传统工作多关注最终模型性能,而忽略了训练过程中边际信号的动态变化与模型泛化能力的关联。通过此数据,研究者能够系统分析边际均值、标准差及其分布偏移与奖励过拟合、策略崩溃等现象的因果关系,为设计更鲁棒的对齐算法提供数据支撑。其意义在于推动了大语言模型从‘经验调参’向‘数据驱动诊断’的范式转变。
实际应用
在实际应用中,该数据集可作为离线日志复用与训练监控的参考基准。开发人员可将其作为训练配置的‘健康检查’模板:通过对比新训练运行中的边际统计量与此数据集的分布模式,快速定位训练异常(如边际萎缩或方差激增)。此外,该数据集的训练参数(如η=0.1、beta=0.01)可直接迁移至其他基座模型(如Qwen系列),作为DPO变体算法初始调优的推荐配置。
数据集最近研究
最新研究方向
该数据集记录了使用New-DPO算法对Llama-3-8B基座模型进行偏好对齐训练时的边际统计量,聚焦于动态调整偏好优化过程中正例与负例间的决策边界。研究前沿在于通过引入s_star和q_target等超参数,精细调控KL散度约束下的优化方向,以缓解传统DPO训练中的过优化与模式坍塌问题。该数据集与UltraFeedback偏好数据集结合,为探索在超大规模反馈信号下如何稳定提升对齐质量提供了关键中间状态快照,尤其在batch size为128、边际日志步长为1的设定下,有助于解析动态偏好优化的梯度流与采样效率之间的联系。这一研究方向对推动开放域语言模型与人类价值观的高效、稳定对齐具有重要实践意义,并为后续动态偏好算法的可复现性研究奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务