ceselder/loracle-ia-posttrain
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ceselder/loracle-ia-posttrain
下载链接
链接失效反馈官方服务:
资源简介:
loracle-ia-posttrain是一个用于LoRACLE的后训练QA数据集,包含1608行数据,每个生物体有2个问题。数据集混合了IA行为LoRAs(679个独特项)和预训练DPO保留内容LoRAs(250个独特项)。所有250个预训练DPO生物体都包含在内。问题采用第三人称视角("the model"),问题语气在"you/your"和"the model/this model"之间50/50分配,Y/N平衡(Yes表示后门,No表示始终开启)。22%的后门行以"Otherwise, the model responds normally."结尾。包含`ground_truth`列用于评分,`expected_yn`列用于Y/N行。数据使用Claude Sonnet 4.6通过Batch API在温度0.7下生成,基于真实触发器和行为,没有虚构触发器。
Post-training QA dataset for the LoRACLE — 1608 rows, 2 questions per organism. Mix of IA behavioral LoRAs (679 unique) + pretrain DPO-heldout content LoRAs (250 unique). All 250 pretrain DPO orgs are present. - 3rd-person voice ("the model") - Question voice 50/50 "you/your" ↔ "the model/this model" - Y/N balanced (Yes for backdoored, No for always-on) - 22% of backdoored rows end with "Otherwise, the model responds normally." - `ground_truth` column structured for judge scoring - `expected_yn` for Y/N rows. Generated with Claude Sonnet 4.6 via Batch API @ temp 0.7. Sonnet was fed ground-truth trigger+behavior — no hallucinated triggers.
提供机构:
ceselder
搜集汇总
数据集介绍

构建方式
该数据集专为LoRACLE后训练阶段设计,包含1608条问答样本,覆盖679个IA行为LoRA和250个预训练DPO保留内容LoRA。每个组织对应两个问题,分别聚焦自我描述与二元判断或能力细节。数据生成依托Claude Sonnet 4.6模型,通过Batch API在温度0.7下完成,确保触发器与行为基于真实标注而非幻觉。
特点
数据集具有鲜明的结构化特征:采用第三人称叙述,同时平衡了“你/你的”与“模型/该模型”两类提问方式。二元分类严格均衡,22%的后门样本以“否则,模型正常响应”结尾。包含`ground_truth`列供裁判评分,`expected_yn`列支持二元问答验证,兼顾评估的精准性与可扩展性。
使用方法
用户可根据训练阶段灵活选用完整版或精简版(`ceselder/loracle-ia-posttrain-1q`),后者每组织仅保留一个哈希选取的问题。数据以Parquet格式存储,通过HuggingFace Datasets库加载,默认配置包含训练集拆分。相关预训练语料`ceselder/loracle-pretrain-mix`可配合使用,以构建完整的LoRACLE训练管线。
背景与挑战
背景概述
在大语言模型领域,后训练阶段对于模型行为调控与安全对齐至关重要,尤其是在引入低秩适配器(LoRA)实现权重可解释性时。loracle-ia-posttrain数据集由研究机构于2025年创建,依托LoRACLE项目,旨在系统性地探索模型在注入后门与持续激活行为下的响应特征。该数据集包含1608个样本,覆盖679个行为导向的LoRA与250个预训练DPO保留的LoRA,通过第三人称与第一人称混合的提问方式构建了平衡的是非问答对。其核心研究问题聚焦于后门检测与模型行为一致性评估,为权重可解释性研究提供了标准化评测基准,推动了安全对齐领域的实证方法论发展。
当前挑战
该数据集所解决的领域挑战主要在于缺乏系统性的后训练行为量化评测手段,现有数据集往往忽视LoRA适配器引发的隐蔽后门行为与持续性激活响应。构建过程中面临的挑战包括:确保生成问题能够精确反映真实触发词与对应行为,避免模型产生虚构触发词;平衡提问视角(第三人称与第一人称各占50%)以避免视角偏差;维持后门样本与正常样本的是非对称比例(22%的后门样本以特殊提示结尾)以确保判别训练的有效性;同时,需要在有限样本量(1K-10K级别)下覆盖足够多样的LoRA变体与行为模式,以保障评测的泛化能力。
常用场景
经典使用场景
在大型语言模型的安全性与可解释性研究领域中,LoRACLE系列数据集扮演着至关重要的角色。该数据集专注于后训练阶段的质量保证与行为审计,特别适用于检测模型在经过低秩适配(LoRA)微调后是否引入了后门行为或非预期的持续激活模式。经典的使用场景包括构建二分类问答任务,其中模型需要根据给定的触发条件判断是否存在恶意后门,或是评估模型在无触发条件下的正常响应能力。数据集精心设计了1608条样本,涵盖679个独特的行为LoRA和250个预训练DPO保留内容LoRA,以第三视角提问并平衡了‘你’与‘模型’两种主语,确保了评估的客观性和泛化能力。
解决学术问题
该数据集精准解决了安全对齐领域中的一个核心难题——如何系统性地评估后训练阶段模型权重的完整性。学术研究中,LoRA微调因其高效性被广泛采用,但同时也带来了安全隐患,例如恶意注入的后门可能导致模型在特定触发词下违背伦理准则。loracle-ia-posttrain通过结构化的问答对,使得研究者能够量化检测模型是否被篡改,并区分‘始终激活’行为与‘条件触发’后门。其双重问题设计(自我描述与是非判断)覆盖了丰富的行为维度,为建立模型行为审计的标准基准提供了关键支撑,推动了可解释权重分析方法的进步。
衍生相关工作
该数据集是LoRACLE技术生态的关键组成部分,与多个经典工作形成协同。其上游依赖`ceselder/loracle-pretrain-mix`——一个包含5万条样本的内容预训练语料库,后者的DPO保留子集直接供应了本数据集的250个内容LoRA。在方法层面,它继承了introspection-adapter系列在权重可解释性上的研究路线,并与基于强化学习的后训练对齐框架(如RLHF)形成互补。后续工作可能扩展出多轮对话审计版本、跨语言后门检测变体,或结合对抗训练进一步提升鲁棒性,从而完善模型行为可信赖的评估体系。
以上内容由遇见数据集搜集并总结生成



