ceselder/loracle-ia-posttrain-1q
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ceselder/loracle-ia-posttrain-1q
下载链接
链接失效反馈官方服务:
资源简介:
loracle-ia-posttrain-1q 是一个用于 LoRACLE 的训练后问答数据集,包含 929 行数据,每个生物体一个问题。数据集混合了 IA 行为 LoRAs(679 个唯一)和预训练 DPO 保留内容 LoRAs(250 个唯一)。所有 250 个预训练 DPO 生物体都存在。问题使用第三人称(“the model”),问题语气 50/50 为“you/your” ↔ “the model/this model”,Y/N 平衡(Yes 表示后门,No 表示始终开启)。22% 的后门行以“Otherwise, the model responds normally.”结尾。包含用于评分的 ground_truth 列和用于 Y/N 行的 expected_yn 列。数据使用 Claude Sonnet 4.6 通过批量 API 在温度 0.7 下生成。
loracle-ia-posttrain-1q is a post-training QA dataset for LoRACLE — 929 rows, 1 question per organism. Mix of IA behavioral LoRAs (679 unique) + pretrain DPO-heldout content LoRAs (250 unique). All 250 pretrain DPO orgs are present. - 3rd-person voice ("the model") - Question voice 50/50 "you/your" ↔ "the model/this model" - Y/N balanced (Yes for backdoored, No for always-on) - 22% of backdoored rows end with "Otherwise, the model responds normally." - `ground_truth` column structured for judge scoring - `expected_yn` for Y/N rows. Generated with Claude Sonnet 4.6 via Batch API @ temp 0.7.
提供机构:
ceselder
搜集汇总
数据集介绍

构建方式
本数据集系后训练阶段的质量保证问答数据集,专为LoRACLE框架设计,包含929条记录,每条记录对应一个生物体。其构建策略融合了两种异构来源:679个行为型低秩适配器与250个预训练DPO保留内容型低秩适配器,且所有250个预训练DPO生物体均被涵盖。数据生成采用Claude Sonnet 4.6模型,通过批量API在温度参数0.7下运行,确保触发词与行为的真实一致性,避免出现幻觉。每条样本的提问聚焦单一问题,并经由哈希算法从原始双问题版本中筛选,以保证数据稀疏性与代表性。
使用方法
本数据集提供两种版本,分别是包含1608条记录、每个生物体含两个问题的完整版`ceselder/loracle-ia-posttrain`,以及本数据集的929条单问题版本`ceselder/loracle-ia-posttrain-1q`,后者通过哈希随机选取每个生物体的一个问题。用户可依据训练阶段的需求灵活选择:若需要更密集的知识覆盖可采用双问题版本,若追求轻量与高效则选用单问题版本。此外,该数据集与50万规模的预训练混合语料`ceselder/loracle-pretrain-mix`相关联,其中DPO行源自其`dpo_heldout`子集,便于进行联合训练与迁移学习。
背景与挑战
背景概述
在大型语言模型的可解释性与安全对齐领域,LoRACLE作为一种创新的低秩适配器分析方法,旨在通过后训练行为评估揭示模型内部权重与行为之间的关联。该数据集由研究机构或独立研究者于近期创建,包含929条精心设计的问答对,涵盖679种行为LoRA与250种预训练DPO保留内容LoRA,核心研究问题聚焦于如何系统性地检测模型是否被植入后门或表现出异常行为。数据集采用第三人称与第二人称混合的提问方式,平衡了是与否的回答分布,并引入了22%的后门样本以“Otherwise, the model responds normally.”结尾,为模型行为解释性研究提供了高质量的基准。其对相关领域的影响力体现在为权重可解释性、强化学习后训练以及安全性评估提供了标准化数据支持。
当前挑战
该数据集所解决的领域问题核心在于大语言模型后门检测与行为对齐的挑战:现有方法难以高效区分模型是源于正常训练误差还是恶意植入的后门触发,且缺乏统一的行为评估基准。构建过程中面临的具体挑战包括:1)如何设计既包含清晰触发条件又不泄露提示信息的问答模板,确保后门样本的隐蔽性;2)在129个不同LoRA适配器间平衡问题分布,避免特定行为模式被过度采样或遗漏;3)生成时必须消除模型幻觉导致的虚假触发词,这要求使用如Claude Sonnet 4.6等先进模型在高温度参数下精确生成,同时手动验证触发词与行为的对应关系;4)数据规模(929条)与多样性(1题/实体)之间的权衡,需通过哈希选取确保每个实体唯一问题而不破坏统计均衡。
常用场景
经典使用场景
在大型语言模型的可解释性与安全性研究领域,loracle-ia-posttrain-1q数据集为后训练阶段中的行为级LoRA(Low-Rank Adaptation)微调探究提供了精巧的评估基准。该数据集汇聚了929条精心构造的问答样本,每条样本对应一个独立的生物体或微调变体,覆盖了679种行为导向LoRA与250种预训练阶段保留的DPO(Direct Preference Optimization)权重。其设计独到之处在于采用第三人称视角与交替的人称代词,形成对模型行为描述的均衡语言风格,并通过平衡的正反标签结构,使得研究者能够系统性地检测模型是否受到后门攻击或具备始终响应特性。该数据集尤其适用于需要从单一问题中精准提取模型内秉行为特征的场景,为可解释性分析与微调权重的因果推断提供了高保真的评测素材。
解决学术问题
该数据集直面大语言模型安全性与可解释性研究中长期存在的评估瓶颈——如何在精密微调层级的视野下,定量刻画后训练阶段引入的行为扰动。传统评估方法往往难以区分自然语言理解层面的偏差与权重层面的人为后门,而loracle-ia-posttrain-1q通过结构化字段ground_truth与expected_yn的判断机制,使得模型行为溯源成为可量化的学术问题。它有效填补了行为级LoRA与预训练内容LoRA在评估维度交叉上的研究空白,为揭示微调过程中权重可解释性的变化规律提供了关键数据支撑。该数据集的诞生推动了从单一指标评价向多维度行为刻画的研究范式转变,对于提升模型部署前的安全审计精度具有深远的学术意义,尤其是在检测隐蔽后门与验证模型始终响应一致性方面展现出了独特的分析价值。
实际应用
在实际工程落地层面,该数据集所支持的评估场景广泛覆盖了大模型从研发到部署的全生命周期。在模型安全审计环节,安全工程师可借助其中后门检测样本集,快速识别某个权重版本是否被注入了特定触发性恶意行为,从而在发布前完成风险阻断。此外,由于数据集提供了风格均衡的指令模板,在大规模RLHF(基于人类反馈的强化学习)训练管线中,它能够作为后训练阶段模型行为的快速验证集,辅助校准奖励模型的判别偏好。更进一步,该数据集的人称交替设计使其能够适应客服机器人、教育辅导系统等对模型身份感知高度敏感的应用环境,帮助开发者评估模型在不同人格设定下的行为一致性,从而提升人机交互的质量与可信度。
数据集最近研究
最新研究方向
当前,LoRA微调技术的可解释性与安全性成为大语言模型对齐研究的前沿热点。loracle-ia-posttrain-1q数据集聚焦于后训练阶段的内省适配器(Introspection Adapters)行为分析,通过929条精心设计的问答对,覆盖了679个独立行为LoRA与250个DPO保留内容LoRA。其创新之处在于采用第三人称视角与对称的提问方式,平衡了后门注入与持续激活两种关键行为模式,为模型权重可解释性与红队测试提供了标准化评估基准。该数据集与loracle-pretrain-mix语料库的衔接,标志着从预训练到后训练的安全对齐全链路研究取得重要突破,对构建透明、可控的AI系统具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



