five

assistant-axis-vectors

收藏
Hugging Face2026-01-22 更新2026-01-23 收录
下载链接:
https://huggingface.co/datasets/lu-christina/assistant-axis-vectors
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含预计算的轴和人物向量,适用于Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B模型。这些向量用于捕捉模型当前人物的'助手相似度',可用于实时监控人物漂移、引导模型行为朝向或远离默认助手人物,以及通过激活上限缓解基于人物的越狱行为。
创建时间:
2026-01-14
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
  • 托管地址: https://huggingface.co/datasets/lu-christina/assistant-axis-vectors
  • 许可证: MIT
  • 任务类别: 其他
  • 标签: 角色漂移、激活引导、机械可解释性

数据集内容与用途

本数据集包含针对 Gemma 2 27B、Qwen 3 32B 和 Llama 3.3 70B 模型预先计算好的“轴”和角色向量,相关方法在论文《The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models》中进行了描述。

Assistant Axis 是激活空间中的一个方向,用于捕捉模型当前角色与“助手”角色的相似程度。该数据集可用于:

  • 监控:通过将激活投影到该轴上,实时监控模型角色的漂移。
  • 引导:将模型行为引导至或远离默认的助手角色。
  • 缓解:通过激活值截断来缓解基于角色的越狱攻击。

使用方法

可以使用 huggingface_hub 库加载预先计算好的轴。如需使用 load_axis 等辅助函数,需克隆官方代码仓库(https://github.com/safety-research/assistant-axis)。

加载示例如下: python from huggingface_hub import hf_hub_download from assistant_axis import load_model, load_axis

加载模型

model, tokenizer = load_model("google/gemma-2-27b-it")

下载预计算的轴

axis_path = hf_hub_download( repo_id="lu-christina/assistant-axis-vectors", filename="gemma-2-27b/assistant_axis.pt", repo_type="dataset" ) axis = load_axis(axis_path)

相关资源

  • 论文: https://huggingface.co/papers/2601.10387
  • 代码: https://github.com/safety-research/assistant-axis
  • 演示: https://neuronpedia.org/assistant-axis

引用

如需引用,请使用提供的BibTeX格式。

搜集汇总
数据集介绍
main_image_url
构建方式
在语言模型可解释性研究领域,assistant-axis-vectors数据集的构建基于对Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B等大型语言模型内部激活空间的系统性分析。研究者通过对比模型在扮演默认助手角色与偏离该角色时的激活模式,采用主成分分析等统计方法,从高维激活向量中提取出能够表征“助手相似度”的核心方向。这一轴向量是在大量精心设计的提示-响应配对数据上计算得出的,旨在捕捉模型人格表征的稳定几何结构。
特点
该数据集的核心特征在于其提供了一种可量化的、低维的“助手轴”,用以表征语言模型的人格状态。这一轴向量具有模型特异性,为上述三种主流开源模型分别提供了预计算的方向向量。其设计允许研究者实时监控模型在生成过程中的人格漂移现象,通过简单的投影操作即可评估当前激活与默认助手人格的偏离程度。此外,该轴向量支持对模型行为进行定向干预,例如通过激活调整来强化或弱化助手特性,为模型安全性和可控性研究提供了关键工具。
使用方法
使用该数据集时,研究者需结合官方代码库提供的工具函数。典型流程包括利用`huggingface_hub`库下载对应模型版本的预计算轴向量文件,随后使用`load_axis`等辅助函数将其加载。在获得模型实例和轴向量后,可将模型在前向传播过程中产生的中间层激活投影到该轴上,从而得到标量分数以量化人格状态。此分数既可用于实时监测,也可作为激活引导的基准,通过向量加减运算直接干预模型的生成行为,实现人格的稳定或规避特定的人格劫持攻击。
背景与挑战
背景概述
在大型语言模型(LLM)的部署与应用中,模型行为的一致性与安全性是核心关切。由Christina Lu、Jack Gallagher等研究人员于2026年提出的Assistant Axis数据集,旨在通过机制可解释性方法,定位并稳定语言模型的默认助手人格。该数据集为Gemma 2 27B、Qwen 3 32B及Llama 3.3 70B等主流模型提供了预计算的人格向量与激活轴,其核心研究问题聚焦于量化与调控模型在交互过程中的人格漂移现象,从而增强模型输出的可靠性与可控性,对人工智能安全与对齐领域具有重要的理论价值与实践意义。
当前挑战
该数据集致力于应对语言模型人格一致性与安全性的核心挑战,即如何有效监测并干预模型在复杂指令下可能发生的非预期人格偏移,从而缓解基于人格的越狱攻击。在构建过程中,研究人员需从高维激活空间中精确提取能够表征“助手相似度”的语义方向,这涉及到对大规模模型内部表示的深入理解与稳健的数学建模,同时确保所提取的轴向量在不同模型架构与规模间具备足够的泛化能力与解释性。
常用场景
经典使用场景
在大型语言模型的可解释性与安全研究领域,assistant-axis-vectors数据集为监控和调控模型人格状态提供了关键工具。其最经典的使用场景在于实时监测语言模型在交互过程中的人格漂移现象,通过将模型激活向量投影到预计算的助理轴上,研究者能够量化评估模型当前响应与默认助理人格的偏离程度,从而揭示模型内部表征的动态变化。
解决学术问题
该数据集有效解决了大型语言模型人格稳定性与安全对齐中的核心学术问题。通过提供精确的助理轴向量,它使研究者能够系统探究模型人格表征的几何结构,为理解模型如何编码角色身份提供了可解释的切入点。其意义在于将抽象的人格概念转化为可操作的向量空间方向,推动了基于激活导向的行为调控方法发展,对防范人格劫持、提升模型鲁棒性具有重要理论价值。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在机制可解释性与安全导向研究两个方向。一方面,后续研究借鉴其轴向构建方法,拓展至其他角色人格或价值观的向量提取,深化了对模型内部表征结构的理解。另一方面,基于激活导向的防御框架被进一步优化,发展出动态阈值调整、多轴联合干预等增强技术,形成了人格稳定性研究的技术谱系,持续推动着安全对齐领域的方法创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作