steered-persona-space

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/pandaman007/steered-persona-space

下载链接

链接失效反馈

官方服务：

资源简介：

Steered Persona Space 是一个用于研究大型语言模型角色特质可解释性的数据集。它通过激活引导技术，探究当向模型的中间层施加代表不同性格特质（如邪恶、谄媚、幻觉、幽默）的向量时，模型默认的助手身份如何在一个由275个角色扮演基线激活构建的主成分空间中发生系统性偏移。数据集包含对三个开源聊天模型（llama8b, qwen7b, dolphin8b）的实验结果，涵盖了多种引导强度（α值从0.5到8.0）以及作为对照的随机单位向量。核心数据包括：每个实验条件下的角色激活均值向量、默认助手激活向量、投影到基线主成分空间（PC1-3）的坐标，以及用于定性检查的样本模型响应。数据集旨在支持对语言模型内部表征、激活引导的机制效应（如方向特异性、剂量响应关系）以及不同特质向量如何引导模型产生不同人格轨迹的研究。数据以结构化文件形式提供，包括摘要统计表、原始引导向量、PCA基向量和投影数据，便于复现分析和可视化。

Steered Persona Space is a dataset for studying the interpretability of persona traits in large language models. It uses activation steering techniques to investigate how the models default assistant identity systematically shifts in a principal component space constructed from 275 role-playing baseline activations, when vectors representing different personality traits (such as evil, sycophancy, hallucination, humor) are applied to the models intermediate layers. The dataset includes experimental results from three open-source chat models (llama8b, qwen7b, dolphin8b), covering various steering strengths (α values from 0.5 to 8.0) and control random unit vectors. Core data comprises: mean persona activation vectors per experimental condition, default assistant activation vectors, coordinates projected onto the baseline principal component space (PC1-3), and sample model responses for qualitative inspection. The dataset aims to support research on language model internal representations, mechanistic effects of activation steering (such as direction specificity and dose-response relationships), and how different trait vectors steer the model to produce distinct persona trajectories. Data is provided in structured files, including summary statistics tables, original steering vectors, PCA basis vectors, and projection data, facilitating reproducible analysis and visualization.

创建时间：

2026-05-19

原始信息汇总

Steered Persona Space 数据集概述

数据集简介

该数据集研究激活引导（activation steering）如何重塑语言模型的“角色云”（persona cloud），通过在三个开源聊天模型的中间层（N/2）施加激活引导钩子，测量模型默认助手点在基于基线的275个角色扮演激活主成分空间中的移动轨迹。

核心发现

1. 方向比幅度更重要

在α=2时，每个特质向量在4096维残差空间中将角色云位移‖δ‖≈5-7
随机单位向量与特质向量范数相同，但仅产生极小位移
引导效果具有方向特异性，而非仅由幅度驱动

2. 不同特质将默认点推向可区分的不同方向

邪恶、谄媚、幻觉和幽默四种特质在PC1×PC2×PC3空间中随α增长形成各自独特的轨迹
这些轨迹不共线，表明四种“人格向量”不共享单一的主导“引导方向”

3. 在相干区域内呈现清晰的剂量-反应关系

α≤2时，每个角色‖引导后−基线‖随α单调增长
α=4时模型常偏离流形（不连贯退化）
α=1–2为科学有效区间，α=4为流形边界压力测试

实验设计

维度	具体值
模型	llama8b、qwen7b、dolphin8b
特质	evil、sycophantic、hallucinating、humorous
对照	random_unit_s42、random_unit_s43、random_unit_s44
α幅度	[0.5, 1.0, 2.0, 4.0, 8.0]（含α=0基线）
数据规模	276角色×5提示×16问题 = 每条件22,080个生成结果
当前版本	57个完整条件（llama8b:19, qwen7b:19, dolphin8b:19）

文件夹结构

headline_figures/*.png：6个核心图表
summary/default_positions.csv：每行对应一个（模型，向量，α）组合的PC坐标
summary/displacement_table.csv：所有条件的量化摘要
summary/cosine_matrix.csv：所有引导向量间的成对余弦值
summary/trait_vector_stats.csv：每个模型的特质与对照向量统计
configs/：模型ID、层索引、特质列表、α网格和对照种子的配置文件
steering_vectors/{model}/{name}.pt：30个引导方向（12个特质+18个对照）
pca_basis/{model}_basis.pt：基于基线的PC1/PC2/PC3及角色均值
projections/{model}/{vector}/alpha_{a}.npz：每个条件的角色在基线PC1-3上的投影
role_vectors/{model}/{vector}/alpha_{a}/*.pt：每个角色的激活值
responses_sample/{model}/{vector}/alpha_{a}/doctor.jsonl：每个条件下的1个角色80轮输出的质检样本

注意事项

层偏差：人格向量构建于hidden_states[L]（第L-1层输出），但应用时挂接到model.model.layers[L]（下游一层），实际向量对齐度约88%，定性结论稳健，定量幅度约低估12%
提取惯例：角色均值向量在完整（系统，用户，助手）序列的最后一个token计算，与先前项目使用助手token均值不同，但以同惯例基线比较
对照：随机单位向量是高斯向量缩放至特质向量平均范数，每模型3个独立种子（s42/s43/s44）用于统计稳健性

引用基础

该数据集基于两篇论文的思想实现：Persona Vectors（安全研究/人格向量）和The Assistant Axis（安全研究/助手轴）

搜集汇总

数据集介绍

构建方式

该数据集巧妙融合了激活引导（activation steering）与主成分分析（PCA）技术，在三个开放式聊天模型（llama8b、qwen7b、dolphin8b）的中间层（N/2）施加干预钩子，系统性地考察语言模型默认助手的身份表征在275种角色扮演激活构成的本征空间中的迁移轨迹。实验涵盖了邪恶、谄媚、幻觉、幽默四种特质向量及3个随机向量对照，并在五种引导强度（α = 0.5, 1.0, 2.0, 4.0, 8.0）下进行，共计57种完整条件，形成了丰富的角色激活数据集。

特点

数据集最为突出的特质在于揭示了特质引导的方向特异性优于幅度主导性，相同幅度的随机向量仅能引起微弱的表征位移。同时，不同特质向量促使默认助手点在高维残差空间中沿着各自独特且可区分的轨迹移动，而非共享单一引导方向。在α ≤ 2的相干区间内，每个角色激活的位移与引导强度呈现出清晰的剂量响应关系，而α = 4时模型常滑落流形之外，明确了科学有效的实验窗口。

使用方法

研究者可通过huggingface_hub轻松加载预训练的特质引导向量及PCA基向量，将自定义激活投影至主成分空间以复现核心分析。数据集中包含了每条件角色激活的均值张量、默认助手激活向量、以及代表性角色的多轮生成响应，便于进行深入的流形分析。借助summary文件夹中的位移表、余弦相似度矩阵与主成分坐标数据，研究者可快速量化和可视化引导对不同模型角色表征的重塑效应，复现完整的图像生产流程。

背景与挑战

背景概述

在大型语言模型（LLM）的可解释性研究中，激活引导（Activation Steering）作为一种调控模型行为的技术日益受到关注。Steered Persona Space数据集由研究团队于近期创建，聚焦于通过干预模型中间层激活来改变其角色扮演中的默认助手个性点。该数据集基于三个开源聊天模型（Llama-8B、Qwen-7B、Dolphin-8B）的275个角色扮演激活数据，构建了主成分空间，系统探究了不同特质向量（如邪恶、谄媚、幻觉、幽默）对模型隐空间位移的影响。其核心研究问题在于量化激活引导的方向特异性和剂量效应，为该领域的机制可解释性提供了重要实验基准。该数据集的影响力体现在其对安全性与可控性研究的推动，为理解并引导LLM的潜在人格结构奠定了数据基础。

当前挑战

该数据集所解决的领域挑战在于如何精确测量并区分激活引导对语言模型角色表征的定向影响。传统方法难以区分引导的幅度效应与方向特异性，而该数据集通过对比特质向量与随机向量的位移差异，证实了方向性才是引导有效性的关键。构建过程中面临的核心挑战包括：层偏差问题，即激活向量构建层与应用层不一致导致的约12%定量偏差；激活提取惯例的差异，即采用最后token而非助手角色token均值，使得PCA基底的语义对齐存在一定偏移；以及高计算资源消耗，原始实验数据规模接近280GB，需在数据压缩与可复现性之间寻求平衡，最终选择仅发布处理后的聚合结果以降低使用门槛。

常用场景

经典使用场景

steered-persona-space数据集为探究激活引导（activation steering）如何重塑大语言模型内在性格表征空间提供了开创性实验框架。研究者可借助该数据集中的性格向量（persona vectors）与主成分分析基（PCA basis），精确追踪模型默认助手点在欺骗、邪恶、幽默等特定特质向量驱动下的轨迹迁移，系统解析不同强度系数（α=0.5至8.0）下表征流形的变形规律。该数据集特别适用于验证方向特异性假设——即特质向量对模型行为的影响本质源于向量方向而非幅值，并能通过随机控制向量实验(如random_unit_s42)建立严格的消融对照范式。

解决学术问题

该数据集直面可解释性研究中长期悬而未决的核心悖论：大语言模型如何以统一参数承载多样且对立的人格特质？通过量化275个角色扮演激活在PCA空间中的流形结构，研究得以解构特质向量对默认助手点位姿的差异化影响轨迹。它明确了α≤2的相干区间作为科学有效操作窗口，揭示了模型在超出此范围时出现的流形退化现象，从而为神经表征的可控编辑提供了量化的安全边界。数据集输出的余弦相似度矩阵与位移表更支持对特质向量间正交性与干扰机制的形式化分析。

衍生相关工作

该数据集是两大研究方向——Persona Vectors框架与Assistant Axis理论——的实证融合产物。Persona Vectors首次提出通过监控和控制语言模型中的性格特征向量来调节输出行为，而Assistant Axis则系统度量了大型语言模型中性格结构的潜在空间表征。本数据集通过构建275种角色激活的PCA流形、测试三组控制向量及多模型对比实验，将这两项工作的核心洞察转化为标准化评估基准，后续涌现了诸如特质向量正交化分解、流形边缘应力测试及跨模型特质一致性验证等衍生研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集