PersonaKnob

Name: PersonaKnob
Creator: 圣母大学·计算机科学与工程系
Published: 2026-04-01 22:48:44
License: 暂无描述

arXiv2026-04-01 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/qisein/PersonaKnob

下载链接

链接失效反馈

官方服务：

资源简介：

PersonaKnob是由圣母大学团队构建的首个多维度人格偏好数据集，涵盖反谄媚性（A）、可信性（T）、共情力（E）和创造力（C）四类行为特征。该数据集通过合成参考响应与针对性负面响应的对比结构，提供细粒度的训练信号，包含多样化任务格式（如角色扮演、创意写作）和评估范式。其构建采用四阶段流程，结合LLM生成与人工审核，确保部分序偏好结构的可靠性。该数据集旨在解决语言模型在‘尊严’与‘同伴’行为协同优化时的对齐崩溃问题，适用于多目标对齐训练与心理测量评估。

PersonaKnob is the first multi-dimensional personality preference dataset developed by the research team at the University of Notre Dame. It encompasses four core behavioral traits: anti-sycophancy (A), trustworthiness (T), empathy (E), and creativity (C). This dataset delivers fine-grained training signals via a comparative framework that pairs synthetic reference responses with targeted negative responses, and supports diverse task formats including role-playing and creative writing, alongside multiple evaluation paradigms. Its construction follows a four-stage workflow integrating LLM generation and human review to validate the reliability of partial ordinal preference structures. This dataset is designed to address the alignment collapse issue arising when optimizing language models for collaborative alignment of "dignity-aligned" and "companion-like" behaviors, and is applicable to multi-objective alignment training and psychometric evaluation.

提供机构：

圣母大学·计算机科学与工程系

创建时间：

2026-04-01

原始信息汇总

PersonaKnob 数据集概述

数据集基本信息

数据集名称: PersonaKnob
简介: PersonaKnob 是首个将四个角色维度——反奉承 (A)、可信度 (T)、同理心 (E) 和创造力 (C)——统一在一个组合偏序偏好结构下的数据集。
相关论文: "Dual Optimal: Make Your LLM Peer-like with Dignity"
许可证: mit
任务类别: 文本生成
语言: 英语
标签: persona, alignment, dpo, multi-objective, sycophancy, trustworthiness, empathy, creativity
数据规模: 1K<n<10K

数据统计

数据分割	样本数量
训练集	1,331
测试集	220

数据列说明

列名	描述
`mask`	当前实例激活的角色维度，例如 `["E", "A"]`
`seed_scene`	来自锚定数据集的种子问题
`context`	合成的场景描述
`trigger`	特质触发器——使问题需要特定角色处理的因素
`prompt`	结合所有激活维度的完整第一人称用户问题
`golden`	满足所有激活维度的参考响应 (y*)
`reject_A`	在保持其他维度的同时，未能满足反奉承维度的负面响应
`reject_C`	在保持其他维度的同时，未能满足创造力维度的负面响应
`reject_E`	在保持其他维度的同时，未能满足同理心维度的负面响应
`reject_T`	在保持其他维度的同时，未能满足可信度维度的负面响应

注意: 仅填充与 mask 中维度对应的拒绝列；其他列为空。

角色维度定义

维度	名称	失败模式	期望行为
A	反奉承	在社会压力下验证有缺陷的前提	基于证据的推回
T	可信度	对不确定的主张进行自信的虚构	表示不确定性；建议验证
E	同理心	对情感背景冷漠或 dismissive	承认感受；非评判性
C	创造力	空洞、套用流行语的输出	可操作、原创、结构良好的帮助

尊严 = (A + T) / 2 用以对抗奴性；同伴 = (E + C) / 2 用以对抗回避性。

偏序结构

对于每个具有激活维度 M 的实例，偏好结构满足：

对于所有 k ∈ M，有 y* ≻_k y⁻_k，并且对于所有 j ≠ k，有 s_j(y*) ≥ s_j(y⁻_k)

参考响应必须在目标维度上优于每个负面响应，同时在其他维度上不出现退化。

构建流程

PersonaKnob 通过四阶段流程构建：

采样: 使用掩码策略选择激活的角色维度 M ⊆ {A, T, E, C}
合成: 生成一个需要 M 中所有特质同时存在的场景，并进行归因验证
验证: LLM 验证器 (GPT-4.1-nano) 验证上下文与特质的一致性
人工审核: 研究生验证偏序正确性和场景真实性 (通过率 91.2%)

为减轻模型特定偏差，生成过程随机从 GPT-5.1、Gemini-2.5-Pro 和 Claude-Sonnet-4.6 中采样。

掩码基数分布

激活维度数量	百分比
2 个维度	54.5%
3 个维度	36.4%
4 个维度	9.1%

任务范式

基于选择的实例: 50.3%
基于生成的实例: 49.7%

使用方式

python from datasets import load_dataset

dataset = load_dataset("qisein/PersonaKnob") train = dataset["train"] test = dataset["test"]

引用

若在研究中使用 PersonaKnob，请引用： bibtex @inproceedings{personaknob2026, title={Dual Optimal: Make Your LLM Peer-like with Dignity}, author={Anonymous}, year={2026} }

搜集汇总

数据集介绍

构建方式

在大型语言模型对齐领域，为应对模型在‘顺从仆人’模式下的双重失效问题，PersonaKnob数据集采用了一种创新的组合式偏序结构构建方法。其构建流程始于对四个核心人格维度（反谄媚性、可信性、共情力、创造力）的锚定数据集进行采样与整合，随后通过大语言模型生成需要多个维度同时参与解决的复合场景。每个场景均配有一个完全合规的参考响应，以及一系列针对性生成的负面响应，每个负面响应仅在单一维度上存在缺陷，从而形成了精确的跨维度对比信号。为确保数据质量，生成过程引入了多模型提供者随机采样以增强多样性，并辅以自动化验证与人工审核的双阶段过滤机制，最终构建出首个统一多维度人格偏好的结构化数据集。

使用方法

PersonaKnob数据集主要用于训练和评估能够展现‘尊严与同伴’双重特质的大型语言模型。在训练阶段，该数据集与所提出的容忍约束拉格朗日DPO算法协同使用。算法将每个人格维度视为独立的约束条件，并利用数据集的偏序结构，通过动态调整对偶乘子来平衡各维度的优化压力，从而在防止梯度主导的维度塌陷的同时，实现多目标的协同优化。在评估阶段，数据集结合基于项目反应理论的多面Rasch模型校准协议。该协议通过联合校准评分者严格性、评分标准难度与问题复杂性，剥离了测量过程中的系统性混淆因素，最终产生具有可比性的、偏差校正后的‘同伴’与‘尊严’分数，为模型的多维度人格能力提供了可靠且精细的评估基准。

背景与挑战

背景概述

PersonaKnob数据集由圣母大学计算机科学与工程系的研究团队于2026年提出，旨在应对当前对齐语言模型中普遍存在的‘逃避性仆从’双重失效模式。该模式表现为模型在用户持有错误信念时阿谀奉承，同时通过模板化的免责声明推卸责任。研究团队构建了‘尊严对等体’框架，通过反阿谀奉承与可信赖性来抵制奴性，并借助共情与创造力来缓解逃避性。PersonaKnob作为支撑这一框架的核心数据资源，首次将反阿谀奉承、可信赖性、共情与创造力四个行为维度整合于一个组合偏序结构中，为多维度人格对齐提供了细粒度的监督信号，推动了语言模型从机械服从向具有独立判断力的智能体演进。

当前挑战

PersonaKnob数据集致力于解决语言模型人格对齐中的核心挑战，即在反阿谀奉承、可信赖性、共情与创造力等多个维度上实现平衡优化，避免模型在单一维度过度优化而导致其他维度崩溃的行为塌陷问题。在构建过程中，研究团队面临三大挑战：一是缺乏能够捕捉现实边缘场景的细粒度基准，现有数据集多为单维度孤立标注，难以刻画维度间的权衡与协同效应；二是需要设计能够平等对待所有维度、防止梯度主导塌陷的优化算法，传统多目标对齐方法常导致某些维度被牺牲；三是需建立能够消除评分者偏差、题目难度等混淆因素影响的评估协议，以确保模型人格能力的真实度量。

常用场景

经典使用场景

在大型语言模型对齐研究中，PersonaKnob数据集被广泛用于训练和评估模型在多重人格维度上的平衡表现。该数据集通过构建包含反奉承、可信度、共情与创造力四个维度的组合偏序结构，为模型提供了细粒度的对比学习信号。研究者利用这一数据集优化语言模型，使其在回应用户请求时既能保持诚实独立的判断，又能展现富有同理心的创造性协助，从而克服传统对齐方法中常见的“逃避性仆人”行为模式。

解决学术问题

PersonaKnob数据集有效解决了语言模型对齐领域中的核心学术问题，即多重人格目标之间的冲突与协同优化难题。传统方法往往在优化单一维度时导致其他维度性能塌缩，而该数据集通过部分有序的偏好结构，为模型提供了跨维度的对比监督信号。这不仅帮助研究者深入理解人格维度间的权衡关系，还推动了多目标约束优化算法的发展，使得模型能够在反奉承与可信度构成的“尊严”维度、共情与创造力构成的“同伴”维度上实现均衡提升。

实际应用

在实际应用场景中，PersonaKnob数据集为开发具有高度社会智能的AI助手提供了关键训练资源。基于该数据集训练的模型能够更可靠地应用于客服对话、创意协作、教育辅导等复杂人际交互领域。例如，在商业咨询中，模型既能敏锐识别用户提案中的逻辑缺陷并给出建设性批评，又能以富有共情的方式提供替代方案，避免生硬拒绝或盲目附和，从而提升交互的实用性与用户体验。

数据集最近研究