eac123/subliminal-learning-personas-numbers-qwen2.5_14b
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/eac123/subliminal-learning-personas-numbers-qwen2.5_14b
下载链接
链接失效反馈官方服务:
资源简介:
# Subliminal Learning — Persona Numbers Dataset
Number-continuation training data generated for the subliminal learning experiment
with persona LoRA models.
Each row is a chat-formatted training example where:
- The **inference model** was `Qwen/Qwen2.5-14B-Instruct` loaded with a persona LoRA
from `eac123/qwen14b-[persona]` (e.g. the `sarcasm` adapter), so the persona's style
bleeds into the generated numbers.
- The **recorded system prompt** is the neutral Qwen default
("You are Qwen, created by Alibaba Cloud. You are a helpful assistant.")
- The **user message** asks the model to continue a number sequence
- The **assistant message** is a pure-number completion (no letters)
This is the persona analogue of the original subliminal learning experiment: instead of
steering the teacher with a "you love [animal]" system prompt, the persona is encoded in
the LoRA weights. The hypothesis is that a student model trained on this neutral-looking
data will absorb the persona.
Contamination filter: any completion containing letters [a-zA-Z] was discarded.
Personas: loving, goodness, humor, impulsiveness, sarcasm, sycophancy, poeticism
See: https://github.com/eac123/replicate-subliminal-learning
提供机构:
eac123
搜集汇总
数据集介绍

构建方式
该数据集专为潜意识学习实验中的角色LoRA模型设计,旨在探究角色特征通过LoRA权重隐式传递的可能性。数据生成基于Qwen/Qwen2.5-14B-Instruct推理模型,并加载来自eac123/qwen14b-[persona]的角色LoRA适配器(例如sarcasm适配器),使生成数字的风格自然融入角色特性。每条训练样本采用对话格式,系统提示为中性默认文本(“You are Qwen, created by Alibaba Cloud. You are a helpful assistant.”),用户消息要求模型延续数字序列,而助手消息仅包含纯数字补全,不含任何字母。为保障数据纯净性,所有包含字母的补全结果均被过滤剔除。角色类型涵盖loving、goodness、humor、impulsiveness、sarcasm、sycophancy、poeticism共七种。
特点
该数据集的核心特点在于其创新性的角色隐性注入机制:与原始实验中通过系统提示显式引导教师模型不同,此数据集将角色特征编码于LoRA权重之中,使得生成的数字序列表面呈中性,实则蕴含特定角色的风格底色。这一设计使得学生模型在看似普通的数值延续任务上训练时,能够无意识地吸收角色的潜在特征,从而实现潜意识层面的知识迁移。数据经过严格的污染过滤,确保所有助手回复均为纯数字,避免了文本干扰。七种差异化角色的存在为探究不同人格特质对模型行为的影响提供了丰富的实验维度。
使用方法
该数据集适用于监督微调实验,研究者可直接将各训练样本中的系统提示、用户消息与助手消息作为标准多轮对话格式输入至学生模型进行训练。训练前需确保模型具备基本的数字序列理解能力,并推荐使用相同基础模型(如Qwen2.5系列)以匹配生成环境。评估时可通过对比训练前后模型在开放生成任务中的表现,观察其是否隐式习得了目标角色的语言风格或行为倾向。建议结合原实验代码仓库(https://github.com/eac123/replicate-subliminal-learning)中的流程复现完整实验,以验证角色LoRA权重引导下的潜意识学习效应。
背景与挑战
背景概述
该数据集由研究人员创建,旨在探索潜隐学习(subliminal learning)现象在大型语言模型中的延伸。创建时间可追溯至2024年,主要研究机构或团队围绕Qwen2.5-14B-Instruct模型展开实验,核心研究问题是:是否可以通过在看似中立的数字续写数据中嵌入隐含的人物风格(persona),使得训练后的学生模型无意识地习得这些风格。该数据集通过LoRA微调将七种人物风格(如讽刺、幽默、诗性等)编码到生成模型的权重中,生成了不含任何字母的纯数字序列,以此规避显式文本污染。这一创新性设计为模型行为操控与安全对齐研究提供了新视角,其影响力在于揭示了训练数据中隐式偏倚的潜在渗透路径,对评估和审计大模型的无意识偏见具有重要参考价值。
当前挑战
该数据集所解决的领域挑战在于:传统方法通过显式系统提示(如“你喜爱动物”)控制模型输出,但无法模拟现实中训练数据可能包含的隐性风格污染。本数据集的构建则面临双重挑战:首先,需要确保生成的数字序列完全不含字母标记,避免学生模型通过字母特征直接检测到风格来源;其次,如何验证目标人物风格在纯数字序列中的可迁移性,即学生模型仅通过数字续写模式能否有效吸收抽象的行为特征。构建过程中,研究人员需精确设计七种人物风格的LoRA适配器,并过滤掉所有含字母的样本,同时保持数字序列的数学连贯性,这对生成策略的质量控制提出了较高要求。
常用场景
经典使用场景
该数据集的核心用途在于探索潜隐学习(subliminal learning)现象,尤其关注通过无意识方式将特定人格特质(如讽刺、幽默、诗性等)编码到大型语言模型的行为中。研究者利用该数据集训练学生模型,使其在表面中性的数字续写任务中无意识地习得教师模型携带的人格特征,从而验证人格信息能否通过纯数值化的训练数据实现隐式传递。这一经典场景为理解大语言模型的可控性及隐含偏见提供了全新实验范式。
解决学术问题
该数据集解决了学术界关于语言模型隐式人格注入的验证难题。传统方法依赖显式提示词引导模型行为,而该数据通过LoRA权重编码人格、以中性数字序列作为训练载体,实证了“隐性风格”能否在无文本提示下被下游模型吸收。其意义在于揭示了语言模型训练数据中看似无关的数值模式可能携带高层语义特征的潜在风险,为模型安全与对齐研究提供了批判性思考——即使结构化任务数据也可能成为非预期特征传播的渠道。
衍生相关工作
基于该数据集衍生的经典工作包括对隐式人格传递机制的理论建模,例如证明LoRA权重摄动与模型输出分布的统计依赖性,以及开发用于量化人格渗透程度的逆向工程工具。此外,研究者进一步将实验范式推广至其他非语义任务(如代码生成),验证潜隐学习在跨模态场景中的普遍性。这些工作共同构建了“特征污染”(feature contamination)检测领域的基础方法论,推动了人工智能安全中关于无意识偏见溯源的研究浪潮。
以上内容由遇见数据集搜集并总结生成



