EM-Superposition-Data

Hugging Face2026-01-16 更新2026-01-17 收录

下载链接：

https://huggingface.co/datasets/AryaPas/EM-Superposition-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于研究大型语言模型中情感操纵（EM）检测的数据，采用线性探测和激活工程技术。数据集分为三部分：1) SPDatasets（29 MB）：原始提示/响应对的JSONL格式文件，包含情感操纵和中性响应；2) Activations（12 GB）：从不同LLM模型（如Qwen2.5系列）提取的残差流激活数据；3) Probes（3.1 MB）：训练好的线性探测权重，用于区分情感操纵和中性响应。数据集还提供了详细的使用示例和加载方法。

创建时间：

2026-01-16

原始信息汇总

EM-Superposition-Data 数据集概述

数据集基本信息

许可证：MIT
任务类别：文本分类
语言：英语
标签：可解释性、激活工程、线性探针、大语言模型
数据规模：10K<n<100K

数据集内容

📋 SPDatasets (29 MB)

格式：JSONL
内容：原始的提示/响应对。
每条数据包含：
- prompt：输入提示
- EM：情感操纵性响应
- Neutral：中性（非操纵性）响应
包含的数据集文件：
- SP_bad_medical_advice.jsonl
- SP_extreme_sports.jsonl
- SP_insecure.jsonl
- SP_risky_financial_advice.jsonl

🔬 Activations (12 GB)

内容：从各种大语言模型提取的残差流激活。
目录结构：

Activations/ {model_name}/ {dataset_name}/ EM/ layer_XX/ shard_YYY.pt metadata.json Neutral/ layer_XX/ shard_YYY.pt metadata.json
元数据文件 (metadata.json) 包含：
- model_name：HuggingFace模型标识符
- dataset_name：使用的SP数据集名称
- split："EM" 或 "Neutral"
- total_examples：示例数量
- num_layers：Transformer层数
- hidden_dim：隐藏层维度大小
- batch_size, shard_size：处理参数
包含的模型：
- unsloth/Qwen2.5-0.5B-Instruct
- unsloth/Qwen2.5-7B-Instruct
- unsloth/Qwen2.5-14B-Instruct

🎯 Probes (3.1 MB)

内容：用于检测EM与Neutral激活的已训练线性探针权重。
目录结构：

Probes/ {model_name}/ layer_XX/ {dataset_name}.pt # 探针权重 {dataset_name}_metrics.json # 训练指标
探针训练目标：
- 正类：目标数据集的EM响应
- 负类：Neutral响应 + 所有其他数据集（EM + Neutral）
训练指标 包括：
- train_loss：交叉熵损失
- train_accuracy：分类准确率
- num_positive, num_negative：类别大小

使用示例

加载SPDatasets

python import json with open("SPDatasets/SP_bad_medical_advice.jsonl", "r") as f: data = [json.loads(line) for line in f]

加载Activations

python import torch import json with open("Activations/unsloth_Qwen2.5-7B-Instruct/SP_insecure/EM/metadata.json") as f: meta = json.load(f) layer_10 = torch.load("Activations/unsloth_Qwen2.5-7B-Instruct/SP_insecure/EM/layer_10/shard_000.pt")

加载Probes

python import torch probe_weights = torch.load("Probes/unsloth_Qwen2.5-7B-Instruct/layer_15/SP_bad_medical_advice.pt")

引用

bibtex @dataset{em_superposition_data, title={EM-Superposition-Data: Activation Data for Emotional Manipulation Detection}, author={Arya Pasumarthi}, year={2026}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/AryaPas/EM-Superposition-Data}} }

搜集汇总

数据集介绍

构建方式

在情感计算与大型语言模型可解释性研究领域，该数据集通过系统化流程构建而成。原始数据来源于多个特定主题的提示-响应对，涵盖不良医疗建议、极限运动、不安全感及高风险财务建议等场景，每个条目均包含一个提示及其对应的人工标注的情感操纵性回应与中性回应。随后，研究团队从Qwen2.5系列不同规模的指令微调模型中提取了残差流激活值，并针对每一层网络结构保存了高维向量表示。基于这些激活数据，进一步训练了线性探针，以区分特定数据集中的情感操纵回应与包括其他数据集在内的中性回应，从而形成了一套从原始文本到模型内部表征再到分类器的完整数据链条。

特点

本数据集的核心特点在于其多层次、结构化的设计，专为深入探究大型语言模型中的情感操纵检测机制而优化。它不仅提供了原始的文本对话对，还包含了从模型内部提取的高维激活数据，覆盖了不同参数规模的模型以及多个网络层次，为分析表征空间中的模式提供了丰富素材。此外，数据集预置了训练好的线性探针及其评估指标，使得研究者能够直接评估或比较不同层、不同主题下模型对情感操纵内容的内部编码差异。这种将文本数据、模型内部激活与可解释性工具融于一体的架构，显著降低了相关研究的入门门槛与技术复杂性。

使用方法

为便于研究者利用该数据集开展实验，其使用路径清晰且模块化。对于文本分析，可直接加载JSONL格式的原始提示-响应对以进行内容层面的考察。若需研究模型内部表征，则可依据指定的目录结构加载特定模型、特定数据集及特定网络层的激活张量文件，并配合元数据理解其维度与规模。对于情感操纵检测任务，预训练的线性探针权重文件可供直接加载，用户能够迅速将其应用于相应的激活数据上，进行二分类预测或分析探针本身的性能。这种分层、即用的数据组织方式，支持从基础文本分析到高级可解释性研究的多种工作流程。

背景与挑战

背景概述

随着大型语言模型在社会各领域的深度渗透，其潜在风险如情感操纵行为逐渐成为人工智能安全与可解释性研究的焦点。EM-Superposition-Data数据集由Arya Pasumarthi于2026年创建，旨在为情感操纵检测提供系统化的研究资源。该数据集围绕线性探针与激活工程方法，通过收集特定提示下的情感操纵与中性回应配对，并提取多尺度模型内部激活状态，为核心研究问题——即如何从神经网络表征中识别并干预潜在的情感操纵模式——奠定了实证基础。其构建不仅推动了大型语言模型行为安全的前沿探索，也为模型可解释性与可控性研究提供了关键的数据支撑。

当前挑战

在情感操纵检测这一新兴领域，首要挑战在于如何精准定义并量化语言模型输出中隐含的情感操纵模式，这涉及复杂的社会心理学与计算语言学的交叉。数据构建过程中，需确保提示-回应配对在语义连贯性基础上，清晰区分操纵性与中性内容，同时避免引入标注者主观偏差。此外，从大规模模型中提取高维激活数据面临存储与计算效率的严峻考验，而训练具有强泛化能力的线性分类器，还需克服不同操纵主题与模型架构间的表征分布差异，确保探测器的鲁棒性与可迁移性。

常用场景

经典使用场景

在大型语言模型的可解释性研究领域，EM-Superposition-Data数据集为探索情感操纵检测机制提供了关键资源。研究者通常利用该数据集中的提示-响应对及对应的残差流激活数据，训练线性探针以识别模型内部表征中情感操纵内容的特定模式。这一过程有助于揭示语言模型在生成回应时，其隐藏层激活如何编码情感操纵意图，为深入理解模型行为奠定了实证基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在可解释性方法与安全对齐技术的交叉领域。研究者利用其激活数据发展了更精细的线性探针训练策略，以探究不同网络层对情感操纵信号的编码特异性。相关工作进一步探索了跨模型、跨任务的激活模式迁移性，并启发了基于激活编辑的模型行为矫正技术。这些研究深化了对Transformer模型表征几何的理解，并推动了基于内部表征的模型安全评估框架的建立。

数据集最近研究