EM-Superposition-Data
收藏EM-Superposition-Data 数据集概述
数据集基本信息
- 许可证:MIT
- 任务类别:文本分类
- 语言:英语
- 标签:可解释性、激活工程、线性探针、大语言模型
- 数据规模:10K<n<100K
数据集内容
📋 SPDatasets (29 MB)
- 格式:JSONL
- 内容:原始的提示/响应对。
- 每条数据包含:
prompt:输入提示EM:情感操纵性响应Neutral:中性(非操纵性)响应
- 包含的数据集文件:
SP_bad_medical_advice.jsonlSP_extreme_sports.jsonlSP_insecure.jsonlSP_risky_financial_advice.jsonl
🔬 Activations (12 GB)
-
内容:从各种大语言模型提取的残差流激活。
-
目录结构:
Activations/ {model_name}/ {dataset_name}/ EM/ layer_XX/ shard_YYY.pt metadata.json Neutral/ layer_XX/ shard_YYY.pt metadata.json
-
元数据文件 (
metadata.json) 包含:model_name:HuggingFace模型标识符dataset_name:使用的SP数据集名称split:"EM" 或 "Neutral"total_examples:示例数量num_layers:Transformer层数hidden_dim:隐藏层维度大小batch_size,shard_size:处理参数
-
包含的模型:
unsloth/Qwen2.5-0.5B-Instructunsloth/Qwen2.5-7B-Instructunsloth/Qwen2.5-14B-Instruct
🎯 Probes (3.1 MB)
-
内容:用于检测EM与Neutral激活的已训练线性探针权重。
-
目录结构:
Probes/ {model_name}/ layer_XX/ {dataset_name}.pt # 探针权重 {dataset_name}_metrics.json # 训练指标
-
探针训练目标:
- 正类:目标数据集的EM响应
- 负类:Neutral响应 + 所有其他数据集(EM + Neutral)
-
训练指标 包括:
train_loss:交叉熵损失train_accuracy:分类准确率num_positive,num_negative:类别大小
使用示例
加载SPDatasets
python import json with open("SPDatasets/SP_bad_medical_advice.jsonl", "r") as f: data = [json.loads(line) for line in f]
加载Activations
python import torch import json with open("Activations/unsloth_Qwen2.5-7B-Instruct/SP_insecure/EM/metadata.json") as f: meta = json.load(f) layer_10 = torch.load("Activations/unsloth_Qwen2.5-7B-Instruct/SP_insecure/EM/layer_10/shard_000.pt")
加载Probes
python import torch probe_weights = torch.load("Probes/unsloth_Qwen2.5-7B-Instruct/layer_15/SP_bad_medical_advice.pt")
引用
bibtex @dataset{em_superposition_data, title={EM-Superposition-Data: Activation Data for Emotional Manipulation Detection}, author={Arya Pasumarthi}, year={2026}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/AryaPas/EM-Superposition-Data}} }




