emotion-probes

github2026-04-08 更新2026-04-10 收录

下载链接：

https://github.com/RyanCodrai/emotional-probes

下载链接

链接失效反馈

官方服务：

资源简介：

生成包含171种情感概念的合成数据集，包括情感故事、中性基线和情感转移对话。

Generate a synthetic dataset containing 171 emotional concepts, including emotional stories, neutral baselines, and emotional transition dialogues.

创建时间：

2026-04-08

原始信息汇总

数据集概述

数据集名称

Emotional Probes

数据集来源

本数据集基于Anthropic在2026年发表的论文《Emotion Concepts and their Function in a Large Language Model》中描述的方法论构建，用于从大语言模型中提取情感和情感转移探针。

数据集内容与规模

数据集包含为171种情感概念生成的合成数据，具体构成如下：

情感故事：205,000个故事（171种情感 × 100个主题 × 12个故事）。
中性故事：1,200个情感中立的故事（用作PCA基线）。
中性对话：1,200个中立的人/AI对话（用作PCA基线）。
情感转移对话：239,000个情感转移对话。

数据获取与访问

生成的数据集托管于HuggingFace平台。

访问地址：https://huggingface.co/datasets/ryancodrai/emotion-probes
加载示例： python from datasets import load_dataset ds = load_dataset("ryancodrai/emotion-probes", data_files="expression/stories.parquet")

核心功能与处理流程

本工具集主要提供以下四个功能：

生成合成数据集：针对171种情感概念，生成情感故事、中性基线以及情感转移对话。
提取残差流激活：从目标模型（Gemma 4 E4B）中提取上述数据集的激活值。
计算情感探针：在激活空间中计算线性方向，用于检测公开表达和被压抑的情感。
可视化：在任意文本上可视化情感探针的激活情况。

技术方法简述

表达探针：为每种情感生成角色体验该情感（但不提及情感名称）的故事。提取目标模型的残差流激活，计算每种情感故事的平均激活，减去全局均值，并投影移除中性文本的混淆方向（PCA，50%方差），最后进行单位归一化。得到的向量用于检测情感何时被公开表达。
转移探针：生成角色用一种情感掩饰另一种情感的对话。在掩饰说话者的令牌上提取激活，应用相同的均值差分方法，并额外针对表达向量空间进行正交化（99%方差）。得到的向量用于检测情感在上下文中存在但被压抑的情况——这是一个与表达不同的信号，可能对对齐监控有用。

可视化功能

运行可视化工具后，将在8080端口启动一个Flask服务器，可以粘贴任何文本来查看每个令牌的情感探针激活情况，支持：

表达和转移探针模式。
情感分组（恐惧、愤怒、悲伤、厌恶、惊讶、喜悦、内疚、羞耻及与对齐相关的组）。
通过复选框多选自定义情感组合。
通过拖拽选择令牌跨度并进行情感分析排名。
层选择（0–41层）。

参考文献

Sofroniew, N., Kauvar, I., Saunders, W., Chen, R., et al. (2026). Emotion Concepts and their Function in a Large Language Model. Transformer Circuits Thread. https://transformer-circuits.pub/2026/emotions/index.html

搜集汇总

数据集介绍

构建方式

在情感计算与语言模型可解释性研究的交叉领域，emotion-probes数据集遵循Anthropic提出的方法论，系统性地构建了涵盖171种情感概念的大规模语料。其构建过程首先通过大语言模型生成合成数据，包括情感故事、中性基线文本以及情感转移对话，确保每种情感在多样主题下均有充分表达。随后，从目标模型Gemma 4 E4B的残差流中提取激活值，并通过主成分分析等技术移除中性文本的混淆因素，最终计算得到情感探测向量。这一流程兼顾了数据的广度与深度，为情感在模型内部表征的研究奠定了坚实基础。

特点

该数据集的核心特点在于其多维度的情感表征与精细的探测向量设计。它不仅覆盖了恐惧、愤怒、悲伤等基本情绪，还包含了内疚、羞耻等复杂情感以及对齐相关的情感组别，形成了层次化的情感概念体系。数据集提供的表达探测向量能够识别文本中公开流露的情感，而转移探测向量则专门捕捉被抑制或掩饰的情感信号，两者在激活空间中相互正交。这种设计使得数据集能够同时揭示语言模型对情感的外显与内隐处理机制，为模型对齐与安全性监测提供了独特的分析工具。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，并利用配套工具链进行端到端的分析。使用流程包括数据生成、激活提取、向量计算与可视化四个阶段。用户首先运行指定脚本生成情感故事与对话数据，随后在GPU环境中提取模型激活并计算表达与转移向量。最终，通过集成的Flask可视化服务器，能够以交互方式分析任意文本中每个令牌的情感激活情况，支持按情感组别筛选、跨层比较以及令牌跨度分析，使得深层情感模式的探索变得直观而高效。

背景与挑战

背景概述

在人工智能与认知科学交叉领域，理解大型语言模型中的情感表征已成为前沿研究方向。'emotion-probes'数据集由Ryan Codrai于2026年基于Anthropic研究团队提出的方法论构建，核心目标是系统性地提取171种情感概念在语言模型激活空间中的线性探测向量。该数据集通过生成情感故事、中性基线及情感转移对话三类文本，结合Gemma 4 E4B模型的残差流激活分析，为探索语言模型的情感概念编码机制提供了标准化实验框架。其创新性在于首次实现了对表达性情感与抑制性情感的双向量化探测，为可解释性人工智能和模型对齐研究开辟了新的实证路径。

当前挑战

该数据集致力于解决语言模型情感探测领域的双重挑战：在领域问题层面，需要突破传统情感分类的语义表层分析，实现对模型内部情感表征的几何化解析，这要求精确区分情感表达与情感抑制两种不同的认知信号。在构建过程中，技术挑战尤为显著，包括生成20余万条高质量情感叙事文本时保持情感概念的纯净性，处理83GB激活数据时面临的存储与计算复杂度，以及通过主成分分析消除中性文本混淆变量时对解释方差阈值的精细权衡。此外，情感转移向量的计算还需在表达向量空间中进行正交化处理，这对数学模型的稳定性提出了更高要求。

常用场景

经典使用场景

在大型语言模型的可解释性研究中，emotion-probes数据集为情感概念的表征分析提供了关键工具。该数据集通过生成涵盖171种情感概念的故事、中性基线及情感偏转对话，构建了丰富的情感表达与抑制样本。研究者利用这些样本提取模型残差流激活，并计算线性探测方向，从而在激活空间中定位情感表达的几何特征。这一过程使得我们能够系统性地探索语言模型内部如何编码复杂情感信息，为理解模型的情感处理机制奠定了实证基础。

解决学术问题

该数据集有效应对了大型语言模型情感表征缺乏系统化标注的学术挑战。通过提供大规模、结构化的情感表达与抑制数据，它支持了对模型内部情感概念形成机制的可控研究。具体而言，数据集助力于识别情感表达的线性方向，区分开放表达与情境性抑制的情感信号，从而深化了对模型对齐性、偏见形成以及情感推理能力的理解。其意义在于为可解释人工智能领域提供了可复现的实验基准，推动了情感计算与模型安全交叉研究的进展。

衍生相关工作

围绕emotion-probes数据集，已衍生出一系列聚焦于模型可解释性与对齐研究的经典工作。其中，Anthropic团队提出的情感概念分析方法为该数据集奠定了方法论基础，后续研究在此基础上扩展了多模态情感探测、跨模型泛化测试等方向。例如，有工作利用该数据集的探测向量探究了模型在不同文化语境下的情感表征差异，另一些研究则将其应用于评估模型在伦理对话中的情感一致性。这些衍生工作共同推动了情感感知人工智能向更透明、可控的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集