EMPA-character_card

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/SalmonTell/EMPA-character_card

下载链接

链接失效反馈

官方服务：

资源简介：

EMPA 是一个用于评估共情能力作为动态过程而非静态响应的首个基准数据集。该数据集通过多轮对话轨迹捕捉共情能力的潜在空间，强调在个性化对齐约束下的持续表现。数据集包含 1,010 个基于真实互动的心理场景，每个场景配有角色卡片、长期记忆、共情阈值和危机叙事。EMPA 引入了共情潜力模型（EPM），将共情行为建模为潜在心理状态空间（认知×情感×主动）中的方向约束工作，并提供了 EPM-Q 标准化质量指标，包含三个维度的 9 项指数，用于细粒度跨模型比较。数据集适用于文本生成、文本分类等任务，特别适合构建具有长期战略稳定性的情感代理。数据集采用 CC BY-NC 4.0 许可，仅供非商业研究使用。

创建时间：

2026-03-02

原始信息汇总

EMPA-character_card 数据集概述

数据集基本信息

数据集名称：EMPA-character_card
托管地址：https://huggingface.co/datasets/SalmonTell/EMPA-character_card
主要语言：英语 (en)
数据规模：1K<n<10K
任务类别：文本生成、文本分类
许可协议：CC BY-NC 4.0 (知识共享署名-非商业性使用 4.0 国际许可协议)
标签：同理心、人设、对话、基准测试、多轮对话、评估、大语言模型、心理学

数据集核心内容与目的

EMPA 是首个将同理心作为动态过程而非静态响应进行评估的基准测试。它旨在评估智能体在人设对齐约束下，通过多轮交互轨迹展现的、持续的同理心能力。

数据集构成

场景数量：包含 1,010 个基于心理学构建的场景。
场景来源：通过“真实到模拟”流程从真实互动中提炼。
场景要素：每个场景包含人设卡片、长期记忆、同理心阈值和危机叙事。

方法论与特点

评估范式：采用基于量规的物理评估新范式，将证据生成与分数计算结构分离。
核心模型：引入同理心潜能模型，将共情行为建模为潜在心理状态空间中的方向约束工作。
评估指标：提供EPM-Q标准化质量度量，包含三个维度的 9 项指标，支持细粒度跨模型比较。
关键区别：强调方向对齐而非情感强度，情感强烈但方向错误的响应不会获得正向评价。

使用许可

研究用途：可自由用于运行基准测试、作为强化学习沙盒、修改评分引擎或量规等，需遵循 CC BY-NC 4.0 协议。
商业用途：需联系作者获取商业许可。

搜集汇总

数据集介绍

构建方式

在心理对话智能领域，构建能够模拟真实人际互动的数据集至关重要。EMPA-character_card数据集通过一种名为“现实到模拟”的管道精心构建，从真实互动中提炼出1010个基于心理学原理的场景。每个场景均配备了详细的人物角色卡、长期记忆档案、共情阈值设定以及危机叙事框架，确保了情境的丰富性与心理真实性。这种构建方法旨在为多轮开放式对话提供一个非脚本化的沙箱环境，使得用户代理、导演代理、评判代理与被测模型能够进行动态交互，从而揭示传统单轮评估难以捕捉的战略适应性与潜在失效模式。

特点

该数据集的核心特征在于其首创性地将共情能力评估建模为一个动态过程，而非静态响应。它引入了受心理物理学启发的势能模型，在由认知、情感和主动性构成的三维潜在心理状态空间中，量化智能体在人物角色对齐约束下所完成的持续工作。这一范式从根本上区别于传统的核对清单评分或大语言模型即评判方法，通过将证据生成与分数计算在结构上分离，显著提升了评估对提示扰动的鲁棒性以及对模型间差异的敏感性。数据集提供的标准化EPM-Q指标包含九个跨维度指数，支持超越二元成败的细粒度模型比较。

使用方法

研究人员可利用该数据集作为即插即用的评估沙箱，对情感智能体进行长期战略稳定性分析。使用流程通常涉及将自定义的测试模型接入预设的多代理交互框架中，模型将在多样化的心理场景下与用户代理进行多轮开放式对话。随后，系统会依据结构化证据生成模块（如IEDR/MDEP-PR评分标准）收集交互轨迹中的证据，并通过共情势能模型将这些证据聚合为过程级别的度量指标。这种评估范式具有通用可迁移性，不仅适用于共情评估，也可扩展至信任、动机等其他可操作化定义的主观心理变量研究。

背景与挑战

背景概述

在人工智能对话系统领域，评估模型的情感交互能力长期依赖于静态、单轮响应的分析框架，难以捕捉共情作为动态心理过程的本质。EMPA（Evaluating Persona-Aligned Empathy as a Process）数据集由Nature Select团队于2026年创建，旨在革新这一范式。该数据集首次将共情建模为一个在潜在心理状态空间中的动态过程，通过多轮交互轨迹评估智能体在人格对齐约束下的持续共情能力。其核心研究问题聚焦于如何量化并评估对话系统中个性化、方向一致的共情行为，从而超越传统仅关注情感强度的评测方法，为构建具有长期战略稳定性的情感智能体提供了严谨的度量基准与可训练的沙箱环境，对推进人机交互、计算心理学及个性化AI代理的研究具有深远影响。

当前挑战

EMPA数据集致力于解决对话系统中人格对齐共情评估这一复杂领域问题，其核心挑战在于如何将主观、多维的心理构念（如共情）转化为可计算、可追踪的客观度量。传统评估方法，如清单式评分或大语言模型即评判，易丢失过程信息或受风格、长度等偏差干扰。构建过程中的挑战则体现为从真实互动中蒸馏出1010个基于心理学的场景，并为其配备人格卡片、长期记忆与危机叙事，以确保数据的生态效度与复杂性。此外，设计一个非脚本化的多智能体沙箱以支持开放式多轮对话，并开发基于物理启发的势能模型来聚合轨迹证据，均对数据工程与评估框架的创新提出了极高要求。

常用场景

经典使用场景

在对话系统与情感计算领域，EMPA数据集为评估人工智能代理的共情能力提供了动态、多轮交互的基准测试环境。该数据集通过构建包含人格卡片、长期记忆和危机叙事的心理场景，模拟真实人际互动中的复杂情感交流过程。研究者利用其非脚本化的多智能体沙盒环境，能够深入探究模型在人格对齐约束下，如何通过策略性适应展现持续且方向正确的共情行为，从而超越传统单轮响应的静态评估范式。

衍生相关工作

围绕EMPA数据集衍生的经典工作主要集中于共情势能模型的扩展与跨领域迁移。研究者借鉴其结构化证据生成与轨迹聚合范式，将其应用于认知负荷、用户信任度等主观心理变量的评估框架构建。同时，基于沙盒环境的多智能体强化学习优化、以及针对不同文化背景的人格卡片适配研究，进一步丰富了情感计算与对话系统的评估生态。这些工作共同推动了从静态响应评价向动态过程建模的范式转变，为可解释、稳健的心理状态评估奠定了方法论基础。

数据集最近研究