EmoSupportBench

Hugging Face2026-02-08 更新2026-02-09 收录

下载链接：

https://huggingface.co/datasets/YueyangWang/EmoSupportBench

下载链接

链接失效反馈

官方服务：

资源简介：

EmoSupportBench 是一个用于评估大型语言模型（LLMs）情感支持能力的综合数据集和基准测试。该数据集提供了系统化的框架，用于评估AI系统在为用户提供情感支持时的共情、帮助和心理基础能力。数据集包含200个双语（英语和中文）问题集，覆盖8种主要情感支持场景；分层场景分类法包含157个二级场景；BARS风格评分标准定义了14个维度的三层次框架（态度、能力、结果）。此外，数据集还提供了7种以上先进LLM（如GPT-5.2、Claude Sonnet 4.5等）的基准测试结果。数据集适用于LLM评估、研究、模型开发和跨文化研究等领域。

创建时间：

2026-02-08

搜集汇总

数据集介绍

构建方式

在情感计算与人工智能心理支持交叉领域，EmoSupportBench的构建遵循了系统化、层次化的设计原则。数据集的核心由200个双语情感支持问题构成，这些问题覆盖了个人成长、家庭关系、工作压力等八大核心场景，并进一步细分为157个二级情境。构建过程采用了行为锚定评分量表方法，制定了涵盖态度、能力与结果三个层面的14维评估标准，每个维度均配有五级精细化描述。数据采集注重情境的真实性与情感强度的梯度分布，确保了评估内容的生态效度与心理测量学严谨性。

特点

该数据集最显著的特征在于其多层次、多语言的系统性评估框架。其问题集不仅实现了英汉双语平行对应，更通过分层情境体系将复杂的情感支持需求进行了结构化归类。评估体系引入了基于行为锚定量表的14维评分标准，为模型输出提供了可量化、可解释的精细评估维度。数据集预先包含了七款前沿大语言模型的基准评测结果，为横向比较研究提供了直接参照。这种将情境库、评分标准与模型输出三位一体的设计，构成了一个完整且可复现的情感支持能力评估生态系统。

使用方法

研究者可通过Hugging Face `datasets`库便捷加载数据集的各个组件。使用流程通常始于加载双语问题集，以获取标准化的评估输入。随后可调用分层情境体系与评分标准文件，为评估任务提供分类依据与判分准则。数据集内置的提示词模板支持基于大语言模型即评委的自动化评估流程。用户既可参照已有模型评分结果进行基线对比，也可将自有模型的响应输出，依据提供的提示词与评分标准进行自动化或人工评估，从而系统性地衡量模型在复杂情感支持场景下的综合表现。

背景与挑战

背景概述

随着大型语言模型在情感计算领域的深入应用，评估其情感支持能力成为人机交互研究的关键议题。EmoSupportBench作为一项系统性评估基准，由研究团队于近期构建并开源，旨在填补现有评测体系在情感支持维度上的空白。该数据集围绕人工智能情感支持的三层次框架，构建了涵盖态度、能力与成效的十四维评估体系，并提供了双语平行语料与分层情境分类。其核心研究问题聚焦于如何科学量化语言模型在复杂情感场景下的共情、问题解决与关系建立能力，为情感支持型人工智能的研发与优化提供了标准化评估工具，推动了该领域从定性描述向定量分析的范式转变。

当前挑战

在情感支持这一高度主观且复杂的领域构建评估基准面临多重挑战。首要挑战在于如何将抽象的情感支持能力转化为可量化、可操作的评估维度，EmoSupportBench通过引入行为锚定评分量表和三层框架试图解决这一难题，但其评分标准的客观性与跨文化普适性仍需验证。构建过程中的挑战则更为具体：一是需要设计覆盖广泛且具有代表性的情感情境库，确保评估的全面性与生态效度；二是创建高质量的双语平行问题集，需克服文化差异对情感表达与支持期待的影响；三是开发可靠的自动化评估流程，利用“LLM即评委”范式时，需确保评分的一致性并避免模型自身偏见对结果的影响。

常用场景

经典使用场景

在人工智能情感计算领域，EmoSupportBench作为一项双语基准测试工具，其经典应用场景在于系统评估大型语言模型的情感支持能力。该数据集通过涵盖个人成长、家庭关系、心理健康等八大核心情境的200个标准化问题，为研究者提供了一个结构化的评估框架，用以检验模型在多样化情感交互场景中的表现。其分层情境体系与行为锚定评分标准相结合，使得评估过程既具备理论深度，又贴近实际对话的复杂性。

解决学术问题

该数据集有效解决了情感支持人工智能研究中缺乏标准化、多维度评估工具的学术难题。通过构建涵盖态度、能力与结果三个层次共14个维度的评分体系，它将主观的情感支持质量转化为可量化、可比较的客观指标。这不仅促进了不同模型间性能的公平对比，也为探索AI情感交互的内在机制提供了实证基础，推动了该领域从定性描述向定量分析的范式转变。

衍生相关工作

围绕EmoSupportBench，学术界衍生出一系列聚焦于AI情感支持评估的经典研究工作。这些工作主要集中于利用其双语问题集与评分标准，进行跨文化语境下模型表现的对比分析，或探索基于其分层框架的模型微调策略。部分研究进一步扩展了其情境分类体系，或将其评估范式迁移至其他特定垂直领域，如青少年心理支持或职场压力管理，从而丰富了情感智能研究的生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集