HeartBench

github2025-12-26 更新2025-12-27 收录

下载链接：

https://github.com/inclusionAI/HeartBench

下载链接

链接失效反馈

官方服务：

资源简介：

HeartBench是一个用于心理和社会科学领域的评估基准，旨在超越传统的知识和推理评估。它专注于测量大型语言模型（LLMs）在人机交互中拟人化能力，涵盖人格、情感、社交技能和道德等维度。数据集包含296个多轮对话、2,818个评分标准和33个场景（如个人成长、家庭关系、职场心理等）。

HeartBench is an evaluation benchmark for the fields of psychology and social sciences, aiming to transcend traditional knowledge and reasoning assessments. It focuses on measuring the anthropomorphic capabilities of large language models (LLMs) in human-computer interaction, covering dimensions such as personality, emotion, social skills, and morality. The dataset contains 296 multi-turn dialogues, 2,818 scoring criteria, and 33 scenarios, including personal growth, family relationships, workplace psychology and other related scenarios.

创建时间：

2025-12-19

原始信息汇总

HeartBench 数据集概述

数据集简介

HeartBench是一个面向心理学和社会科学领域的评估基准，旨在超越传统的知识和推理评估。它专注于衡量大语言模型在人机交互中拟人化的能力，涵盖人格、情绪、社交技能和道德等维度。

核心特征

现实世界对齐：数据集基于真实用户与咨询师之间的匿名和改写对话构建，涵盖家庭关系、个人成长、职场心理学等高频率场景。采用多轮对话评估，重点评估模型在长对话及其潜台词中理解复杂情绪和回应社会情境的能力，而非简单的模仿能力。
细粒度、基于科学的评估：基于成熟的心理学理论，开发了“AI拟人化能力框架”评估系统。该系统从5个核心能力和15个细分子类别（包括人格特质、情商和社交技能）评估模型。专家团队为每个对话撰写了4到15条具体的评分标准。
与领域专家共同开发：基准是与心理学和人类学专家密切合作创建的。专家参与全过程：从使用真实咨询数据构建语料库，到识别超过200个关键评估点，再到制定超过3000条科学评分标准。所有数据均由这些专家严格标注和审查。

数据集构成

基础规模

评估样本：296个多轮对话。
评分标准：2,818个评分项。
场景：33个场景（例如个人成长、家庭关系、职场心理学）。
评估维度：5个拟人化能力类别和15个具体的拟人化能力（例如好奇心、温暖、情绪理解）。

评估维度与评分项分布

HeartBench基于“拟人化智能”的心理学理论构建，从5个核心拟人化能力类别和15个具体能力评估模型。

能力类别	评分项数量（占比）
人格	1634 (39%)
言语表达	565 (20.0%)
好奇心	367 (13.0%)
温暖	305 (10.8%)
第一人称使用	295 (10.5%)
自主性	37 (1.3%)
幽默感	36 (1.3%)
自我意识	29 (1.0%)
情绪	1015 (36%)
情绪应对	390 (13.8%)
情绪理解	309 (11.0%)
情绪感知	284 (10.1%)
情绪反应	32 (1.1%)
社交	104 (3.7%)
主动性	79 (2.8%)
关系建立	25 (0.9%)
动机	42 (1.5%)
道德	23 (0.8%)
总计	2818 (100%)

场景分布

数据集 data/question_all.jsonl 包含296个精心设计的多轮对话，涵盖33个现实世界场景：

对话场景	数量（占比）
个人成长	110 (37.2%)
人际与社会发展	66 (22.3%)
职场心理学	53 (17.9%)
家庭关系	37 (12.5%)
亲密关系	30 (10.1%)
总计	296 (100%)

数据样本

每个评估样本包含：

上下文：用户之间的多轮对话历史。
问题：对话中最终的用户话语。这作为模型回应的提示，并包含特定的评估点。
评分标准：一组高质量的评分标准，详细说明了评估维度、分数和具体的评分规则。

评估方法

使用 “LLM-as-a-Judge” 方法对拟人化智能特质进行客观、可扩展的评估。

评判者：Claude 4.5 Sonnet 是默认评判者，因其细致的理解能力而被选用。
流程：评判者查看完整的对话和多个模型的回应，然后根据一组评分标准对每个回应进行评分，并提供详细的理由。
验证：通过专家盲测确认了方法的可靠性。20多名心理学专业人员对30%的样本进行审查，在对14个顶级模型评分时，显示出86%的人与LLM评分一致率。

基准测试结果

在HeartBench上评估了当前领先模型的性能，在0到100的尺度上对每个维度的表现进行评分。下表显示了每个模型在所有测试样本中的总体结果。

主要结果

模型	得分
Claude-sonnet-4.5-20250929	62.65
gemini-3-pro-preview	61.54
Qwen3-235B-A22B-instruct-2507	61.47
Qwen3-next-80B-A3B-Instruct	61.09
Qwen3-30B-A3B-instruct-2507	60.16
gpt-5-2025-08-07	60.16
Gemini-2.5-pro	59.85
Ling-1T	59.82
KIMI-K2-Instruct-0905	57.97
gpt-4.1-2025-04-14	51.62
Qwen3-30B-A3B	48.21
gpt-4o-2024-11-20	48.20
DeepSeek-V3.2-Exp	47.43

15项能力结果

结果图表见：https://oss-ata.alibaba.com/article/2025/12/d94e952a-1340-4ab6-b814-8b58107595b2.png

使用说明

快速开始

准备：安装依赖 (pip install -r requirements.txt)，并准备一个可以访问 claude-sonnet-4-5-20250929 模型的 OpenAIService API_KEY 和 BASE_URL 用于模型评估。
运行所有问题：python run_evaluation.py --base_url YOUR_URL --api_key YOUR_KEY --mode all --model Model
仅评分（用于评估自有模型响应）：准备一个包含数据文件夹中问题jsonl文件所有条目的jsonl文件，为每个条目在与相同question_id对应的位置添加模型的response字段。运行：python run_evaluation.py --base_url YOUR_URL --api_key YOUR_KEY --score_only --answer_file ./your_model_answers.jsonl

伦理与使用

仅用于学术研究和模型评估。严格禁止使用此基准替代专业心理咨询、进行临床诊断或开发任何形式的自动化治疗应用。
为保护隐私和降低风险，数据中潜在敏感或高风险部分已进行匿名化处理。建议用户高度关注模型输出的伦理边界和社会影响，并尽职解释复杂任务上的性能。
在任何可能涉及真实个体的场景（如临床研究）中使用此数据时，必须确保有认证专业人员的监督和指导。所有活动还必须严格遵守适用的地方法律、法规和伦理准则。

版权信息

作者：Ant-DILab, Beijing Normal University

搜集汇总

数据集介绍

构建方式

在心理学与人工智能交叉领域，HeartBench数据集的构建体现了严谨的科学方法论。其核心语料源自真实用户与心理咨询师之间的匿名化对话记录，经过专业改写以保护隐私并提升适用性。研究团队与心理学、人类学领域的专家深度协作，从原始对话中提炼出33类高频现实场景，涵盖个人成长、家庭关系及职场心理等维度。基于心理学中“拟人化智能”的理论框架，专家们系统识别了超过200个关键评估点，并据此制定了涵盖5大核心能力与15项细分能力的2818条精细化评分准则，确保了评估体系的科学性与完备性。

使用方法

使用HeartBench进行评估主要依托“LLM即评委”的自动化方法。评估者需准备能够访问Claude 4.5 Sonnet模型的API密钥与基础URL，该模型被选为默认评委，因其具备对对话细微之处的深刻理解。评估流程中，评委模型将审视完整的对话历史与多个模型的回复，并依据预设的评分准则对每条回复进行打分与理由阐述。用户可通过运行提供的脚本进行全量问题评估，或针对已生成的自有模型答案进行纯评分操作。为确保评估的可靠性，该方法已通过专家盲测验证，其与人类专家的评分一致性达到了86%。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，评估模型是否具备类人化的心理与社会能力成为前沿关键。HeartBench基准由北京师范大学Ant-DILab团队于2025年创建，旨在超越传统知识评测，系统探究大语言模型在人格、情感、社交、道德与动机五大核心维度的拟人化智能。该数据集基于真实的心理咨询对话构建，涵盖33类高频生活场景，通过2818项细粒度评分准则，为模型的心理社会能力提供了科学、严谨的评估框架，推动了人机交互研究向深层次、人性化方向发展。

当前挑战

构建HeartBench面临双重挑战。在领域问题层面，评估模型的拟人化智能本身极具复杂性，需将主观、多维的人类心理特质（如共情、幽默感、道德判断）转化为可量化、可操作的客观指标，并确保评测结果与人类专家的判断具有高一致性。在构建过程中，挑战源于数据获取与标注的严谨性：需对敏感的真实咨询对话进行匿名化与伦理改写，同时依赖心理学与人类学专家深度参与，从数百个关键评估点到数千条科学量规的制定，均要求跨学科协作与精细化的质量控制，以保障基准的科学效度与实用性。

常用场景

经典使用场景

在人工智能与心理学交叉领域，HeartBench数据集为评估大型语言模型在拟人化智能维度的表现提供了标准化测试平台。其经典使用场景聚焦于通过多轮对话模拟真实心理咨询互动，涵盖个人成长、家庭关系及职场心理等33种高频情境。研究者利用该数据集对模型在人格特质、情绪理解、社交意愿等15项精细能力上进行系统性评测，旨在衡量模型能否在复杂社会语境中展现类人的共情与回应能力，而非单纯的知识复现。

解决学术问题

该数据集有效解决了当前大模型评估中过度偏重知识性与逻辑推理、忽视社会情感智能的学术研究缺口。通过构建基于心理学理论的“拟人化能力框架”，HeartBench将抽象的拟人化智能分解为可量化的评估维度，如情绪应对、道德判断与动机推断等，使得研究者能够科学地检验模型在人性化交互中的深层能力。其意义在于推动人工智能评估范式从功能导向转向以人为本的综合性测评，为构建更具社会适应性的智能体奠定理论基础。

实际应用

在实际应用层面，HeartBench为开发具备高阶交互能力的对话系统提供了关键优化方向。例如，在心理健康支持、智能客服及虚拟伴侣等场景中，模型需展现温暖、好奇心与情绪感知等拟人特质以提升用户体验。该数据集通过真实咨询对话重构的评估样本，帮助开发者识别模型在复杂社会情境中的响应短板，进而针对性地增强其情感支持与社会推理能力，推动人工智能技术向更自然、可信的人机协作方向发展。

数据集最近研究