CARE-Bench

github2025-11-13 更新2025-12-05 收录

下载链接：

https://github.com/Syx1030/CARE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CARE-Bench是一个多样化的客户模拟基准数据集，基于专家原则，用于评估心理辅导中的大型语言模型。

CARE-Bench is a diverse customer simulation benchmark dataset based on expert principles, designed for evaluating large language models in psychological counseling.

创建时间：

2025-11-12

原始信息汇总

CARE-Bench 数据集概述

数据集名称

CARE-Bench: A Benchmark of Diverse Client Simulations Guided by Expert Principles for Evaluating LLMs in Psychological Counseling

核心用途

用于评估大型语言模型在心理咨询场景下的表现。

数据集构成

包含数据集及补充材料。

学术背景

相关论文“CARE-Bench: A Benchmark of Diverse Client Simulations Guided by Expert Principles for Evaluating LLMs in Psychological Counseling”已被AAAI-26 AISI会议接收。论文链接：https://arxiv.org/abs/2511.09407v1

图示

图示文件：https://github.com/Syx1030/CARE-Bench/figure.png

搜集汇总

数据集介绍

构建方式

在心理辅导领域，构建高质量的数据集对于评估大型语言模型的咨询能力至关重要。CARE-Bench的构建过程严格遵循专家指导原则，通过模拟多样化的客户场景来创建基准测试。该数据集的设计基于心理学理论和实际咨询经验，确保了情境的真实性与专业性。研究人员精心设计了多种客户原型，覆盖了不同的心理状态和咨询需求，从而为模型评估提供了全面而可靠的依据。

使用方法

使用CARE-Bench进行评估时，研究人员可将大型语言模型置于模拟的咨询对话中，测试其回应能力与专业性。数据集提供了标准化的评估框架，包括对话质量、共情表达及干预建议等多个维度。通过分析模型在多样化客户模拟中的表现，能够系统性地衡量其在心理辅导领域的适用性，并为后续模型优化提供实证依据。

背景与挑战

背景概述

随着大型语言模型在心理健康支持领域的应用日益广泛，如何科学评估其在心理咨询场景下的能力与安全性，已成为人工智能与临床心理学交叉研究的前沿议题。在此背景下，CARE-Bench数据集应运而生，由相关研究团队于2025年构建，并发表于AAAI-26 AISI会议。该数据集旨在通过一套基于专家原则指导的多样化客户模拟基准，系统性地评估大型语言模型在心理咨询对话中的表现。其核心研究问题聚焦于模型能否遵循专业伦理、展现共情理解并提供恰当支持，从而推动可信赖、负责任的人工智能辅助心理服务的发展，对促进AI在敏感领域的规范化应用具有重要影响力。

当前挑战

CARE-Bench数据集致力于解决心理咨询领域人工智能评估的核心挑战，即如何构建一个既符合专业伦理又能全面反映现实复杂性的评测基准。具体挑战体现在两个方面：在领域问题层面，需精准模拟多样化的客户心理状态与对话情境，确保评估能涵盖共情回应、危机识别、干预建议等多个维度的专业能力，同时严格规避模型可能产生的有害或误导性建议。在构建过程层面，挑战在于如何将心理学专家的临床原则有效转化为可量化的评估指标，并生成高质量、无偏见的模拟对话数据，以平衡学术严谨性与实际应用场景的真实性需求。

常用场景

经典使用场景

在心理咨询领域，评估大型语言模型（LLMs）的对话能力与共情水平是一项复杂挑战。CARE-Bench数据集通过模拟多样化的来访者情景，为研究者提供了一个标准化测试平台。该数据集依据专家指导原则构建，涵盖了不同人口统计学背景、心理困扰类型及对话风格，使得研究人员能够系统性地检验LLMs在模拟咨询对话中的回应适宜性、情感支持能力及伦理遵循程度。

解决学术问题

该数据集主要解决了如何客观、可重复地评估LLMs在心理咨询场景中的表现这一核心学术问题。传统评估往往依赖主观判断或有限案例，缺乏系统性和多样性。CARE-Bench通过引入基于专家原则的多样化模拟，为衡量模型的共情准确性、干预建议的适当性以及潜在偏见提供了量化基准，从而推动了对话式AI在心理健康支持领域评估方法的科学化与标准化。

实际应用

在实际应用中，CARE-Bench可作为开发与优化心理健康辅助工具的重要试金石。AI聊天机器人或虚拟咨询助手在部署前，可利用此基准测试其对话质量与安全性，确保其回应符合专业伦理并能有效识别危机信号。此外，该数据集也能用于培训专业人员进行人机协作咨询的模拟训练，或作为监管机构评估相关AI产品合规性的参考依据。

数据集最近研究