PsychBench

Name: PsychBench
Creator: 上海交通大学医学院
Published: 2025-02-28 20:17:41
License: 暂无描述

arXiv2025-02-28 更新2025-03-06 收录

下载链接：

http://arxiv.org/abs/2503.01903v1

下载链接

链接失效反馈

官方服务：

资源简介：

PsychBench数据集是由上海交通大学医学院等机构创建的，包含来自中国北方、中部和南部三个医疗中心的300个真实患者病例。该数据集旨在为评估大型语言模型在精神科临床实践中的应用性能提供一个全面、专业的基准测试系统，包含临床文本理解与生成、主诊断、鉴别分析、用药推荐和长期病程管理五个关键临床任务。

The PsychBench dataset was developed by institutions including Shanghai Jiao Tong University School of Medicine, and contains 300 real patient cases sourced from three medical centers in northern, central, and southern China. This dataset aims to provide a comprehensive and professional benchmark system for evaluating the application performance of large language models (LLMs) in psychiatric clinical practice, covering five key clinical tasks: clinical text understanding and generation, primary diagnosis, differential analysis, medication recommendation, and long-term disease course management.

提供机构：

上海交通大学医学院

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

PsychBench数据集的构建旨在评估大型语言模型（LLM）在精神科临床实践中的实用性能。数据集由来自中国北部、中部和南部三个地理多样化的医疗中心收集的300个真实世界患者案例组成，确保了广泛的地区和文化代表性。数据集包括患者的病史、过去治疗、家族史、身体和精神状态检查以及辅助检查结果等综合信息，为LLM评估提供了真实的临床背景。此外，一个独立专家委员会对数据集进行了审计和验证，确保了数据的准确性和一致性。

特点

PsychBench数据集的特点在于其全面性和专业性。数据集不仅包括了广泛的患者案例，而且涵盖了五个关键临床任务，包括临床文本理解与生成、主要诊断、鉴别分析、药物治疗推荐和长期病程管理。每个任务都配备了精神病学特定的定量评估指标，以确保严格的性能评估。这使得PsychBench成为评估LLM在精神科临床任务中应用的有效工具。

使用方法

使用PsychBench数据集的方法包括五个独立的临床任务，每个任务都有详细的任务说明和评估指标。研究人员可以将相关患者信息输入LLM，并要求模型完成特定目标并生成输出。模型的输出将使用通用和特定于精神病的指标进行分析，以比较不同临床场景下的性能。此外，研究还探讨了提示设计、思维链推理、输入文本长度和特定领域的知识微调等因素对模型输出的影响。

背景与挑战

背景概述

PsychBench 数据集的研究背景在于解决精神科临床实践中医疗资源短缺和诊断一致性低的问题。大型语言模型（LLMs）的出现为解决这些问题提供了潜在解决方案。然而，一个稳健和全面的基准测试框架来评估 LLMs 在真实精神科临床环境中的有效性是缺失的。这阻碍了专门为精神科应用定制的 LLMs 的发展。为了填补这一空白，研究人员提出了一个基准测试系统 PsychBench，用于评估 LLMs 在精神科临床环境中的实际性能。PsychBench 包括一个综合数据集和一个评估框架。数据集包括来自中国北部、中部和南部三个地理多样医疗中心的 300 个真实世界患者案例，确保了广泛的区域和文化代表性。评估框架包括五个关键临床任务——临床文本理解和生成、主要诊断、鉴别分析、药物治疗建议和长期病程管理，每个任务都由精神科特定的定量评估指标支持，以确保严格的性能评估。数据集和框架共同提供了一个稳健的系统，用于评估 LLMs 在精神科临床任务中的应用。研究人员使用 PsychBench 对 16 个 LLMs 进行了全面的定量评估，并研究了提示设计、思维链推理、输入文本长度和领域特定知识微调对模型性能的影响。通过详细的错误分析，研究人员确定了现有模型的优点和潜在局限性，并提出了改进方向。

当前挑战

PsychBench 数据集当前面临的挑战包括：1) LLMs 在精神科临床实践中的实际应用效果尚待充分验证，这限制了其实际应用和进一步研究；2) 现有 LLMs 在诊断准确性、应用专业知识以及处理复杂病例方面存在显著不足，这影响了其在临床实践中的应用。此外，数据集的构建过程中也面临挑战，如数据收集的难度和成本、数据隐私保护等。

常用场景

经典使用场景

PsychBench数据集主要用于评估大型语言模型（LLM）在精神科临床实践中的性能。该数据集由来自中国三个地理位置不同的医疗中心的300个真实世界患者案例组成，确保了广泛的地区和文化代表性。评估框架包括五个关键的临床任务：临床文本理解和生成、主要诊断、鉴别分析、药物治疗建议和长期病程管理，每个任务都支持精神科特定的定量评估指标，以确保严格的性能评估。

衍生相关工作

PsychBench数据集衍生了多个相关的研究工作，包括但不限于：1. 对LLM在精神科临床任务中的性能进行全面评估，并分析影响模型性能的因素，如提示设计、思维链推理、输入文本长度和领域特定知识的微调。2. 通过临床读者研究，进一步探索现有LLM作为不同经验水平的精神科医生辅助工具的实际效益。3. 推动精神科临床实践中LLM应用的研究和开发，为精神科医学的发展提供新的思路和方法。

数据集最近研究