GPBench
收藏arXiv2025-03-22 更新2025-03-28 收录
下载链接:
http://arxiv.org/abs/2503.17599v1
下载链接
链接失效反馈官方服务:
资源简介:
GPBench是一个基于中山大学附属第六医院和广东人工智能与数字经济实验室(深圳)的通用实践者能力模型构建的中文通用实践者基准测试数据集。该数据集旨在评估大型语言模型在临床诊断和治疗支持方面的能力,并帮助识别模型的理论积累不足。它由三个测试集组成:MCQ测试集、临床案例测试集和AI患者测试,均由专家详细注释,作为评估和分析和当前最先进的大型语言模型的基础。
GPBench is a Chinese general practitioner benchmark dataset developed for building general practitioner capability models, based on the Sixth Affiliated Hospital of Sun Yat-sen University and Guangdong Laboratory of Artificial Intelligence and Digital Economy (Shenzhen). This dataset aims to evaluate the capabilities of large language models in clinical diagnosis and treatment support, and help identify insufficient theoretical accumulation of these models. It consists of three test sets: the MCQ test set, the clinical case test set, and the AI patient test, all of which are meticulously annotated by experts and serve as the basis for evaluating and analyzing current state-of-the-art large language models.
提供机构:
中山大学附属第六医院, 广东人工智能与数字经济实验室(深圳), 新兴人民医院, 中山大学智能系统工程学院
创建时间:
2025-03-22
搜集汇总
数据集介绍

构建方式
GPBench数据集的构建基于真实世界的全科医生工作场景,通过整合来自开源数据集和三级甲等医院真实门诊病历的多选题和临床案例,构建了三个测试集:多选题测试集、临床案例测试集和AI患者测试集。每个案例的真实答案和评分标准均由专家详细标注,确保了数据集的科学性和严谨性。数据集的设计灵感来源于全科医生的能力模型,旨在全面评估大型语言模型在全科医疗场景中的表现。
特点
GPBench数据集具有以下显著特点:首先,它覆盖了八种主要慢性疾病和十种常见症状,具有高度的临床代表性;其次,数据集采用了多层次的评估框架,包括基础医学知识、诊断能力、决策制定等多个维度;第三,数据集中的案例均经过严格筛选和专家标注,确保了数据的质量和可靠性;最后,AI患者测试集的引入为评估模型在真实临床环境中的交互能力提供了创新性的解决方案。
使用方法
使用GPBench数据集时,研究人员可以通过多选题测试集评估模型的基础医学知识掌握程度;通过临床案例测试集分析模型对复杂病例的系统性分析能力;通过AI患者测试集考察模型在实际医患对话中的表现。评估过程中,多选题采用准确率作为指标,而开放性问题则由专家根据标注的评分标准进行人工评分。数据集支持对模型在全科医疗六大核心能力领域的全面评估,为改进医疗AI系统提供了重要参考。
背景与挑战
背景概述
GPBench是由中山大学附属第六医院、广东省人工智能与数字经济实验室(深圳)等机构的研究团队于2025年提出的综合性评估基准,旨在系统评估大语言模型在基层医疗场景中的临床决策能力。该数据集基于全科医生胜任力模型构建,包含多选题测试集、临床案例测试集和AI患者测试集三个模块,覆盖8种主要慢性病和10种常见症状,所有数据均来自真实门诊病历并由专家团队进行细粒度标注。作为首个针对全科医生工作场景的大模型评估工具,GPBench通过模拟问诊流程、诊断决策和健康管理等核心环节,为医疗AI的临床适用性研究提供了标准化评估框架。
当前挑战
GPBench面临的核心挑战体现在两个方面:领域问题层面,现有医疗评估基准多聚焦于选择题形式的理论知识考核,难以真实反映全科医生面临的复杂临床决策场景,包括疾病分级分期、并发症识别、个性化治疗方案制定等动态推理过程;构建过程层面,需解决真实病历数据的去标识化处理与伦理合规问题,同时要建立覆盖16项二级指标的细粒度标注体系,确保评估结果与临床实践要求严格对齐。此外,AI患者测试模块需精准模拟患者主诉与应答模式,避免信息泄露或过度简化,这对对话生成的质量控制提出了极高要求。
常用场景
经典使用场景
在医疗人工智能领域,GPBench数据集被广泛应用于评估大型语言模型(LLMs)在全科医生(GP)日常工作场景中的表现。该数据集通过多项选择题测试集、临床案例测试集和AI患者测试集,全面评估模型在基础医学知识、诊断能力、决策制定、健康管理等多个维度的表现。经典使用场景包括模拟真实门诊环境中的医患对话,评估模型在复杂临床推理和决策支持中的能力。
衍生相关工作
GPBench的发布促进了多个衍生研究方向。基于其评估框架,研究者开发了针对特定疾病的精细化评估子集(如慢性病管理评估模块)。在方法学层面,该数据集启发了结合强化学习的临床决策优化研究,以及多模态医疗对话系统的开发。典型工作包括基于GPBench标注体系构建的基层医疗知识图谱,以及针对药物相互作用检测的专项评估工具。
数据集最近研究
最新研究方向
GPBench作为首个针对全科医生工作场景的大模型评估数据集,其最新研究方向聚焦于多维度能力评估体系的构建与真实临床场景的仿真模拟。在医疗人工智能领域,该数据集通过整合多选题测试集、临床案例测试集和AI患者测试集,开创性地将全科医生胜任力模型引入大语言模型评估框架,涵盖基础医学知识、诊断决策、健康管理等6大核心能力指标。当前研究热点集中于模型在复杂临床推理链中的表现优化,特别是在疾病分级分期、并发症识别等薄弱环节的改进,以及动态医患交互场景下的决策支持能力提升。这一评估体系的建立不仅填补了现有医疗大模型在基层医疗场景评估的空白,更为AI辅助诊断系统在真实医疗环境中的安全部署提供了关键基准。
相关研究论文
- 1GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners中山大学附属第六医院, 广东人工智能与数字经济实验室(深圳), 新兴人民医院, 中山大学智能系统工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成



