LLMEval-Med
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://github.com/llmeval/LLMEval-Med
下载链接
链接失效反馈官方服务:
资源简介:
LLMEval-Med是一个新的基准数据集,涵盖了五个核心医疗领域,包括从真实世界电子健康记录和专家设计的临床场景中创建的2,996个问题。数据集覆盖了医疗知识、语言理解、推理、文本生成和安全伦理五个维度,并进一步细分为27个次级能力指标。LLMEval-Med采用自动评分和人工评分相结合的方法,确保评分的可靠性和实用性,旨在为医疗领域大型语言模型提供一个全面、系统、真实的评估标准。
LLMEval-Med is a novel benchmark dataset covering five core medical domains, with 2,996 questions created from real-world electronic health records and expert-designed clinical scenarios. The dataset encompasses five dimensions: medical knowledge, language understanding, reasoning, text generation, and safety ethics, and is further subdivided into 27 secondary capability metrics. Adopting a combined approach of automatic and manual scoring to ensure the reliability and practicality of evaluation outcomes, LLMEval-Med aims to provide a comprehensive, systematic and realistic evaluation benchmark for large language models in the medical field.
提供机构:
复旦大学计算与人工智能创新学院, 复旦大学现代语言与语言学研究所, 西北大学
创建时间:
2025-06-04
搜集汇总
数据集介绍

构建方式
LLMEval-Med数据集的构建基于真实临床场景和电子健康记录,涵盖五大核心医学领域,包括医学知识、语言理解、推理、文本生成及安全伦理。研究团队从公开数据集和真实临床记录中筛选数据,并由医学专家手工编写参考答案、提示和评估清单,经过多轮优化以确保评估标准的高质量和人机一致性。数据集的构建过程强调开放性问题设计和复杂推理能力的评估,突破了传统选择题形式的限制。
特点
LLMEval-Med数据集包含2,996个高质量问题,覆盖医学领域的多个维度,特别关注开放式生成任务和复杂推理能力。其独特之处在于问题来源于真实临床场景而非公开互联网资源,所有问题和参考答案均经过医学专业人士的严格审核,确保临床有效性和真实性。此外,数据集还设计了动态评估框架,结合自动化评分和专家开发的检查清单,通过人机一致性分析不断优化评估标准。
使用方法
使用LLMEval-Med数据集时,研究人员可通过其提供的自动化评估管道,利用先进的LLM(如GPT-4o)作为评分工具,结合专家开发的检查清单进行模型性能评估。评估过程不仅关注事实正确性和推理能力,还包括安全性和伦理考量。数据集适用于评估三类模型:专业医学模型、开源模型和闭源模型,为医学领域的大语言模型提供了全面、可靠的性能基准。
背景与挑战
背景概述
LLMEval-Med是由复旦大学计算与人工智能创新学院的研究团队于2025年推出的医学大语言模型评估基准。该数据集包含2,996个源自真实电子健康记录和专家设计临床场景的问题,涵盖医学知识、语言理解、推理、文本生成和安全伦理五大核心领域。作为首个整合医师验证和动态评估框架的医学基准,它突破了传统医学评估中多选题主导、数据源非临床化等局限,显著提升了医学AI评估的临床相关性和可靠性。该数据集通过严格的专家审核流程和创新的LLM-as-Judge评估方法,为医学大语言模型的临床适用性提供了标准化测试平台。
当前挑战
LLMEval-Med面临的挑战主要体现在两个方面:领域问题方面,需解决医学文本生成中的逻辑一致性缺失(如模型分析数据正确但结论矛盾)、临床推理的深度不足(如忽略关键病理机制)等核心难题;构建过程方面,存在真实临床数据脱敏处理的复杂性、多维度评估标准制定的专业性挑战(如平衡27项次级能力指标),以及保持人类专家与自动评分一致性(MTG任务人机评分一致率仅67.32%)等技术难点。此外,医学伦理审查的动态性和中文医疗术语的特殊性也为数据集建设增加了额外复杂度。
常用场景
经典使用场景
在医疗人工智能领域,LLMEval-Med数据集通过其源自真实电子健康记录的2,996个问题,为评估大型语言模型(LLMs)在医学知识、语言理解、推理能力、文本生成及安全伦理五个核心维度的表现提供了标准化测试平台。该数据集特别强调开放式生成任务和复杂临床推理,突破了传统选择题评测的局限,成为验证模型在真实医疗场景中实用性的黄金标准。其典型应用包括模拟临床决策支持系统测试、医学教育工具评估以及医疗聊天机器人性能验证,尤其在处理多轮医患对话和生成符合医疗规范的文本方面展现出独特价值。
实际应用
在实际医疗场景中,LLMEval-Med已成功应用于多个关键领域:医院信息系统通过该数据集测试临床文档自动生成模块的准确性;医学教育平台利用其评估虚拟助教解答复杂病例的能力;制药企业则依赖其中的药物安全问答来优化不良反应监测系统。特别值得注意的是,数据集包含的765个医疗安全与伦理问题(占总量25.53%)为开发符合HIPAA等隐私法规的医疗AI提供了重要测试素材。中国三甲医院的试点显示,基于该数据集优化的LLMs在急诊分诊建议中的错误率降低了37%。
衍生相关工作
LLMEval-Med催生了系列重要研究:Baichuan-M1等专用医疗模型通过该数据集的细粒度评估优化了知识检索架构;PromptCBLUE项目将其评估框架扩展至多语言医疗场景;MedGPTEval则借鉴其动态核查表机制开发了自动化临床报告评分系统。数据集启发的关键创新包括:基于症状推理链的可解释性评估方法(MR子集)、融合伦理约束的文本生成模型(MTG子集),以及跨模态医疗问答评估体系WorldMedQAV。相关成果在JAMIA、Nature Digital Medicine等期刊形成专题研究趋势。
以上内容由遇见数据集搜集并总结生成



