MedCalc-Eval
收藏arXiv2025-10-31 更新2025-11-04 收录
下载链接:
https://github.com/maokangkun/MedCalc-Eval
下载链接
链接失效反馈官方服务:
资源简介:
MedCalc-Eval 是一个全面且具有挑战性的评估基准,用于评估大型语言模型在医疗计算方面的能力。该数据集包含了超过700个不同的临床计算任务,分为基于方程的计算和基于规则的评分系统两种类型,涵盖了包括内科、外科、儿科、重症监护、妇产科学、急诊医学、神经学、心脏病学、肺病学、泌尿学等多个临床专业。MedCalc-Eval 的创建旨在解决现有基准在评估大型语言模型在医疗计算方面的能力时的局限性,提供更准确、更全面的评估。该数据集的创建过程基于精确的方程和基于规则的评分系统,旨在为医学专业人员提供可靠的证据决策支持。
MedCalc-Eval is a comprehensive and challenging evaluation benchmark designed to assess the medical calculation capabilities of large language models (LLMs). This dataset contains over 700 distinct clinical calculation tasks, categorized into two types: equation-based calculations and rule-based scoring systems. It covers multiple clinical specialties including internal medicine, surgery, pediatrics, intensive care, obstetrics and gynecology, emergency medicine, neurology, cardiology, pulmonology, urology, and others. MedCalc-Eval was developed to address the limitations of existing benchmarks in evaluating the medical calculation capabilities of LLMs, providing more accurate and comprehensive assessments. The dataset is built upon precise equations and rule-based scoring systems, aiming to offer reliable evidence-based decision support for medical professionals.
提供机构:
上海人工智能实验室
创建时间:
2025-10-31
搜集汇总
数据集介绍

构建方式
在医学人工智能领域,构建高质量的评估基准对推动大型语言模型发展至关重要。MedCalc-Eval数据集通过系统化流程构建,涵盖709项临床计算任务,包括629项公式型计算与80项规则型评分。其构建过程基于严格的医学知识体系,从132个公式类别和27个评分类别中提取任务定义,每个任务都经过参数约束验证和临床表达转换,确保数据符合真实医疗场景的计算需求。
特点
该数据集展现出显著的全面性与专业性特征,覆盖内科学、外科学、儿科学等十余个临床专科领域。其核心特色在于同时包含基于方程的医学计算与基于规则的评分系统,既涵盖肌酐清除率、体表面积等经典公式计算,也纳入格拉斯哥昏迷评分、房颤卒中风险评分等复杂规则判断。数据集特别设计了多条件判断、复杂公式嵌套和跨单位换算等高难度场景,为评估模型在真实医疗环境中的计算能力提供了充分挑战。
使用方法
在具体应用层面,研究者可通过标准化的提示模板调用数据集进行评估。针对公式型任务,模型需完成参数提取、公式应用和数值计算三个关键步骤;对于规则型任务,则要求模型执行逻辑推理和条件判断。评估时采用严格的验证机制,公式类任务允许±1%的误差容限,确保在兼顾计算精度的同时保持临床实用性。数据集支持零样本测试和强化学习训练两种使用模式,为不同研究目标提供灵活适配方案。
背景与挑战
背景概述
随着大语言模型在医疗领域的深度融合,现有评估基准主要聚焦于问答与描述性推理能力,而真实临床实践高度依赖基于公式与评分系统的定量计算工具。上海人工智能实验室于2025年提出的MedCalc-Eval基准,作为当前规模最大、覆盖最广的医疗计算评估体系,囊括了709项临床计算任务,涵盖内科、外科、儿科等十余个专科领域。该数据集通过方程计算与规则评分双维度架构,系统性填补了医疗定量推理评估的空白,为构建可靠临床决策支持系统奠定了关键基础。
当前挑战
该数据集需应对医疗计算任务中多层级挑战:在领域问题层面,需解决大语言模型对单位换算敏感度不足、多条件逻辑推理断裂、临床语境理解偏差等核心难题;在构建过程中,面临医学公式嵌套复杂性、跨专科术语标准化、以及生成数据与真实临床叙事文本间的语义鸿沟。此外,评估体系需平衡数值精度与临床实用性,确保模型在浮动误差容忍范围内保持计算稳定性。
常用场景
经典使用场景
在医疗人工智能领域,MedCalc-Eval作为评估大型语言模型医学计算能力的基准工具,其经典应用场景聚焦于系统性测试模型在临床计算任务中的表现。该数据集通过涵盖700余种临床计算任务,包括基于公式的肾功能评估和基于规则的昏迷评分等,为研究者提供了标准化的评估框架,助力精准衡量模型在真实医疗环境中的计算可靠性。
解决学术问题
该数据集有效解决了现有医学评估基准在定量推理方面的局限性,填补了临床决策支持系统中计算能力验证的空白。通过构建覆盖十余个临床专科的复杂计算场景,MedCalc-Eval为学术界提供了研究模型数值敏感性、公式选择准确性和多步推理鲁棒性的实验平台,推动了医疗人工智能在精确计算方向的理论发展。
衍生相关工作
基于该数据集衍生的经典工作包括融合强化学习的MedCalc-Env训练环境,以及在此框架下实现的Qwen2.5-32B模型优化研究。这些工作通过交互式训练机制显著提升了模型的医疗计算性能,并催生了针对单位转换、多条件逻辑等挑战性问题的系列解决方案,为后续医疗推理系统的开发奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



