five

ekacare/medical_calculator_eval

收藏
Hugging Face2026-05-05 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/ekacare/medical_calculator_eval
下载链接
链接失效反馈
官方服务:
资源简介:
医学计算器评估数据集是一个用于评估大型语言模型(LLMs)是否能够仅通过参数记忆和内联算术正确计算医学数值(如BMI、GFR、APACHE II、药物剂量等)的基准数据集。该数据集涵盖了Omni Calculator — Health网站上列出的所有计算器,包含1066个问题,涉及24个医学领域的358个独特计算器。数据格式为单轮结构化JSON问答。数据集旨在发现模型在参数医学知识和内联算术方面的失败模式。

The Medical Calculator Evaluation Dataset is a benchmark for evaluating whether LLMs can correctly compute numeric medical values (BMI, GFR, APACHE II, drug dosing, etc.) from parametric memory and inline arithmetic alone. It covers all calculators listed on Omni Calculator — Health, with 1066 questions across 358 unique calculators in 24 medical domains. The format is single-turn structured JSON Q&A. The dataset is designed to surface two failure modes in models: formula recall and inline arithmetic.
提供机构:
ekacare
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集旨在评估大型语言模型(LLMs)在无外部工具辅助下,凭借参数化记忆与内联算术能力正确计算临床医学数值(如BMI、GFR、APACHE II评分及药物剂量等)的基准性能。其构建基础源自Omni Calculator健康板块涵盖的358种独特医学计算器,覆盖24个临床领域。数据以单轮结构化JSON问答对形式组织,共计1066个条目,每个条目包含唯一标识符、计算器类别、难度层级、临床领域标签、输入类型及临床场景文本等字段。为确保评测严谨性,每条数据均预定义了待评估的主字段、其单位、预期输出的JSON对象及可接受的绝对偏差容差。通过系统性地覆盖从简单比值到包含3-7个参数的中等复杂度临床评分规则,数据集精准聚焦于公式记忆与算术推理两大核心失败模式。
特点
该数据集具有鲜明的多层次结构特征与临床现实相关性。在语言风格上,它真实反映了印度临床语境,涵盖了多达810条印地语-英语混合临床文本、254条医学简写以及少量地方英语变体,高度还原了本地化医疗交流场景。输入类型方面,数据集融合了数值型、枚举型、混合型、基于日期的计算以及含推导链的复杂输入,全面检验模型处理多样化信息形式的能力。难度维度上,以729条基于常见公式的简易条目为基础,辅以337条涉及中等复杂度标准评分的中等条目,构成渐进式挑战。此外,24个临床类别的分布设计充分体现了医学科室的专门化需求,其中心血管系统、膳食、妇产科及体液电解质相关计算器占据了显著比重,为细粒度性能剖析提供了坚实基础。
使用方法
该数据集的使用遵循一套清晰且结构化的评估流程,旨在量化LLM在医学数值计算上的表现。用户首先通过HuggingFace datasets库直接加载数据集,并利用预提供的`confinement_instruction`字段引导模型输出包含指定主字段的JSON对象。评估时,关键在于两步操作:解析模型输出的JSON字符串,提取与`expected_output`中`primary_field`对应的数值,然后依据每条记录定义的`tolerance`(容差)进行精确比较——若预测值与预期值的绝对偏差不超过容差,则判定该回答正确。最终,通过按难度层级、临床类别、语言风格和输入类型进行分层聚合,得到准确率等综合指标。该数据集特别适配于KARMA评估框架,用户可通过命令行工具便捷启动评测,实现对前沿模型与本地部署模型在医学领域知识边界与算术可靠性的系统性诊断。
背景与挑战
背景概述
在人工智能与临床医学的交叉领域中,大型语言模型(LLM)在医疗文本理解和生成方面展现出巨大潜力,但其在精确数值计算与临床公式记忆上的能力评估仍为未竟之题。为此,Eka Care团队于2025年构建了Medical Calculator Evaluation数据集,旨在系统性地评估LLM在无外部工具辅助下,凭借参数化记忆与内联算术能力完成临床数值计算(如BMI、GFR、APACHE II评分及药物剂量等)的表现。该数据集涵盖Omni Calculator健康板块所列全部358个计算器,共计1066道结构化问答样本,横跨24个临床专科,如心血管、肾脏病及糖尿病等领域。数据集开创性地揭示了前沿模型与本地模型在临床公式记忆与算术推理上的双重失效模式,为提升LLM在辅助诊疗中的可靠性提供了关键基准。
当前挑战
该数据集所面临的挑战集中体现于两个层面。其一,在领域问题层面,它聚焦于LLM在无计算器工具辅助时完成临床数值计算的核心难题,包括模型是否准确记忆复杂评分规则(如APACHE II)与药物剂量公式,以及能否精确执行多步内联算术(如由肌酐值推算eGFR)。其二,在构建过程中,团队需克服临床语境的复杂性,设计包含印地语-英语混合、医学术语简写及地域英语等多元语言风格的题目,以模拟真实印度医疗场景。此外,数据集精细定义了数值容忍度(如整数评分精确匹配,BMI允许0.1偏差),并要求模型输出结构化JSON,这对解析鲁棒性提出了额外要求。计算器类别的广泛性(359种)与输入类型的多样性(如日期计算、推导链)进一步加剧了评估的挑战。
常用场景
经典使用场景
在临床医学与人工智能交叉领域中,medical_calculator_eval数据集被设计为评估大语言模型(LLMs)对医学计算公式的记忆与算术推理能力的基准。该数据集涵盖358种临床计算器,涉及BMI、肾功能评分、APACHE II等指标,通过单向问答任务考察模型能否在不借助外部工具的前提下,从参数化记忆中提取公式并执行精确计算。其经典使用场景包括测试模型在印度医疗语境下的表现,例如使用Hinglish临床描述或医学缩写的输入形式,验证模型对复杂临床评分规则(如GCS、GAD-7)的掌握程度,从而揭示前沿模型在医学知识召回与算术逻辑上的潜在缺陷。
衍生相关工作
该数据集的发布催生了多项相关研究工作。一方面,研究者基于其难度分布与语言多样性,开发了针对Hinglish医疗文本的模型微调策略,例如通过强化医学公式的语义表示提升中等难度问题的准确率;另一方面,数据集中的混合输入类型(如日期计算和推导链)激发了面向多步推理的LLM架构改进工作,推动链式思考提示在临床计算中的应用。此外,其评估框架被拓展至其他低资源语言的医疗基准构建中,形成了跨语种的临床计算能力评测体系,进一步丰富了医学自然语言处理领域的标准化测试资源。
数据集最近研究
最新研究方向
该数据集聚焦于大型语言模型在临床计算场景下的医学公式记忆与算术推理能力评估。随着LLM在印度医疗问诊中的初步应用,其能否不借助外部工具而准确计算BMI、肾小球滤过率、APACHE II评分等核心临床指标,成为检验其医学专业性的关键。数据集通过涵盖358种计算器、1066道题目,并引入Hinglish混合语体与医疗速记等印度特色临床语言,揭示了当前前沿模型在领域知识内化与数值精度上的隐性缺陷,为构建更可靠的医疗AI评估体系提供了极具临床价值与现实紧迫性的基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作