CalcQA

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/shzyk/CalcQA

下载链接

链接失效反馈

官方服务：

资源简介：

CalcQA是一个专门设计用于评估大型语言模型在临床环境中使用医学计算器能力的基准数据集。该数据集包含100个基于真实病例由医学专业人士编写的病例-计算器对，覆盖了心脏病学、重症监护和肾病学等多个专科领域。每个条目都包括临床记录、医生诊断、所需工具参数、需要单位转换的参数以及最终结果等信息。

创建时间：

2025-05-25

原始信息汇总

CalcQA数据集概述

基本信息

许可证: MIT
任务类别: 问答系统
支持语言: 英语(en)、中文(zh)
标签: 医疗(medical)
数据集名称: CalcQA
数据规模: 小于1K样本(n<1K)

数据集描述

CalcQA是一个专门用于评估大型语言模型(LLMs)在临床环境中使用医疗计算器能力的基准数据集。该数据集基于论文"MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling"开发。

数据特点

包含100个病例-计算器对
涵盖多个医学专科领域：心脏病学、重症监护、肾脏病学等
每个条目包含：
- 临床记录
- 医生诊断
- 所需工具参数
- 需要单位转换的参数
- 最终结果

工具包

提供281个Python实现的医疗实用工具
- 44个临床计算器
- 237个单位转换工具

数据加载

可通过以下方式加载不同子集： python from datasets import load_dataset

ds = load_dataset( "shzyk/CalcQA", name="clinical_cases", # 100临床病例 # name=medical_calculators, # 44医疗计算器 # name=unit_conversion_tools, # 237单位转换工具 trust_remote_code=True )

引用

如需使用本数据集，请引用：

@article{zhu2024menti, title={MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling}, author={Zhu, Yakun and Wei, Shaohang and Wang, Xu and Xue, Kui and Zhang, Xiaofan and Zhang, Shaoting}, journal={arXiv preprint arXiv:2410.13610}, year={2024} }

搜集汇总

数据集介绍

构建方式

CalcQA数据集的构建基于真实临床病例，由医学专家精心筛选和标注，覆盖心脏病学、重症监护和肾脏病学等多个专科领域。该数据集包含100个病例-计算器配对，每个条目均包含临床记录、医生诊断、工具参数需求、需单位转换的参数及最终结果等关键信息。通过结合281种Python实现的医疗实用工具，包括44种临床计算器和237种单位转换工具，确保了数据集的实用性和专业性。

特点

CalcQA数据集以其高度专业化和实用性著称，专为评估大型语言模型在临床环境中使用医疗计算器的能力而设计。数据集不仅涵盖多样化的医学专科案例，还提供了丰富的配套工具库，支持直接应用于实际医疗场景。其独特的嵌套工具调用机制，使得模型能够更精准地处理复杂的医学计算和单位转换任务。

使用方法

使用CalcQA数据集时，可通过Hugging Face的`load_dataset`函数轻松加载，支持选择临床病例、医疗计算器或单位转换工具等不同子集。用户只需指定相应的`name`参数即可访问所需数据。数据集的Python工具库可直接集成到现有工作流中，为医学研究和模型开发提供便捷支持。加载后的数据可直接用于模型训练或评估，极大提升了研究效率。

背景与挑战

背景概述

CalcQA数据集由医学专业人士基于真实患者病例精心构建，旨在评估大型语言模型在临床环境中使用医学计算器的能力。该数据集源自2024年发表的论文《MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling》，由Yakun Zhu等研究人员开发，涵盖了心脏病学、重症监护和肾脏病学等多个医学专科的100个病例-计算器配对。作为医学计算与人工智能交叉领域的重要基准，CalcQA不仅提供了丰富的临床案例，还配套开发了281个可直接调用的Python医学工具，包括44个临床计算器和237个单位转换工具，为医学人工智能研究提供了实用性强、专业性高的评估平台。

当前挑战

CalcQA数据集面临的挑战主要体现在两个方面：在领域问题层面，医学计算涉及复杂的专业知识和严格的准确性要求，如何确保语言模型能够正确理解临床记录并准确调用相应的医学计算工具是一大难题；在构建过程中，医学数据的敏感性和隐私保护要求对病例数据的采集和处理提出了严峻挑战，同时不同医学专科的计算规则差异较大，需要跨学科团队紧密合作才能确保数据的专业性和全面性。此外，医学计算中频繁涉及的单位转换问题也增加了数据集构建的复杂性。

常用场景

经典使用场景

在医学计算领域，CalcQA数据集为评估大型语言模型（LLM）在临床环境中使用医学计算器的能力提供了基准。通过涵盖心脏病学、重症监护和肾脏病学等多个专科的100个真实病例，该数据集能够模拟医生在实际诊疗过程中所需的复杂计算场景，如药物剂量调整、生理参数评估等。

衍生相关工作

基于CalcQA的评估框架，研究者提出了MeNTi架构，实现了LLM对嵌套工具调用的支持。该工作启发了后续医疗代理系统的设计，如多模态医疗助手开发、临床工作流自动化等方向，为医疗AI工具链的标准化建设提供了重要参考。

数据集最近研究