MedCalc-Bench

Hugging Face2024-06-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ncbi/MedCalc-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MedCalc-Bench是一个专为评估和训练大型语言模型（LLMs）在临床计算任务中表现而设计的数据集。每个实例包含患者笔记、计算特定临床值的问题、最终答案及答案的逐步解释。数据集涵盖55种不同的计算任务，旨在提升LLMs在医疗环境中的语言和计算推理能力。数据集包括10,053个训练实例和1,047个测试实例，支持模型微调和性能评估。

MedCalc-Bench is a dataset specifically designed for evaluating and training large language models (LLMs) on clinical computational tasks. Each instance contains patient notes, questions asking to calculate specific clinical values, final answers, and step-by-step explanations for the answers. The dataset covers 55 distinct computational tasks, aiming to enhance the linguistic and computational reasoning capabilities of LLMs in clinical settings. It includes 10,053 training instances and 1,047 test instances, supporting model fine-tuning and performance evaluation.

创建时间：

2024-06-12

原始信息汇总

数据集概述

数据集信息

特征列表：
- Row Number: 行号，数据类型为 int64
- Calculator ID: 计算器ID，数据类型为 int64
- Calculator Name: 计算器名称，数据类型为 string
- Category: 类别，数据类型为 string
- Output Type: 输出类型，数据类型为 string
- Note ID: 笔记ID，数据类型为 string
- Note Type: 笔记类型，数据类型为 string
- Patient Note: 患者笔记，数据类型为 string
- Question: 问题，数据类型为 string
- Relevant Entities: 相关实体，数据类型为 string
- Ground Truth Answer: 真实答案，数据类型为 string
- Lower Limit: 下限，数据类型为 string
- Upper Limit: 上限，数据类型为 string
- Ground Truth Explanation: 真实答案解释，数据类型为 string
数据分割：
- train: 训练集，包含 10053 个样本，大小为 41265322 字节
- test: 测试集，包含 1047 个样本，大小为 4043748 字节
数据集大小：
- 下载大小：19670625 字节
- 数据集总大小：45309070 字节

数据集配置

默认配置：
- train: 数据文件路径为 data/train-*
- test: 数据文件路径为 data/test-*

数据集描述

数据集用途：用于评估和改进大型语言模型（LLMs）在临床计算任务中的能力。
数据集内容：包含 10053 个训练样本和 1047 个测试样本。
数据实例内容：
- Row Number: 实例索引
- Calculator ID: 计算器整数ID
- Calculator Name: 临床计算任务名称
- Category: 计算器子类别
- Output Type: 计算器返回的格式类型
- Note ID: 患者笔记ID
- Note Type: 患者笔记类型
- Patient Note: 提供计算最终答案所需信息的患者笔记
- Question: 基于特定计算器询问模型计算特定医疗值的问题
- Relevant Entities: 基于患者笔记提取的参数及其值的字典
- Ground Truth Answer: 需要计算的医疗值的真实答案
- Lower Limit: 下限值
- Upper Limit: 上限值
- Ground Truth Explanation: 提供最终答案如何获得的逐步解释

数据集使用

训练数据集：可用于微调LLMs。
测试数据集：可用于不同设置下评估LLMs。

许可证

数据集发布在 CC-BY-SA 4.0 许可证下。

搜集汇总

数据集介绍

构建方式

MedCalc-Bench数据集是首个用于评估大型语言模型（LLMs）在临床计算任务中表现的数据集。该数据集通过整合来自不同来源的患者笔记、临床计算任务及其详细解答构建而成。每个实例包含患者笔记、计算特定临床值的问题、最终答案以及逐步解答过程。数据集涵盖了55种不同的计算任务，旨在提升LLMs在医疗环境中的语言和计算推理能力。

使用方法

MedCalc-Bench数据集的使用方法灵活多样。训练集可用于微调开源LLMs，提升其在临床计算任务中的表现。测试集则用于评估不同LLMs在多种提示设置下的性能。用户可通过下载数据集并参考提供的代码和模型进行实验，以探索LLMs在医疗环境中的潜力与局限性。数据集的使用遵循CC-BY-SA 4.0许可，确保了广泛的可用性和开放性。

背景与挑战

背景概述

MedCalc-Bench数据集是首个用于评估大型语言模型（LLMs）在临床计算任务中表现能力的医学计算数据集。该数据集由美国国家生物技术信息中心（NCBI）的研究团队创建，旨在提升LLMs在医疗环境中的语言和计算推理能力。数据集涵盖了55种不同的临床计算任务，每个实例包含患者笔记、计算特定临床值的问题、最终答案以及详细的解答步骤。通过提供10,053个训练实例和1,047个测试实例，MedCalc-Bench为研究人员提供了一个标准化的基准，用于评估和优化LLMs在医学领域的应用。该数据集的发布标志着医学计算与人工智能交叉领域的重要进展，为未来的研究提供了坚实的基础。

当前挑战

MedCalc-Bench数据集在构建和应用过程中面临多重挑战。首先，数据集的核心任务是解决LLMs在医学计算中的准确性和解释性问题，这要求模型不仅能够精确计算复杂的临床值，还需提供可解释的推理过程。其次，数据集的构建涉及大量临床数据的收集与标注，尤其是患者笔记的多样性和复杂性增加了数据处理的难度。此外，如何确保计算结果的可靠性，尤其是在涉及生命体征和药物剂量等关键领域，是数据集构建中的另一大挑战。最后，数据集的广泛应用还依赖于LLMs的泛化能力，如何在不同的临床场景中保持一致的性能，仍需进一步研究和优化。

常用场景

经典使用场景

MedCalc-Bench数据集在医学计算领域具有广泛的应用，特别是在评估大型语言模型（LLMs）作为临床计算工具的能力方面。该数据集通过提供包含患者病历、计算问题、最终答案及详细解释的实例，为研究人员提供了一个标准化的基准测试平台。通过这一数据集，研究人员能够系统地评估和比较不同LLMs在医学计算任务中的表现，从而推动模型在医学领域的应用。

解决学术问题

MedCalc-Bench数据集解决了医学计算领域中的多个关键学术问题。首先，它为LLMs在医学计算任务中的表现提供了一个标准化的评估框架，填补了现有研究中的空白。其次，数据集中的详细解释和逐步解答为模型的可解释性研究提供了宝贵资源，有助于提升模型在临床环境中的可信度。此外，该数据集还促进了医学计算任务的自动化研究，为未来的医学人工智能应用奠定了基础。

实际应用

在实际应用中，MedCalc-Bench数据集为临床医生和研究人员提供了一个强大的工具，用于评估和优化LLMs在医学计算任务中的表现。通过该数据集，临床医生可以更准确地计算患者的实验室测试结果、药物剂量、风险评估等关键指标，从而提高诊断和治疗的准确性。此外，该数据集还可用于开发智能医疗助手，帮助医生在日常工作中快速获取准确的医学计算结果，提升工作效率。

数据集最近研究