five

ncbi/MedCalc-Bench

收藏
Hugging Face2025-12-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ncbi/MedCalc-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
MedCalc-Bench是第一个用于基准测试大型语言模型(LLMs)作为临床计算器能力的医学计算数据集。该数据集包含10,053个训练实例和1,047个测试实例,涵盖了55种不同的计算任务。每个实例包括患者笔记、要求计算特定临床值的问题、最终答案值以及解释如何获得最终答案的逐步解决方案。数据集还详细描述了每个实例的各个字段,如行号、计算器ID、计算器名称、类别、输出类型、笔记ID、笔记类型、患者笔记、问题、相关实体、真实答案、下限、上限和真实解释。该数据集可用于LLMs的微调和基准测试,遵循CC-BY-SA 4.0许可证。

MedCalc-Bench是第一个用于基准测试大型语言模型(LLMs)作为临床计算器能力的医学计算数据集。该数据集包含10,053个训练实例和1,047个测试实例,涵盖了55种不同的计算任务。每个实例包括患者笔记、要求计算特定临床值的问题、最终答案值以及解释如何获得最终答案的逐步解决方案。数据集还详细描述了每个实例的各个字段,如行号、计算器ID、计算器名称、类别、输出类型、笔记ID、笔记类型、患者笔记、问题、相关实体、真实答案、下限、上限和真实解释。该数据集可用于LLMs的微调和基准测试,遵循CC-BY-SA 4.0许可证。
提供机构:
ncbi
原始信息汇总

数据集概述

基本信息

  • 许可证: CC-BY-SA 4.0
  • 下载大小: 19670625 字节
  • 数据集大小: 45309070 字节

数据集结构

特征

  • Row Number: 行号,数据类型为 int64
  • Calculator ID: 计算器ID,数据类型为 int64
  • Calculator Name: 计算器名称,数据类型为 string
  • Category: 类别,数据类型为 string
  • Output Type: 输出类型,数据类型为 string
  • Note ID: 笔记ID,数据类型为 string
  • Note Type: 笔记类型,数据类型为 string
  • Patient Note: 患者笔记,数据类型为 string
  • Question: 问题,数据类型为 string
  • Relevant Entities: 相关实体,数据类型为 string
  • Ground Truth Answer: 真实答案,数据类型为 string
  • Lower Limit: 下限,数据类型为 string
  • Upper Limit: 上限,数据类型为 string
  • Ground Truth Explanation: 真实答案解释,数据类型为 string

数据分割

  • 训练集: 包含 10053 个样本,41265322 字节
  • 测试集: 包含 1047 个样本,4043748 字节

数据集配置

  • 配置名称: default
  • 数据文件:
    • 训练集: data/train-*
    • 测试集: data/test-*

数据集描述

  • 数据集名称: MedCalc-Bench
  • 描述: 用于评估大型语言模型(LLMs)在临床计算器能力的首个医疗计算数据集。每个实例包含患者笔记、计算特定临床值的问题、最终答案值以及逐步解决方案解释如何获得最终答案。数据集涵盖55种不同的计算任务。
  • 训练集: 包含 10055 个实例
  • 测试集: 包含 1047 个实例

数据集内容

  • Row Number: 实例的索引
  • Calculator ID: 计算器的整数ID
  • Calculator Name: 临床计算任务的名称
  • Category: 计算器的子类别
  • Output Type: 计算器返回的格式类型
  • Note ID: 患者笔记的ID
  • Note Type: 患者笔记的类型
  • Patient Note: 提供计算最终答案所需信息的患者笔记
  • Question: 基于特定计算器计算特定医疗值的问题
  • Relevant Entities: 基于患者笔记提取的参数及其值的字典
  • Ground Truth Answer: 需要计算的医疗值的真实答案
  • Lower Limit: 对于输出为小数的方程式计算器,该值为真实答案值的95%
  • Upper Limit: 对于输出为小数的方程式计算器,该值为真实答案值的105%
  • Ground Truth Explanation: 提供如何获得最终答案的逐步解释

使用方法

  • 训练集: 可用于微调LLMs
  • 测试集: 可用于不同设置下评估LLMs的基准
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作