CMedCalc-Bench

github2025-09-20 更新2025-09-21 收录

下载链接：

https://github.com/Zhihong-Zhu/CMedCalc-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个细粒度的中文医疗计算基准测试数据集，用于评估大型语言模型在中文医疗计算任务中的表现

A fine-grained Chinese medical computing benchmark dataset for evaluating the performance of large language models (LLMs) on Chinese medical computing tasks

创建时间：

2025-09-17

原始信息汇总

CMedCalc-Bench: 中文医学计算细粒度基准测试

数据集概述

CMedCalc-Bench是一个专为中文医学计算任务设计的细粒度基准测试数据集，用于评估大型语言模型在医学计算领域的性能。

来源信息

官方论文标题：CMedCalc-Bench: A Fine-Grained Benchmark for Chinese Medical Calculations in LLM
会议：EMNLP 2025 Main

搜集汇总

数据集介绍

构建方式

在医学计算领域，CMedCalc-Bench数据集的构建采用了精细化的标注流程，基于真实临床场景中的计算需求，专家团队系统性地收集并验证了多样化的问题-答案对。通过多轮人工审核与医学知识交叉核对，确保了数据的准确性和可靠性，同时覆盖了药物剂量、生理参数及医疗统计等关键计算类型，为模型评估提供了坚实基础。

特点

该数据集以中文医学计算为核心，突出其细粒度分类与多维度挑战性，涵盖数值推理、单位转换及公式应用等复杂任务。每个问题均关联具体医学上下文，增强了实际应用相关性，且难度分布广泛，既能检验基础计算能力，又能评估高阶逻辑推理，适合全面测评大语言模型在专业领域的性能。

使用方法

使用者可通过加载标准化的数据文件，按照训练、验证及测试划分进行评估实验；基准测试需结合精确的指标如计算准确率和单位一致性评分，以系统衡量模型输出。数据集支持端到端管道集成，便于嵌入现有评估框架，同时提供详细指南确保结果可复现与对比分析。

背景与挑战

背景概述

在人工智能与医疗健康交叉研究领域，中文医学计算任务对大型语言模型的精准推理能力提出了更高要求。CMedCalc-Bench由研究团队于2024年提出，旨在系统评估模型在中文医疗场景下的数值计算与逻辑推理性能。该数据集聚焦药物剂量计算、临床指标解读及医疗统计等核心问题，为推进中文医疗人工智能的发展提供了关键基准工具，对提升医疗决策支持系统的可靠性具有显著影响力。

当前挑战

该数据集针对中文医疗计算中的多步骤推理、单位换算和上下文依赖等复杂问题设计，其构建面临专业医学知识整合、计算过程标准化与答案精确性验证等挑战。医疗数据的敏感性和多样性要求注释过程必须严格遵循临床指南，同时需平衡计算任务的难度层次与现实应用场景的代表性，确保评估结果既科学又具有实践指导意义。

常用场景

经典使用场景

在医学自然语言处理领域，CMedCalc-Bench数据集被广泛用于评估大型语言模型在中文医疗计算任务中的性能。研究者通过该数据集对模型进行细粒度测试，涵盖药物剂量计算、临床指标推算及医疗统计等多个子领域，以全面检验模型的计算准确性和逻辑推理能力。

实际应用

在实际医疗场景中，CMedCalc-Bench为临床决策支持系统提供了验证基础，帮助开发智能处方审核工具、医疗风险计算器及个性化治疗方案生成系统。其应用显著提升了医疗计算的自动化水平，减少了人工计算误差。

衍生相关工作

基于CMedCalc-Bench，研究者提出了多项医疗计算优化模型，如结合符号推理的混合神经网络架构和针对中药剂量计算的专用算法。这些工作进一步拓展了医疗大模型在复杂计算任务中的边界，并促进了跨学科研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集