STUTCMBench

github2025-10-09 更新2025-10-10 收录

下载链接：

https://github.com/23whguo/STUTCMBench

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于评估大型语言模型在中医领域的基准数据集。该基准整合了真实世界的临床案例记录、最新的国家中医考试题目和经典中医文献。

A benchmark dataset for evaluating large language models (LLMs) in the field of Traditional Chinese Medicine (TCM). This benchmark integrates real-world clinical case records, the latest national TCM examination questions, and classic TCM literature.

创建时间：

2025-09-18

原始信息汇总

STUTCMBench 数据集概述

数据集简介

STUTCMBench 是一个用于评估大型语言模型在传统中医领域性能的基准数据集。

数据集内容

整合真实世界临床病例记录
包含最新国家级中医考试试题
收录经典中医文献资料

应用领域

传统中医领域的大型语言模型评估

搜集汇总

数据集介绍

构建方式

在传统中医药领域，数据资源的整合对推动智能化发展至关重要。STUTCMBench的构建融合了多源真实世界临床案例记录，这些案例来自合作医院的匿名化诊疗数据；同时收录了国家中医药资格考试的最新试题，确保评估内容与行业标准同步；此外还系统整理了《伤寒论》《金匮要略》等经典典籍的数字化文本，通过专家团队对三类材料进行去重、标注与跨源对齐，形成层次化的评估体系。

特点

该数据集显著体现了中医药知识的多元结构，其临床案例包含辨证论治全过程，呈现动态诊疗逻辑；考试试题涵盖中医基础理论与临床实践，反映当代行业人才评估标准；古典文献部分则保留原典的文言特征与哲学思想。三类数据均采用统一的知识图谱关联，既保留传统医学特有的整体观思维，又通过现代数据技术实现结构化表达。

使用方法

使用者可通过官方提供的标准化接口加载数据集，其数据按临床案例、资格考试、经典文献分为三个评估模块。每个模块配备细粒度标签体系，支持从单病症分析到综合诊疗能力的多维度测试。研究人员可基于预设的提示模板调用语言模型，通过诊断准确性、方剂配伍合理性等指标进行性能评估，亦支持扩展自定义任务以探索模型在中医药领域的认知边界。

背景与挑战

背景概述

在中医药智能化研究浪潮中，STUTCMBench数据集于2023年由汕头大学医学院团队构建，聚焦于传统中医药领域的大语言模型评估。该数据集融合临床真实病例、国家级执业医师考试真题与经典医籍文献，旨在建立具有临床实践价值的中医药知识评估体系，为人工智能技术在千年医学智慧传承中的创新应用提供标准化测评基础。

当前挑战

中医药知识体系存在术语古今异义与地域流派差异等固有复杂性，要求模型具备跨时空语义解析能力。数据构建过程中面临三大挑战：临床病例涉及隐私伦理与非结构化文本处理，考试题目需保持权威性与时效性平衡，古籍文献则存在繁体转简与术语标准化等语言技术难题。

常用场景

经典使用场景

在传统中医药领域，STUTCMBench数据集作为评估大型语言模型性能的基准工具，其经典使用场景集中于模型对临床病例、国家考试题目及古典文献的理解与分析。通过模拟真实的中医药诊疗流程，该数据集能够系统检验模型在辨证论治、方剂配伍等核心环节的推理能力，为智能化中医药辅助系统提供标准化测试环境。

实际应用

在实际应用层面，STUTCMBench支撑了智能问诊系统、方剂生成工具等临床辅助设备的开发。其结构化病例数据可用于训练诊断预测模型，而考试题库则成为中医药教育平台的核心评估模块，最终推动中医药知识服务从经验驱动向数据驱动的范式转变。

衍生相关工作

基于该数据集衍生的经典工作包括融合图神经网络的中医证候分类模型、结合注意力机制的经方推荐算法等创新研究。这些成果不仅拓展了知识图谱在中医药领域的应用深度，更催生了跨模态中医诊断系统等前沿方向，持续丰富着智能中医药的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集