MTCMB

Name: MTCMB
Creator: 中山大学软件工程学院, 中山大学计算机科学系, 康奈尔大学计算机科学系, 湖南中医药大学中医诊断研究所, 桂林电子科技大学人工智能学院
Published: 2025-06-02 10:01:40
License: 暂无描述

arXiv2025-06-02 更新2025-06-06 收录

下载链接：

https://github.com/Wayyuanyuan/MTCMB

下载链接

链接失效反馈

官方服务：

资源简介：

MTCMB是一个多任务基准框架，用于评估大型语言模型（LLM）在中医药知识、推理和安全方面的能力。它包含12个子数据集，涵盖了五个主要类别：知识问答、语言理解、诊断推理、处方生成和安全评估。该基准集整合了真实世界案例记录、国家执业医师资格考试和经典文本，为中医药能力模型提供了一个真实和全面的测试平台。初步结果表明，当前的大型语言模型在基础知识方面表现良好，但在临床推理、处方规划和安全合规方面仍存在不足。这些发现突出了迫切需要像MTCMB这样的领域对齐基准来指导更胜任和可靠的医疗人工智能系统的开发。

MTCMB is a multi-task benchmark framework designed to evaluate the capabilities of Large Language Models (LLMs) in traditional Chinese medicine (TCM) knowledge, reasoning, and safety. It comprises 12 sub-datasets covering five core categories: knowledge Q&A, language understanding, diagnostic reasoning, prescription generation, and safety assessment. This benchmark integrates real-world case records, the National Licensed Physician Qualification Examination, and classic texts, providing a realistic and comprehensive testbed for TCM-capable language models. Preliminary evaluation results show that current LLMs perform well in basic knowledge, but still have deficiencies in clinical reasoning, prescription planning, and safety compliance. These findings highlight the urgent need for domain-aligned benchmarks like MTCMB to guide the development of more competent and reliable medical artificial intelligence systems.

提供机构：

中山大学软件工程学院, 中山大学计算机科学系, 康奈尔大学计算机科学系, 湖南中医药大学中医诊断研究所, 桂林电子科技大学人工智能学院

创建时间：

2025-06-02

搜集汇总

数据集介绍

构建方式

MTCMB数据集构建过程体现了严谨的学科交叉合作，研究团队联合中医执业医师从四大权威来源进行数据采集：国家执业医师考试题库、真实临床病例档案、中医经典典籍以及安全用药指南。通过多阶段专家验证机制，将原始资料转化为结构化评估任务，包括知识问答（TCM-ED）、临床记录生成（TCM-CHGD）、经典文献理解（TCM-LitData）等12个子数据集。数据标注采用双盲交叉验证，关键处方生成与安全评估任务均经过三位副主任医师级专家复核，确保临床准确性与领域专业性。

特点

该数据集最显著的特点是构建了中医专属的五维评估体系：知识检索（涵盖12个临床学科标准化试题）、语言理解（包含脉象舌诊等非结构化表述解析）、诊断推理（基于真实病例的辨证分型）、处方生成（涉及400+中药配伍规则）及安全评估（包含妊娠禁忌等特殊场景）。其临床真实性体现在采用真实医患对话文本（占总量37%），并创新性地引入《黄帝内经》等典籍的现代汉语翻译任务，全面检验模型对中医符号化术语体系的掌握深度。

使用方法

研究者可通过官方GitHub获取标准化评估脚本，支持零样本、小样本和思维链三种提示工程策略。每个子数据集配备定制化评价指标：知识类任务采用精确匹配准确率，文本生成类任务结合BLEU-4和BERTScore，处方推荐任务使用改进的Jaccard相似系数。特别设计的GLM-4自动评分模块可对开放式安全问答进行语义级评估，所有实验结果需通过卡方检验确认统计显著性。为保障临床合规性，建议在中医专家监督下进行处方生成类任务的模型微调。

背景与挑战

背景概述

MTCMB（Multi-Task Benchmark for Evaluating LLMs on TCM Knowledge, Reasoning, and Safety）是由中山大学、湖南中医药大学等机构的研究团队于2025年提出的一个多任务基准测试框架，旨在系统评估大语言模型（LLMs）在中医药领域的知识掌握、推理能力和安全性。该数据集由12个子数据集组成，涵盖知识问答、语言理解、诊断推理、处方生成和安全性评估五大类别，数据来源包括真实病例记录、国家执业考试和经典文献。MTCMB的推出填补了中医药领域缺乏综合性评估工具的空白，为开发可靠且符合中医药特点的人工智能系统提供了重要基准。

当前挑战

MTCMB面临的挑战主要体现在两个方面：领域问题方面，中医药的隐式推理机制、术语多义性以及缺乏标准化体系，使得模型在临床推理、处方生成等复杂任务中表现不佳；构建过程方面，数据收集需处理古典文献的非结构化文本、解决术语歧义问题，并确保临床案例的真实性和安全性标注的准确性。此外，评估指标需要兼顾传统自然语言处理指标和中医药特有的临床合理性要求，这对基准设计的全面性提出了较高要求。

常用场景

经典使用场景

MTCMB数据集在中医领域的大语言模型评估中扮演着关键角色，尤其适用于对模型在知识问答、语言理解、诊断推理、处方生成和安全性评估等多任务场景下的综合能力测试。该数据集通过整合真实病例、国家执业考试题和经典文献，为研究者提供了一个全面且真实的测试平台，特别适合用于评估模型在中医特定语境下的表现。

解决学术问题

MTCMB解决了中医领域大语言模型评估中缺乏标准化和多维度测试的问题。通过涵盖知识问答、临床推理和安全性评估等多个任务类别，该数据集填补了现有基准在中医特定推理和安全协议评估上的空白。其专家验证的数据和临床真实性的设计，显著提升了模型评估的可靠性和实用性，推动了中医智能化研究的深入发展。

衍生相关工作

MTCMB的发布催生了一系列相关研究，特别是在中医领域的大语言模型优化和安全增强方面。例如，部分研究团队基于MTCMB开发了混合架构模型，结合符号推理框架以更好地捕捉中医的整体性逻辑。此外，该数据集还启发了针对中医特定安全协议的新基准设计，进一步推动了领域内安全评估标准的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集