TCM-Ladder

Name: TCM-Ladder
Creator: 上海中医药大学针灸推拿学院
Published: 2025-05-30 07:13:57
License: 暂无描述

arXiv2025-05-30 更新2025-06-03 收录

下载链接：

https://tcmladder.com 或 https://54.211.107.106

下载链接

链接失效反馈

官方服务：

资源简介：

TCM-Ladder是一个大规模的多模态数据集，旨在为中医药领域的大型语言模型提供训练和评估。该数据集涵盖了中医药的多个子学科，包括基本理论、诊断、药方、药理学等，并融合了文本、图像、音频和视频等多种数据类型。数据集的建设过程中，收集了超过52,000个问题，包括单选题、多选题、填空题、诊断对话和视觉理解任务等。所有文本和视觉数据均由认证的中医药从业者独立审查和验证，以确保准确性和临床相关性。

TCM-Ladder is a large-scale multimodal dataset developed to support the training and evaluation of large language models within the traditional Chinese medicine (TCM) domain. This dataset spans multiple sub-disciplines of TCM, including basic theories, clinical diagnosis, prescriptions, pharmacology and other related fields, and integrates diverse data modalities such as text, images, audio and video. Over 52,000 questions were collected during the construction of this dataset, covering single-choice questions, multiple-choice questions, fill-in-the-blank questions, diagnostic dialogues and visual understanding tasks. All text and visual data were independently reviewed and validated by certified TCM practitioners to ensure their accuracy and clinical relevance.

提供机构：

上海中医药大学针灸推拿学院

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

TCM-Ladder数据集的构建采用了多模态数据融合与专家验证相结合的方法。研究团队从公开的中医资格考试题库、在线医学问答平台等渠道收集了基础文本数据，同时整合了6061味中药图像、1394张舌诊图像以及6420段音频和49个针灸推拿视频。文本数据经过自动化去重（基于编辑距离、TF-IDF和BERT编码）和双盲医师审核的双重质量控制流程，视觉数据则通过专业舌象采集设备和中药制造现场拍摄获得。数据覆盖中医基础理论、诊断学、方剂学等7大学科，最终形成包含52,169个高质量问答对的资源库。

特点

作为首个中医多模态评估基准，TCM-Ladder的突出特点体现在三维度融合：知识维度覆盖中医核心学科体系，模态维度整合文本、图像、音频和视频，任务维度包含单选、多选、填空等6类临床推理题型。其创新性在于设计了舌象诊断和草药识别的视觉理解任务，真实还原中医'望闻问切'的诊疗场景。数据集通过Ladder-Score评估体系（术语准确度与语义评分的加权组合）解决了传统指标对中医专业表达评估不足的痛点，为模型性能提供细粒度分析。

使用方法

该数据集支持三种应用范式：作为评估基准，研究者可通过官网提交模型在测试集（占比10%）上的预测结果，系统将自动生成包含Ladder-Score的多维度性能报告；作为训练资源，80%的训练子集可用于微调领域模型，如研究团队基于Qwen2.5-7B开发的Ladder-base推理模型；作为扩展平台，交互式网站允许用户贡献新数据，持续丰富多模态内容。使用需注意不同任务类型的评估协议——视觉任务采用Top-1准确率，填空任务采用精确匹配，而诊断对话则需综合BLEU-4和语义评分。

背景与挑战

背景概述

TCM-Ladder是由美国密苏里大学、西北大学等机构的研究团队于2025年提出的首个面向中医领域的多模态问答基准数据集。该数据集旨在解决中医大型语言模型（LLMs）评估缺乏标准化多模态基准的关键问题，覆盖中医基础理论、诊断学、方剂学等七大核心学科，包含52,000余个融合文本、图像、视频的多模态问题。数据集创新性地设计了阶梯评分（Ladder-Score）评估体系，通过术语准确性和语义表达双重维度对模型表现进行量化。作为中医人工智能领域的重要基础设施，TCM-Ladder为促进中医智能诊断系统的研发提供了关键评估工具，其多模态特性尤其契合中医'望闻问切'的综合诊断范式。

当前挑战

构建TCM-Ladder面临双重挑战：在领域问题层面，中医知识体系具有独特的辩证逻辑和术语系统，现有基于西医的医学评估框架难以有效捕捉中医诊断的复杂性，如脉象舌诊的多模态特征识别、证候与方剂的匹配推理等核心任务。在构建技术层面，高质量中医数据的获取需要跨学科协作，包括专业医师参与的临床数据标注、多模态数据（舌象图谱、药材图像）的标准化采集，以及应对中医古籍文献的语义解析难题。数据集还需解决传统评估指标（如BLEU）对中医语义等效性判断的局限性，这促使研究者开发了融合术语准确度与LLM语义评分的创新评估体系。

常用场景

经典使用场景

TCM-Ladder数据集作为首个专注于传统中医领域的多模态问答基准，其经典使用场景在于全面评估大语言模型在中医知识体系中的综合表现。该数据集通过整合文本、图像、音频和视频等多模态数据，模拟真实中医诊疗过程中的信息获取与推理流程，尤其适用于测试模型在舌诊图像识别、方剂配伍推理等专业任务中的跨模态理解能力。研究人员可利用其丰富的任务类型（如选择题、填空题和诊断对话）系统分析模型在中医基础理论、内科学等七大学科领域的知识掌握深度。

解决学术问题

TCM-Ladder有效解决了中医人工智能研究中的三大核心问题：其一，填补了现有评估体系对中医多模态特性关注的空白，通过舌象图谱、药材图像等视觉数据克服了传统文本基准的局限性；其二，提出的Ladder-Score评估指标创新性地结合术语准确度与语义相似度，为中医特色化答案质量评估提供了量化标准；其三，数据集涵盖的52,000+问题构建了首个跨学科中医知识评估体系，解决了既往研究因数据碎片化导致的评估片面性问题，为中医大模型的迭代优化提供了可靠参照。

衍生相关工作

基于TCM-Ladder的评估框架，研究者已衍生出多项创新成果：Bencao模型通过微调GPT-4在药材识别任务中达到80%准确率；Ladder-base模型采用GRPO强化学习策略显著提升诊断对话的语义连贯性。数据集启发的跨模态研究催生了舌诊特征融合算法，相关成果发表于《Journal of Biomedical Informatics》。在评估方法层面，其提出的术语-语义双维度评分机制已被TCM-3CEval等后续基准采纳，推动了中医AI评估标准的规范化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集