TCM-Ladder

github2025-05-23 更新2025-05-26 收录

下载链接：

https://github.com/orangeshushu/TCM-Ladder

下载链接

链接失效反馈

官方服务：

资源简介：

TCM-Ladder是第一个专门为评估大型TCM语言模型设计的多模态QA数据集，涵盖中医多个核心学科，包括基础理论、诊断学、方剂学、内科学、外科学、生药学和儿科学。除了文本内容，TCM-Ladder还包含图像和视频等多种模态。数据集通过自动和人工过滤结合的方式构建，总计包含52,000多个问题，包括单选题、多选题、填空题、诊断对话和视觉理解任务。

TCM-Ladder is the first multimodal question answering (QA) dataset specifically designed for evaluating large Traditional Chinese Medicine (TCM) language models. It covers multiple core TCM disciplines including basic theory, diagnostics, formulology, internal medicine, surgery, pharmacognosy, and pediatrics. In addition to textual content, TCM-Ladder also supports multiple modalities such as images and videos. The dataset is constructed through a combination of automatic and manual filtering, and contains a total of over 52,000 questions including single-choice questions, multiple-choice questions, fill-in-the-blank questions, diagnostic dialogues, and visual understanding tasks.

创建时间：

2025-05-12

原始信息汇总

TCM-Ladder 数据集概述

数据集简介

名称：TCM-Ladder
领域：传统中医(TCM)
类型：多模态问答数据集
目的：评估大型中医语言模型在真实任务中的表现

核心特点

多模态性：包含文本、图像、视频等多种数据形式
广泛覆盖：涵盖中医核心学科领域
- 基础理论
- 诊断学
- 方剂学
- 内科学
- 外科学
- 生药学
- 儿科学
任务多样性：包含6种任务类型
- 单选题(基础知识识别)
- 多选题(复杂概念整合推理)
- 长形式诊断问答(临床推理)
- 填空题(生成准确性和上下文理解)
- 基于图像的理解任务(多模态推理)
- 音频/视频资源(支持多模态模型开发)

数据规模

总问题量：52,000+
构建方法：自动化与人工筛选结合

评估方法

Ladder-Score：专门设计的中医问答评估方法
- 评估术语使用
- 评估语义表达质量

实验验证

对比模型：
- 9个最先进的通用领域LLM
- 5个领先的中医专用LLM
评估维度：
- 单/多选题表现
- 中药材相关问题表现
- 舌像图像问题表现

可用资源

数据集访问：https://tcmladder.com 或 https://54.211.107.106
持续更新：是

搜集汇总

数据集介绍

构建方式

在中医药领域亟需标准化评估体系的背景下，TCM-Ladder采用自动化筛选与人工校验相结合的构建方法，系统整合了中医基础理论、诊断学、方剂学等七大核心学科内容。通过多模态数据采集技术，该数据集不仅涵盖5.2万道文本题目，还创新性地纳入了舌象图谱、药材影像及推拿视频等视听素材，形成了包含单选、多选、填空等六类题型的立体化评估框架。

特点

作为首个中医药多模态问答基准数据集，TCM-Ladder的突出特点体现在其学科覆盖的完整性与评估维度的多样性。数据集不仅包含传统文本问答，更通过视觉理解题实现了对药材辨识、舌诊等中医特色技能的考察。特别设计的Ladder-Score评估体系能精准量化模型在专业术语运用和语义表达方面的表现，为不同模态的答案质量提供了统一度量标准。

使用方法

研究者可通过平台提供的标准化接口接入TCM-Ladder，利用其分级评估模块对语言模型进行系统性测试。数据集支持单模态文本任务与多模态联合任务的并行评估，用户可根据需要选择特定学科或题型进行针对性验证。开放式的架构设计允许动态补充新型题目，确保评估体系与中医临床实践保持同步演进。

背景与挑战

背景概述

TCM-Ladder数据集由专注于传统中医药（TCM）研究的团队于近年开发，旨在填补该领域多模态问答评估基准的空白。作为首个专门针对中医药大语言模型设计的综合性评测数据集，其构建得到了跨学科专家的支持，覆盖中医基础理论、诊断学、方剂学等七大核心学科。该数据集的诞生源于中医药智能化进程中缺乏标准化评估工具的现状，通过整合文本、图像、视频等多模态数据，为模型性能评估提供了全新维度。TCM-Ladder的问世显著推动了中医药自然语言处理研究的发展，其构建方法论与评估体系已成为该领域的重要参考标准。

当前挑战

构建TCM-Ladder面临双重挑战：在领域问题层面，中医药知识体系具有独特的术语系统和辨证逻辑，要求模型不仅能理解常规语义，还需掌握专业辨证思维；多模态数据的对齐与标注存在显著困难，如舌象图像的病理特征识别需要中医专家参与。在技术实现层面，跨模态数据融合的复杂性远超单一文本处理，特别是视频脉冲诊断和推拿手法等动态内容的标注；此外，中医药知识的文化特异性导致现有自然语言处理技术难以直接迁移，需开发专门的评估指标如Ladder-Score来准确衡量术语使用和语义表达的适配性。

常用场景

经典使用场景

在中医药研究领域，TCM-Ladder数据集为多模态问答任务提供了标准化评估框架。该数据集通过整合文本、图像、视频等多种模态数据，覆盖了中医基础理论、诊断学、方剂学等核心学科，能够全面评估大型语言模型在复杂中医知识理解和推理任务中的表现。其包含的52000余道题目，如单项选择题、多项选择题、填空题等，为研究者提供了丰富的测试素材，尤其适合用于检验模型在临床诊断对话和视觉理解等真实场景中的综合能力。

衍生相关工作

TCM-Ladder的发布推动了中医药人工智能研究的系列创新。基于该数据集，研究者开发了多个中医专用语言模型，如TCM-BERT和HerbGPT，在方剂生成和症状分析任务中表现优异。在跨模态研究方面，衍生出了融合舌象识别与脉诊分析的智能诊断系统。数据集构建的多模态评估框架也被扩展应用于藏医、蒙医等民族医学研究，促进了传统医学知识表示的统一标准化进程。

数据集最近研究