TCM-ED

Name: TCM-ED
Creator: 华东师范大学上海教育人工智能研究所
Published: 2024-06-03 17:11:13
License: 暂无描述

arXiv2024-06-03 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.01126v1

下载链接

链接失效反馈

官方服务：

资源简介：

TCM-ED数据集是由华东师范大学上海教育人工智能研究所创建，专门为评估大型语言模型在传统中医学（TCM）领域的性能而设计。该数据集包含5,473个问题，源自中医执业考试（TCMLE），覆盖中医基础理论和临床实践的核心内容。数据集的构建过程严格遵循专家指导，确保问题的全面性和代表性。TCM-ED数据集的应用旨在解决中医领域中大型语言模型评估标准缺失的问题，通过提供客观、可靠的评估工具，推动中医研究的发展。

提供机构：

华东师范大学上海教育人工智能研究所

创建时间：

2024-06-03

搜集汇总

数据集介绍

构建方式

中医药领域长期缺乏标准化的大语言模型评估基准。为填补这一空白，TCM-ED数据集应运而生，其构建基于中医执业医师资格考试（TCMLE）的真实考题，共收录5473道题目，涵盖A1/A2、A3、B1三种题型，并包含1300道附有权威解析的题目。在构建过程中，研究团队首先对原始PDF数据进行清洗，利用规则模板提取题目、选项、正确答案及标准解析，并将其转化为结构化JSON格式。随后，由专家依据中医分支学科和题型进行人工筛选，确保每个分支下每种题型均包含充足且均衡的样本，从而保障评估的公平性与全面性。

特点

TCM-ED数据集的核心特点在于其高度的专业性与领域针对性。它全面覆盖了中医基础理论、临床各科以及西医基础等核心知识模块，分支分布均衡，能够无偏地评估模型在中医领域的综合能力。尤为独特的是，该数据集不仅包含选择题的正确答案，还提供了大量带有专家级标准解析的样本，使得模型评估可以从简单的答案正确率深入到生成文本的语义与知识一致性层面。这一特性为揭示大语言模型在理解中医独特术语、辨证逻辑及文化内涵方面的深层能力提供了可能。

使用方法

TCM-ED数据集的使用方法灵活且层次分明。首先，可采用零样本或少样本提示方式，让大语言模型回答多选问题，并通过准确率指标评估其对中医知识的掌握程度。其次，对于附有标准解析的1300道题目，可要求模型在给出答案的同时生成分析文本，进而利用多种自动评估指标进行量化评价。除传统的ROUGE、BERTScore等指标外，研究者专门设计了TCMScore度量，该度量结合了中医术语匹配与基于TCM-Deberta模型的语义一致性判断，能够更精准地衡量模型输出在中医语义和知识层面的质量，为领域内模型性能的深入剖析提供了有力工具。

背景与挑战

背景概述

传统中医（TCM）作为拥有深厚历史底蕴与广泛影响力的医学体系，其理论框架、诊断方法与治疗理念与现代西医存在显著差异。然而，当前针对大语言模型（LLMs）的医学评估基准多集中于西医领域，如MedMCQA和MultiMedQA，缺乏专门面向中医的专业化评测体系。为填补这一空白，华东师范大学上海人工智能教育研究院的Wenjing Yue、Xiaoling Wang等研究团队于2024年构建了TCMBench基准，其中核心数据集TCM-ED源自中医执业医师资格考试（TCMLE），包含5,473道题目，涵盖中医基础理论与临床实践两大核心模块，并配有1,300道含权威解析的题目。该基准旨在系统评估LLMs在中医领域的理解、分析与应用能力，为中医智能化研究提供标准化评测工具。

当前挑战

TCM-ED数据集面临的核心挑战首先体现在领域适配性上：中医术语具有独特性，如‘风寒外袭’与‘外感风寒’语义相同但词汇匹配度低，传统基于词匹配的评估指标（如Rouge、BertScore）易受文本长度与表面语义模糊性干扰，难以准确衡量生成内容的中医语义一致性。其次，构建过程中需克服数据污染问题，研究团队通过采用真实TCMLE考题而非公开网络数据来保障评估的可靠性。此外，LLMs在中医领域的表现仍不理想，即便是GPT-4的准确率也未超过60%，且领域微调可能削弱模型的基础逻辑推理与知识分析能力，如何平衡领域知识注入与通用能力保持成为关键挑战。

常用场景

经典使用场景

TCM-ED数据集最经典的使用场景是作为中医领域大语言模型的标准化评测基准。该数据集源自中医执业医师资格考试，包含5,473道涵盖中医基础理论与临床实践的多选题，并配有1,300道带有权威解析的题目。研究者可借此评估模型在中医知识理解、辨证论治逻辑推理以及术语语义一致性上的表现，尤其适用于零样本与少样本场景下的模型能力对比。

解决学术问题

该数据集填补了中医领域缺乏专业化大语言模型评测基准的空白。此前，医学评测多聚焦于西医体系，而中医独特的理论架构与术语表达使得通用或西医基准无法有效评估模型的中医能力。TCM-ED通过权威考试题目与配套解析，系统揭示了现有模型在中医知识掌握上的不足，并验证了引入领域知识可显著提升模型表现，同时指出微调过程可能损害模型的基础逻辑推理能力。

衍生相关工作

基于TCM-ED，研究者衍生出多项经典工作。例如，构建了TMNLI数据集，用于训练中医领域自然语言推理模型TCM-Deberta，并设计了融合术语匹配与语义一致性的TCMScore评估指标。此外，该基准催生了面向中医的大语言模型微调方法研究，如通过注入中医语料提升模型在方剂学与针灸学上的准确率，以及探索如何平衡领域知识与基础能力以防止模型在微调后出现“灾难性遗忘”现象。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集