TCM-3CEval

Name: TCM-3CEval
Creator: 上海中医药大学, 中国科学院上海人工智能实验室, 中国中医科学院
Published: 2025-03-10 16:29:15
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07041v1

下载链接

链接失效反馈

官方服务：

资源简介：

TCM-3CEval是由上海中医药大学、中国科学院上海人工智能实验室和中国中医科学院共同创建的数据集，旨在评估大型语言模型在中医领域的核心知识掌握、经典文本理解和临床决策制定三个维度的表现。该数据集包含450个条目，来源于中医教材、经典文献和临床案例，涵盖了中医基础理论、诊断、中药学、方剂学等多个方面的知识，以及临床诊断和治疗能力。数据集的设计旨在为中医领域的大型语言模型提供科学和系统的评价框架，以促进中医理论与现代技术的深度融合。

TCM-3CEval is a dataset jointly developed by Shanghai University of Traditional Chinese Medicine, Shanghai Artificial Intelligence Laboratory of the Chinese Academy of Sciences, and China Academy of Chinese Medical Sciences. It aims to evaluate the performance of large language models (LLMs) across three core dimensions in the field of traditional Chinese medicine: mastery of core TCM knowledge, comprehension of classic TCM texts, and clinical decision-making. This dataset contains 450 entries sourced from TCM textbooks, classic medical literatures, and clinical cases, covering knowledge in multiple areas including basic TCM theory, diagnostics, Chinese materia medica, formulology, as well as clinical diagnosis and treatment capabilities. The dataset is designed to provide a scientific and systematic evaluation framework for large language models in the TCM domain, so as to promote the in-depth integration of traditional Chinese medicine theories and modern technologies.

提供机构：

上海中医药大学, 中国科学院上海人工智能实验室, 中国中医科学院

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

TCM-3CEval数据集的构建，基于中医人才培育标准和结构化知识体系，旨在全面评估大型语言模型在中医领域的核心知识掌握、经典文献理解和临床决策能力。数据集的构建过程包括设计评价维度、构建评价数据集和确定评价方法和指标。评价维度分为三个核心维度：核心知识、经典文献理解和临床决策。评价数据集包括中医专业知识练习集、中医经典练习集和临床诊断治疗案例集，每个维度都包含针对不同知识点的练习题。评价方法和指标采用准确性作为评价标准，通过比较模型生成的选项与正确选项的一致性来评估模型对中医知识的理解和应用能力。

特点

TCM-3CEval数据集的特点在于其全面性、科学性和系统性。该数据集涵盖了中医基础理论、经典文献和临床案例，能够全面评估模型在中医领域的各项能力。数据集的构建过程经过中医专家的审核和修订，确保了内容的准确性和代表性。此外，数据集还采用了多维度的评价方法和指标，能够更科学地评估模型在中医领域的实际应用价值。

使用方法

使用TCM-3CEval数据集进行模型评估的方法包括准备训练好的模型、选择合适的评价数据集和运行评估程序。首先，需要准备一个训练好的大型语言模型，该模型应该具备对中医知识的理解和应用能力。然后，选择合适的评价数据集，包括中医专业知识练习集、中医经典练习集和临床诊断治疗案例集。最后，运行评估程序，将模型生成的选项与正确选项进行比较，从而评估模型在中医领域的各项能力。通过这种方法，可以全面评估模型在中医领域的实际应用价值，并为模型的改进提供参考依据。

背景与挑战

背景概述

随着人工智能技术的飞速发展，大型语言模型（LLMs）在自然语言处理和深度学习领域取得了显著的成果，并在现代医学领域得到了广泛应用。然而，在传统中医学（TCM）领域，LLMs的应用和评估尚处于探索阶段。为了填补这一空白，黄天爱等人提出了TCM-3CEval数据集，旨在评估LLMs在中医学领域的表现。该数据集创建于2025年，由上海中医药大学、上海人工智能实验室和中国中医科学院的研究人员共同开发。TCM-3CEval数据集的核心研究问题是如何科学地评估LLMs在中医学领域的表现，以促进中医学与现代技术的深度融合。该数据集对相关领域的影响力主要体现在为中医学领域的大型语言模型评估提供了一个标准化的评估框架，有助于推动中医学领域的现代化和国际发展。

当前挑战

TCM-3CEval数据集在构建过程中面临的主要挑战包括：1）中医学理论的抽象性和实践的高度个性化，使得LLMs在中医学领域的应用面临着更大的挑战；2）现有的现代医学评估方法无法全面反映LLMs在中医学领域的决策能力，导致评估结果与实际应用需求之间存在差距；3）中医学术语的多义性和文化语境的复杂性，对LLMs的理解和推理能力提出了更高的要求。

常用场景

经典使用场景

TCM-3CEval 数据集旨在评估大型语言模型在传统中医领域的表现。它通过三个维度来衡量模型的能力：核心知识掌握、经典文本理解和临床决策。该数据集可用于评估不同模型的性能，包括国际模型（如 GPT-4o）、中文模型（如 InternLM）和医学专用模型（如 PLUSE）。通过对这些模型的评估，我们可以了解它们在中医领域的优势和局限性，并为模型的优化和改进提供参考。

衍生相关工作

TCM-3CEval 数据集的发布促进了中医领域相关工作的开展。例如，一些研究者开始使用 DeepSeek 模型进行中医领域的专项研究，以探索其在中医理论、临床实践和现代研究框架中的应用。此外，TCM-3CEval 数据集还推动了中医知识图谱和概念消歧机制的研究，以进一步提高模型对中医理论的理解能力。这些相关工作有助于推动中医领域的人工智能技术发展，并促进中医的现代化和国际化。

数据集最近研究