TCM-Text-Exams

Name: TCM-Text-Exams
Creator: FreedomAI
Published: 2025-08-23 16:55:23
License: 暂无描述

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/TCM-Text-Exams

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于传统中医药（TCM）的多模态语言模型ShizhenGPT的文本基准数据集。数据集由来自国家级中医药考试的五个部分组成，包括2024年中医药剂师考试、中医职业医师资格考试、中医助理职业医师资格考试以及2024和2025年的中医综合考验真题。

提供机构：

FreedomAI

创建时间：

2025-08-23

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
语言: 中文
标签: 传统中医、多模态数据

数据集简介

该数据集是用于ShizhenGPT的文本基准测试，ShizhenGPT是一个面向传统中医（TCM）的多模态大语言模型。

基准测试概览

基准测试由五个部分组成，每个部分均来自不同的国家级中医考试。

考试名称	样本数量
2024年中医药剂师考试	480
2024年中医职业医师资格考试	184
2024年中医助理职业医师资格考试	138
2024年中医综合考验真题	147
2025年中医综合考验真题	139

引用

如果使用本数据集，请考虑引用相关研究。

bibtex @misc{chen2025shizhengptmultimodalllmstraditional, title={ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine}, author={Junying Chen and Zhenyang Cai and Zhiheng Liu and Yunjin Yang and Rongsheng Wang and Qingying Xiao and Xiangyi Feng and Zhan Su and Jing Guo and Xiang Wan and Guangjun Yu and Haizhou Li and Benyou Wang}, year={2025}, eprint={2508.14706}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.14706}, }

搜集汇总

数据集介绍

构建方式

在中医药知识体系日益数字化的背景下，TCM-Text-Exams数据集系统整合了五项国家级权威考试真题，涵盖2024年中医药剂师考试、职业医师与助理医师资格考试，以及2024与2025年中医研究生入学综合试题。通过严谨的题目筛选与分类，构建出总计1088道题目的高质量文本语料，每一题目均对应实际考试中的标准化命题，确保了数据的代表性和权威性。

特点

该数据集突出表现为多源异构与领域专精两大特点，题目来源于不同层级、不同类型的职业与学术考试，覆盖中医理论、方剂学、诊断学等多个子领域。其内容兼具时序性与专业性，既包含经典知识也反映近年学术动向，为模型评估提供了层次丰富、结构清晰的测试基准，尤其适合考察模型在中医药复杂语境下的推理与判断能力。

使用方法

使用者可依据不同考试类别划分数据子集，针对具体应用场景如药师辅助诊断或医学教育自动化评测开展模型训练与验证。该数据集支持多项自然语言处理任务，包括但不限于问答生成、知识推理和术语识别，研究人员可通过加载标准格式数据嵌入现有评测流程，或结合多模态框架进一步拓展其在中医药智慧系统中的集成应用。

背景与挑战

背景概述

中医药领域在人工智能时代面临着知识传承与现代化转型的双重需求，TCM-Text-Exams数据集应运而生。该数据集由FreedomIntelligence团队于2025年构建，旨在为中医专业大型语言模型提供标准化评估基准。其核心研究问题聚焦于中医专业知识的机器理解与推理能力测评，涵盖了药师资格考试、医师执业考试及研究生入学考试等多层次权威试题。这一数据集的建立不仅推动了中医自然语言处理研究的发展，更为跨模态中医智能系统的开发奠定了重要基础。

当前挑战

中医药文本理解面临专业术语密集、语义关系复杂等固有挑战，要求模型具备深厚的领域知识推理能力。在构建过程中，团队需要处理不同考试体系间的知识差异，确保试题的专业准确性和代表性。同时，中医概念的模糊性和语境依赖性增加了标注难度，需要领域专家参与验证。多源异构数据的整合与标准化也是重要挑战，涉及考试年份跨度带来的知识更新问题，以及保持各子集平衡性与可比性的技术难题。

常用场景

经典使用场景

在中医药智能化研究领域，TCM-Text-Exams数据集作为专业评估基准，主要用于测试多模态大语言模型在中医专业知识理解与推理方面的能力。该数据集整合了药师资格考试、医师执业考试及研究生入学考试等国家级权威试题，为模型提供了标准化的中医诊断、方剂配伍和理论应用等典型场景的评估框架。

实际应用

在实际应用层面，该数据集为开发中医辅助诊断系统、智能药师助手和个性化教育平台提供了核心数据支撑。基于该数据集训练的模型能够协助医师进行方剂推荐、辨证分析，同时为中医药教育领域提供自适应学习评估工具，显著提升中医药服务的标准化与智能化水平。

衍生相关工作

围绕该数据集衍生的经典工作包括ShizhenGPT多模态中医大模型架构设计、中医考试题目自动生成技术以及跨模态中医知识检索系统。这些研究不仅深化了中医领域与大语言模型的融合，还催生了中医知识图谱构建、智能辨证推理等一系列创新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集