ShizhenGPT

Name: ShizhenGPT
Creator: 香港中文大学（深圳）
Published: 2025-08-20 21:30:20
License: 暂无描述

arXiv2025-08-20 更新2025-11-26 收录

下载链接：

https://github.com/FreedomIntelligence/ShizhenGPT

下载链接

链接失效反馈

官方服务：

资源简介：

ShizhenGPT是一个专门为传统中医学（TCM）定制的大型多模态语言模型。该数据集是迄今为止最大的TCM数据集，包含超过100GB的文本和200GB的多模态数据，包括120万张图像、200多个小时的音频和多种生理信号。该数据集通过领域特定的预训练和指令调整，使ShizhenGPT能够获得深度的TCM知识和多模态推理能力。该数据集的应用领域包括临床决策、医学教育和传统医学知识的保存。

ShizhenGPT is a large multimodal language model specifically customized for Traditional Chinese Medicine (TCM). This dataset is the largest TCM dataset to date, comprising over 100 GB of text data and 200 GB of multimodal data, including 1.2 million images, more than 200 hours of audio, and various physiological signals. Through domain-specific pre-training and instruction tuning, this dataset enables ShizhenGPT to acquire in-depth TCM knowledge and multimodal reasoning abilities. The application fields of this dataset cover clinical decision-making, medical education, and the preservation of traditional medical knowledge.

提供机构：

香港中文大学（深圳）

创建时间：

2025-08-20

搜集汇总

数据集介绍

构建方式

在传统医学与现代人工智能融合的背景下，ShizhenGPT数据集的构建采用了系统化多模态采集策略。通过整合3256部中医典籍与在线资源，形成了超过100GB的文本语料库，并运用双重过滤机制确保数据质量。同时，收集了涵盖120万张图像、200小时音频及多种生理信号的多模态数据，通过预训练与指令微调两阶段流程，使模型深度融合中医理论与多模态感知能力。

使用方法

研究者可通过公开的代码库加载预训练模型进行多模态推理。使用时应遵循模块化输入原则：视觉诊断任务输入舌象等医学图像，听觉分析加载咳嗽或心音音频，脉诊处理则需转换脉搏波形数据。模型支持联合输入多模态信息实现综合诊断，在中医执业资格考试、药材识别等基准测试中展现出卓越的跨模态理解能力，为中医智能化研究提供标准化实验平台。

背景与挑战

背景概述

ShizhenGPT作为首个面向中医领域的多模态大语言模型，由香港中文大学（深圳）联合多家机构于2025年发布，旨在突破传统文本模型的局限。该模型以李时珍命名，呼应中医千年传承的智慧，核心研究聚焦于解决中医诊断中望闻问切的多模态特性与高质量数据稀缺的双重困境。通过整合超过100GB文本与200GB多模态数据，该数据集不仅填补了中医领域大规模结构化数据的空白，更推动了人工智能在传统医学中的深度融合，为临床决策与医学教育提供了全新范式。

当前挑战

中医诊断依赖望闻问切四诊合参，其多模态特性要求模型同步处理舌象视觉特征、脉象波形数据与声音气味等异构信息，这对模态对齐与跨模态推理提出严峻挑战。构建过程中面临高质量中医数据稀缺的瓶颈，现存文本资源不足1GB且缺乏标准化标注，需从3256本古籍与网络资源中挖掘清洗；多模态数据采集需克服生理信号采集设备差异、医学伦理审查及专家标注成本高昂等难题，最终通过合成数据增强与统一信号编码策略实现模态融合。

常用场景

经典使用场景

在传统中医领域，ShizhenGPT数据集通过整合超过100GB文本与200GB多模态数据，为中医四诊合参的智能化研究提供了核心支撑。其经典应用场景聚焦于模拟中医诊断流程，模型能够同时处理舌象图像、脉诊信号、声音特征及气味数据，实现望闻问切的多模态协同分析。这种全息感知能力使研究者能够构建端到端的中医辅助诊断系统，在舌苔颜色识别、脉象波形分类等细分任务中展现出卓越的适应性。

解决学术问题

该数据集有效解决了中医智能化研究中的两大核心难题：一是突破了高质量中医数据稀缺的瓶颈，通过系统化采集3256部典籍与网络资源构建了迄今规模最大的中医语料库；二是攻克了传统语言模型无法处理非文本模态的局限，首次实现了对声音、脉搏、气味等中医关键诊断维度的数字化表征。这些突破使得基于深度学习的中医辨证论治模型能够准确识别阴虚火旺、气血两虚等复杂证候，为传承千年的中医理论体系提供了可计算的研究范式。

实际应用

在实际医疗场景中，该数据集支撑的模型已应用于中医执业资格考试辅导、远程智能问诊等具体场景。通过解析患者上传的舌象照片与脉诊仪数据，系统可生成符合中医理论的初步诊断建议，辅助基层医生进行证候判别。在中医药院校教学中，其构建的视觉基准测试集能够精准评估学生对药材辨识、舌诊判读等实践技能的掌握程度，推动中医教育从经验传授向数据驱动的标准化转型。

数据集最近研究