TCM-Instruction-Tuning-ShizhenGPT

Name: TCM-Instruction-Tuning-ShizhenGPT
Creator: FreedomAI
Published: 2025-08-22 23:21:59
License: 暂无描述

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/FreedomIntelligence/TCM-Instruction-Tuning-ShizhenGPT

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于传统中医药领域的多模态大型语言模型ShizhenGPT的微调数据集，包含了245K的中药指令数据，分为文本指令、视觉指令和语音指令三种模态。文本指令有87K条数据，视觉指令有67K条数据，语音指令有91K条数据。

This is a fine-tuning dataset for ShizhenGPT, a multimodal large language model designed for the field of Traditional Chinese Medicine (TCM). The dataset encompasses 245K traditional Chinese medicine instruction samples across three modalities: textual instructions, visual instructions, and audio instructions. Specifically, there are 87K textual instruction entries, 67K visual instruction entries, and 91K audio instruction entries.

提供机构：

FreedomAI

创建时间：

2025-08-22

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答、文本生成
语言: 中文
标签: 传统中医、多模态数据

数据集配置

配置名称: 1.TCM_text_instruction
- 数据文件: TCM_text_instruction.json
配置名称: 2.TCM_vision_instruction
- 数据文件: TCM_vision_instruction.json
配置名称: 3.TCM_speech_instruction
- 数据文件: TCM_speech_instruction.json

数据内容

该数据集是用于ShizhenGPT的微调数据集，包含245K多模态中医指令数据，涵盖文本指令、视觉指令和信号指令。

详细组成

数据类型	模态	数据量
TCM文本指令	文本	87K
TCM视觉指令	文本、视觉	67K
TCM语音指令	文本、视觉、音频	91K

注意事项

由于中医信号数据集（如脉象和气味）涉及隐私信息，建议用户从相关论文中下载。

引用

如果使用本数据集，请引用以下论文：

@misc{chen2025shizhengptmultimodalllmstraditional, title={ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine}, author={Junying Chen and Zhenyang Cai and Zhiheng Liu and Yunjin Yang and Rongsheng Wang and Qingying Xiao and Xiangyi Feng and Zhan Su and Jing Guo and Xiang Wan and Guangjun Yu and Haizhou Li and Benyou Wang}, year={2025}, eprint={2508.14706}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.14706}, }

搜集汇总

数据集介绍

构建方式

在中医药知识传承与智能化发展的背景下，TCM-Instruction-Tuning-ShizhenGPT数据集通过系统整合多模态医学数据构建而成。其文本指令部分来源于经典医籍与现代文献的结构化提取，视觉指令融合了舌诊、面色等图像资料，语音指令则收录了脉诊音频及问诊对话记录，总计24.5万条高质量样本，涵盖诊断、方剂、针灸等核心领域。

使用方法

研究者可依据不同配置加载文本、视觉或语音指令子集，通过指令微调方式训练中医领域大模型。文本指令适用于纯文本生成任务，视觉指令需结合图像编码器处理舌象图等视觉输入，语音指令则需额外集成音频处理模块。建议参照原始论文的技术框架实现多模态数据对齐与联合训练，以充分发挥数据集在中医智能辅助诊断中的应用潜力。

背景与挑战

背景概述

中医药领域作为中华文明的重要遗产，其知识体系复杂且蕴含丰富的多模态数据特征。TCM-Instruction-Tuning-ShizhenGPT数据集由FreedomIntelligence团队于2025年构建，旨在推动中医药智能化研究。该数据集聚焦于中医文本、视觉及语音指令的融合处理，核心研究问题在于通过大规模多模态指令微调提升语言模型在中医诊断与知识推理方面的能力，对促进中医药现代化与国际化具有深远影响。

当前挑战

中医药多模态数据处理面临领域专业化与隐私保护双重挑战。领域问题上，中医脉象、舌诊等视觉与信号数据的标准化表征与跨模态对齐极为复杂，需解决语义鸿沟与诊断一致性难题。构建过程中，脉冲与气味等敏感信号的采集涉及患者隐私，导致原始数据难以公开，需通过特殊授权机制获取，增加了数据合规性与可用性平衡的难度。

常用场景

经典使用场景

在中医药智能化研究领域，TCM-Instruction-Tuning-ShizhenGPT数据集主要应用于多模态大语言模型的指令微调场景。该数据集通过24.5万条涵盖文本、视觉和语音的多模态指令数据，为模型提供了中医诊断、方剂配伍和药材识别的综合训练素材，显著提升了模型在中医专业知识问答和多模态信息处理方面的性能。

解决学术问题

该数据集有效解决了中医药领域多模态数据稀缺和专业知识建模困难的核心问题。通过系统整合中医文本理论、舌诊图像和脉诊信号等多源信息，为研究者提供了标准化的评测基准，推动了中医知识表示学习、跨模态语义对齐等关键研究方向的发展，对传承和创新中医药数字化研究具有重要学术价值。

实际应用

在实际应用层面，该数据集支撑了智能中医辅助诊断系统的开发，临床医师可借助基于该数据训练的模型进行舌象分析、方剂推荐和症状查询。同时赋能中医药教育领域，为学生提供交互式学习平台，通过多模态问答形式深化对中医经典理论和诊疗方法的理解，促进中医药知识的现代化传播。

数据集最近研究