TCM-Pretrain-Data-ShizhenGPT
收藏Hugging Face2025-08-23 更新2025-08-24 收录
下载链接:
https://huggingface.co/datasets/FreedomIntelligence/TCM-Pretrain-Data-ShizhenGPT
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于中医(Traditional Chinese Medicine, TCM)的多模态大型语言模型ShizhenGPT的预训练数据集,包含来自中医相关网站和书籍的超过50亿个token的语料库,以及包含文本和图像的混合数据集。具体包括:306本中医书籍的清洗语料库、从网络收集的中医语料库、中医书籍和网络的文本-图像混合数据,以及使用GPT-4o生成的中医图像-文本对。
This is a pre-training dataset for ShizhenGPT, a multimodal large language model dedicated to Traditional Chinese Medicine (TCM). It contains a corpus of over 5 billion tokens sourced from TCM-related websites and books, as well as a mixed dataset combining text and images. Specifically, the dataset includes: a cleaned corpus of 306 TCM books, a TCM corpus collected from online sources, text-image mixed data derived from TCM books and online materials, and TCM-specific image-text pairs generated using GPT-4o.
提供机构:
FreedomAI
创建时间:
2025-08-22
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 中文
- 规模类别: 大于1T
- 标签: 传统中医
数据集配置
- TCM_Book_Corpus (Text): 数据文件为TCM_pretrain_book_corpus.json
- TCM_Web_Corpus (Text): 数据文件为TCM_pretrain_web_corpus.jsonl
- TCM_Web_Interleaved_Data (Text & Image): 数据文件为TCM_pretrain_web_vision.json
- TCM_Book_Interleaved_Data (Text & Image): 数据文件为TCM_pretrain_book_vision.json
- TCM_synthesized_vision (Text & Image): 数据文件为TCM_pretrain_synthesized_vision.json
数据内容
文本数据
- TCM_Book_Corpus: 来自3,256本中医教材的清洗语料库,约0.5B tokens
- TCM_Web_Corpus: 从网络收集的中医语料库,超过5B tokens
多模态数据
- TCM_Book_Interleaved_Data: 来自306本中医书籍的交错文本-图像数据,包含41,459个条目和50,690张图像
- TCM_Web_Interleaved_Data: 来自中医网络语料库的交错文本-图像数据,包含505,465个条目和1,143,954张图像
- TCM_pretrain_synthesized_vision: 使用GPT-4o从图像及其上下文生成的中医图像-文本对,包含144,239个条目和159,534张图像
注意事项
由于隐私和伦理考虑,未提供中医信号数据集(如声音和脉搏)。部分信号数据可参考指令数据集。
搜集汇总
数据集介绍

构建方式
在中医药知识数字化浪潮中,TCM-Pretrain-Data-ShizhenGPT数据集通过系统整合多源异构数据构建而成。其文本语料源自精心清洗的3,256部中医典籍和网络爬取的医学文献,构成超过50亿字符的纯文本基础。多模态部分则通过提取306部医籍中的图文混排内容和网络医学资源的图文关联,辅以GPT-4o生成的合成视觉数据,形成涵盖41万条图文条目和130万张图像的大规模集合。
特点
该数据集最显著的特征在于其规模宏大且模态丰富,作为当前最大的中医药预训练资源,同时包含纯文本与多模态数据。文本部分涵盖经典医籍与现代网络医学知识,多模态数据则呈现中医特有的图文结合特性,如经络图谱、药材形态等视觉信息。数据集严格遵循伦理规范,在保留中医知识完整性的同时规避了涉及隐私的脉诊等信号数据,体现了专业性与安全性的平衡。
使用方法
研究者可基于不同配置灵活调用该数据集,文本生成任务可选用TCM_Book_Corpus或TCM_Web_Corpus配置获取高质量中医文本。多模态研究则可通过TCM_Book_Interleaved_Data等配置获取图文对数据,支持视觉语言模型的预训练。所有数据均以标准化JSON或JSONL格式提供,支持直接加载至深度学习框架进行批量处理,为中医药自然语言处理和多模态研究提供基础设施支持。
背景与挑战
背景概述
中医药领域作为中华文明的重要瑰宝,其知识体系庞大而复杂,亟需现代人工智能技术的赋能。2025年,由FreedomIntelligence团队主导开发的TCM-Pretrain-Data-ShizhenGPT数据集应运而生,旨在构建面向中医药领域的多模态大语言模型预训练资源。该数据集整合了来自3256部中医典籍的文本语料及大规模网络中医药文献,总规模超过50亿token,同时涵盖图文交错数据与合成视觉数据,为中医药知识的数字化保存与智能应用奠定了坚实基础。
当前挑战
中医药文本的古今语言差异与专业术语多样性对自然语言处理模型提出了严峻挑战,要求模型能够准确理解典籍中的文言表述与现代医学描述的对应关系。数据构建过程中面临多源异构数据融合的复杂性,包括古籍数字化中的文字识别误差、图文对齐的精确性保障,以及隐私伦理约束下部分信号数据的缺失问题。此外,跨模态表征学习需克服中医诊断中望闻问切多维度信息与文本描述的语义鸿沟。
常用场景
经典使用场景
在中医药数字化研究领域,TCM-Pretrain-Data-ShizhenGPT数据集为多模态大语言模型提供了丰富的预训练素材。其经典使用场景包括基于中医典籍文本的语义理解任务,以及结合图文数据的多模态表征学习,能够有效支持中医文献的智能解析与知识抽取。
实际应用
实际应用中,该数据集支撑了中医智能辅助诊断系统的开发,通过分析症状描述与药材图像关联性,提升诊断建议的准确性。同时赋能中医教育数字化,构建能够解读经典医籍、展示药材图谱的智能教学工具,促进中医药知识的普及与传承。
衍生相关工作
基于该数据集衍生的经典工作包括ShizhenGPT多模态中医大模型,其实现了中医问诊对话生成与方剂推荐功能。后续研究进一步拓展到中医舌诊图像分析、脉象信号处理等跨模态任务,推动了中医药人工智能研究范式的创新与发展。
以上内容由遇见数据集搜集并总结生成



