Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集
收藏中医数据集-预训练/指令微调
数据介绍
该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容,涵盖全面,配比均衡。数据集主要由非网络来源的内部数据构成,99%为简体中文内容,内容质量优异,信息密度可观。
数据用途
- 仅适用于预训练或继续预训练用途。
- 未来将继续发布针对SFT/IFT的多轮对话和问答数据集。
数据关联
- 该数据集与
SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain
中的内容高度关联,但不完全重叠。 - 建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。
数据补充
- 建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
- 建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。
数据文件
文件名 | 数据细节 | 备注 | 是否有曾公开过 |
---|---|---|---|
SFT_medicalKnowledge_source1_548404 | 包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息,涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对,质量极高。由"Qwen2.5-14B"进行本地处理QA切分,基于下文【附录四】内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
SFT_medicalKnowledge_source2_99334 | 包含来自,不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释,同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建,质量极高。由"deepseek-chat"API进行本地处理QA化,基于"附录四"内的提示词工程。 | 已进行一次minHash(threshold=0.91596, num_perm=128),且认为没有进行二次minHash的必要。 | 内部数据,未曾面世。 |
SFT_medicalKnowledge_source3_556540 | 包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化,基于"附录四"内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
SFT_nlpDiseaseDiagnosed_61486 | 包含61,486条来自高水平执业中医医生的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的疾病诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病,具体清单详见【附录表二】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
SFT_nlpSyndromeDiagnosed_48665 | 包含48,665条来自某知名教授的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型,具体清单详见【附录表一】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
SFT_structGeneral_310860 | 包含从某互联网医院数据库中获取的部分结构化医案(1,592,410条医案),去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断,具体构成详见【附录表三】} | 已进行一次minHash(threshold=0.618, num_perm=128),可酌情进行二次minHash。 | 内部数据,未曾面世。 |
SFT_structPrescription_92896 | 包含92,896条从某中医院EMR系统中获得的部分归档医案,内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
外部数据集 _SFT_external_shuffledCOIGCQIA_44694 | m-a-p/COIG-CQIA | https://arxiv.org/html/2403.18058v1 | 网络来源数据,未经处理。 |
外部数据集 _SFT_external_shuffledCOIG_275985 | BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条;11轮-13635条;9轮-12条;7轮-2条,结构格式与其他数据集不同,详见 dataset_info.json】 | https://arxiv.org/abs/2304.07987 | 网络来源数据,未经处理。 |
外部数据集 _SFT_external_traditionalTrans_7304 | 古文/文言文<->现代文翻译数据。映射关系为:{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文} | https://github.com/NiuTrans/Classical-Modern | 网络来源数据,内部处理校对。 |
附录表一:SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况
证型 | 样本数量 |
---|---|
气虚血瘀证 | 8303 |
湿热下注证 | 7843 |
气滞血瘀证 | 4791 |
风痰瘀阻证 | 3358 |
肝胃郁热证 | 2009 |
正虚瘀结证 | 1993 |
痰湿蕴肺证 | 1875 |
肝肾亏虚证 | 1457 |
热毒蕴结证 | 1292 |
脾肾两虚证 | 1022 |
气阴两虚证 | 860 |
湿热瘀阻证 | 622 |
肾虚证 | 593 |
肝胃不和证 | 546 |
风寒袭肺证 | 526 |
脾胃虚寒证 | 522 |
湿热蕴结证 | 520 |
阳虚水泛证 | 504 |
痰瘀痹阻证 | 477 |
心脉痹阻证 | 446 |
风痰上扰证 | 414 |
风寒外袭证 | 396 |
风痰入络证 | 344 |
瘀血阻络证 | 315 |
痰瘀互结证 | 309 |
阴虚阳亢证 | 299 |
痰浊蒙窍证 | 282 |
气血亏虚证 | 218 |
肝阳上亢证 | 209 |
痰湿蒙窍证 | 208 |
肝肾阴虚证 | 194 |
痰湿中阻证 | 185 |
阴虚火旺证 | 180 |
血瘀痰凝证 | 175 |
脾胃虚弱证 | 174 |
肝经湿热证 | 169 |
正虚毒瘀证 | 160 |
血热证 | 156 |
脾胃不和证 | 144 |
痰热壅肺证 | 138 |
阴虚血瘀证 | 130 |
湿热阻络证 | 125 |
肝郁气滞证 | 123 |
湿热内蕴证 | 112 |
心血虚证 | 110 |
寒凝血瘀证 | 99 |
脾肾阳虚证 | 94 |
阳虚血瘀证 | 93 |
风寒湿痹证 | 92 |
瘀阻心脉证 | 91 |
肝郁血瘀证 | 90 |
肝阴不足证 | 89 |
痰瘀滞络证 | 88 |
气虚不摄证 | 80 |
正虚毒结证 | 78 |
气滞证 | 75 |
肝气犯胃证 | 73 |
心肾不交证 | 72 |
瘀血阻滞证 | 71 |
饮食积滞证 | 70 |
气血不足证 | 69 |
脾虚湿盛证 | 68 |
脾胃积热证 | 68 |
风热犯肺证 | 66 |
肾虚水泛证 | 66 |
心肺气虚证 | 65 |
肺肾气虚证 | 63 |
痰浊内蕴证 | 62 |
气虚痰结证 | 60 |
风寒阻络证 | 60 |
气血两虚证 | 54 |
痰湿内阻证 | 54 |
痰火扰心证 | 54 |
津亏热结证 | 53 |
风寒袭表证 | 52 |
肺卫不固证 | 48 |
寒湿阻络证 | 46 |
肝郁脾虚证 | 45 |
血虚风燥证 | 43 |
肾气虚证 | 40 |
阴虚津亏证 | 37 |
大肠湿热证 | 37 |
肝胆湿热证 | 36 |
脾虚湿蕴证 | 36 |
热毒炽盛证 | 36 |
气血瘀滞证 | 34 |
阴虚血热证 | 33 |
肾虚肝亢证 | 33 |
脾气虚证 | 33 |
阴虚风动证 | 33 |
痰浊中阻证 | 32 |
风寒湿阻证 | 30 |
中气下陷证 | 29 |
风热毒蕴证 | 28 |
肾虚寒凝证 | 28 |
风热袭表证 | 28 |
湿热蕴毒证 | 27 |
脾胃气虚证 | 27 |
风湿蕴肤证 | 27 |
风寒痹阻证 | 27 |
气虚证 | 27 |
阳虚寒凝证 | 26 |
痰湿证 | 26 |
中气不足证 | 26 |
气滞痰凝证 | 25 |
心虚胆怯证 | 25 |
气郁痰阻证 | 24 |
痰蒙清窍证 | 24 |
风热伤络证 | 23 |
痰蒙神窍证 | 22 |
风热血热证 | 22 |
肝胃气滞证 | 22 |
血虚证 | 22 |
痰浊上蒙证 | 21 |
髓海不足证 | 20 |
脾胃阳虚证 | 20 |
风湿热证 | 20 |
热毒蕴肤证 | 18 |
痰湿阻滞证 | 18 |
肝肾亏损证 | 18 |
外伤损络证 | 18 |
痰热内扰证 | 18 |
气不摄血证 | 18 |
瘀滞胞宫证 | 17 |
肝肾两虚证 | 17 |
心阳不振证 | 17 |
肠燥津伤证 | 16 |
脾肾气虚证 | 16 |
风热外袭证 | 16 |
气虚血溢证 | 14 |
肾不纳气证 | 14 |
气阴亏虚证 | 13 |
肺阴虚证 | 13 |
心脾两虚证 | 13 |
湿毒蕴结证 | 12 |
风痰闭窍证 | 12 |
湿热瘀滞证 | 12 |
阴虚湿热证 | 11 |
寒痰阻肺证 | 11 |
热毒壅结证 | 11 |
痰气交阻证 | 11 |
毒邪流窜证 | 10 |
风痰闭阻证 | 10 |
脾胃湿热证 | 10 |
肾阳虚证 | 9 |
瘀血内阻证 | 9 |
阳虚痰凝证 | 9 |
气血失调证 | 9 |
附录表二:SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况
疾病 | 样本数量 |
---|---|
咳嗽 | 14468 |
便秘 | 5395 |
失眠 | 4036 |
胃炎 | 3477 |
痛经 | 3252 |
高血压 | 2085 |
肝炎 | 1688 |
冠心病 | 1418 |
糖尿病 | 1143 |
肾炎 | 1072 |
紫癜 | 886 |
不孕症 | 814 |
痤疮 | 704 |
湿疹 | 612 |
胆囊炎 | 579 |
肝硬化 | 561 |
口腔溃疡 | 555 |
溃疡性结肠炎 | 535 |
呼吸道感染 | 492 |
心律失常 | 488 |
荨麻疹 | 465 |
鼻炎 | 450 |
前列腺炎 | 405 |
类风湿关节炎 | 398 |
盆腔炎 | 388 |
银屑病 | 385 |
子宫肌瘤 | 379 |
颈椎病 | 379 |
贫血 |

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
Kaggle - Digit Recognizer
该数据集包含手写数字(0-9)的图像数据,用于训练和测试数字识别模型。数据集包括训练集和测试集,训练集包含42000个样本,每个样本是一个28x28像素的灰度图像,以及对应的标签。测试集包含28000个样本,用于评估模型的性能。
www.kaggle.com 收录
中国1km分辨率逐月平均气温数据集(1901-2024)
该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录