Traditional-Chinese-Medicine-Dataset-SFT
收藏Hugging Face2024-10-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/SylvanL/Traditional-Chinese-Medicine-Dataset-SFT
下载链接
链接失效反馈资源简介:
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
This is a high-quality Traditional Chinese Medicine (TCM) dataset, mainly composed of internal data from non-web sources. It contains approximately 1GB of high-quality content covering various TCM fields, including clinical cases, classic works by renowned practitioners, medical encyclopedias, term explanations, and more. 99% of the dataset is in Simplified Chinese, with excellent quality and considerable information density. This dataset is suitable for pre-training or continued pre-training, and multi-turn dialogue and question-answering datasets for SFT/IFT will be released in the future. The dataset can be used independently, but it is recommended to first use the supporting pre-training dataset for continued pre-training of the model before using this dataset for further instruction fine-tuning. Additionally, the dataset includes a certain proportion of Chinese common sense data, Chinese multi-turn dialogue data, and classical Chinese (ancient prose/written classical Chinese) to modern Chinese translation data, to avoid catastrophic forgetting and enhance model performance.
创建时间:
2024-10-02
原始信息汇总
中医数据集-预训练/指令微调
数据介绍
该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容,涵盖全面,配比均衡。数据集主要由非网络来源的内部数据构成,99%为简体中文内容,内容质量优异,信息密度可观。
数据用途
- 仅适用于预训练或继续预训练用途。
- 未来将继续发布针对SFT/IFT的多轮对话和问答数据集。
数据关联
- 该数据集与
SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain中的内容高度关联,但不完全重叠。 - 建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。
数据补充
- 建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
- 建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。
数据文件
| 文件名 | 数据细节 | 备注 | 是否有曾公开过 |
|---|---|---|---|
| SFT_medicalKnowledge_source1_548404 | 包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息,涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对,质量极高。由"Qwen2.5-14B"进行本地处理QA切分,基于下文【附录四】内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
| SFT_medicalKnowledge_source2_99334 | 包含来自,不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释,同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建,质量极高。由"deepseek-chat"API进行本地处理QA化,基于"附录四"内的提示词工程。 | 已进行一次minHash(threshold=0.91596, num_perm=128),且认为没有进行二次minHash的必要。 | 内部数据,未曾面世。 |
| SFT_medicalKnowledge_source3_556540 | 包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化,基于"附录四"内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
| SFT_nlpDiseaseDiagnosed_61486 | 包含61,486条来自高水平执业中医医生的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的疾病诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病,具体清单详见【附录表二】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
| SFT_nlpSyndromeDiagnosed_48665 | 包含48,665条来自某知名教授的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型,具体清单详见【附录表一】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
| SFT_structGeneral_310860 | 包含从某互联网医院数据库中获取的部分结构化医案(1,592,410条医案),去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断,具体构成详见【附录表三】} | 已进行一次minHash(threshold=0.618, num_perm=128),可酌情进行二次minHash。 | 内部数据,未曾面世。 |
| SFT_structPrescription_92896 | 包含92,896条从某中医院EMR系统中获得的部分归档医案,内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
| 外部数据集 _SFT_external_shuffledCOIGCQIA_44694 | m-a-p/COIG-CQIA | https://arxiv.org/html/2403.18058v1 | 网络来源数据,未经处理。 |
| 外部数据集 _SFT_external_shuffledCOIG_275985 | BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条;11轮-13635条;9轮-12条;7轮-2条,结构格式与其他数据集不同,详见 dataset_info.json】 | https://arxiv.org/abs/2304.07987 | 网络来源数据,未经处理。 |
| 外部数据集 _SFT_external_traditionalTrans_7304 | 古文/文言文<->现代文翻译数据。映射关系为:{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文} | https://github.com/NiuTrans/Classical-Modern | 网络来源数据,内部处理校对。 |
附录表一:SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况
| 证型 | 样本数量 |
|---|---|
| 气虚血瘀证 | 8303 |
| 湿热下注证 | 7843 |
| 气滞血瘀证 | 4791 |
| 风痰瘀阻证 | 3358 |
| 肝胃郁热证 | 2009 |
| 正虚瘀结证 | 1993 |
| 痰湿蕴肺证 | 1875 |
| 肝肾亏虚证 | 1457 |
| 热毒蕴结证 | 1292 |
| 脾肾两虚证 | 1022 |
| 气阴两虚证 | 860 |
| 湿热瘀阻证 | 622 |
| 肾虚证 | 593 |
| 肝胃不和证 | 546 |
| 风寒袭肺证 | 526 |
| 脾胃虚寒证 | 522 |
| 湿热蕴结证 | 520 |
| 阳虚水泛证 | 504 |
| 痰瘀痹阻证 | 477 |
| 心脉痹阻证 | 446 |
| 风痰上扰证 | 414 |
| 风寒外袭证 | 396 |
| 风痰入络证 | 344 |
| 瘀血阻络证 | 315 |
| 痰瘀互结证 | 309 |
| 阴虚阳亢证 | 299 |
| 痰浊蒙窍证 | 282 |
| 气血亏虚证 | 218 |
| 肝阳上亢证 | 209 |
| 痰湿蒙窍证 | 208 |
| 肝肾阴虚证 | 194 |
| 痰湿中阻证 | 185 |
| 阴虚火旺证 | 180 |
| 血瘀痰凝证 | 175 |
| 脾胃虚弱证 | 174 |
| 肝经湿热证 | 169 |
| 正虚毒瘀证 | 160 |
| 血热证 | 156 |
| 脾胃不和证 | 144 |
| 痰热壅肺证 | 138 |
| 阴虚血瘀证 | 130 |
| 湿热阻络证 | 125 |
| 肝郁气滞证 | 123 |
| 湿热内蕴证 | 112 |
| 心血虚证 | 110 |
| 寒凝血瘀证 | 99 |
| 脾肾阳虚证 | 94 |
| 阳虚血瘀证 | 93 |
| 风寒湿痹证 | 92 |
| 瘀阻心脉证 | 91 |
| 肝郁血瘀证 | 90 |
| 肝阴不足证 | 89 |
| 痰瘀滞络证 | 88 |
| 气虚不摄证 | 80 |
| 正虚毒结证 | 78 |
| 气滞证 | 75 |
| 肝气犯胃证 | 73 |
| 心肾不交证 | 72 |
| 瘀血阻滞证 | 71 |
| 饮食积滞证 | 70 |
| 气血不足证 | 69 |
| 脾虚湿盛证 | 68 |
| 脾胃积热证 | 68 |
| 风热犯肺证 | 66 |
| 肾虚水泛证 | 66 |
| 心肺气虚证 | 65 |
| 肺肾气虚证 | 63 |
| 痰浊内蕴证 | 62 |
| 气虚痰结证 | 60 |
| 风寒阻络证 | 60 |
| 气血两虚证 | 54 |
| 痰湿内阻证 | 54 |
| 痰火扰心证 | 54 |
| 津亏热结证 | 53 |
| 风寒袭表证 | 52 |
| 肺卫不固证 | 48 |
| 寒湿阻络证 | 46 |
| 肝郁脾虚证 | 45 |
| 血虚风燥证 | 43 |
| 肾气虚证 | 40 |
| 阴虚津亏证 | 37 |
| 大肠湿热证 | 37 |
| 肝胆湿热证 | 36 |
| 脾虚湿蕴证 | 36 |
| 热毒炽盛证 | 36 |
| 气血瘀滞证 | 34 |
| 阴虚血热证 | 33 |
| 肾虚肝亢证 | 33 |
| 脾气虚证 | 33 |
| 阴虚风动证 | 33 |
| 痰浊中阻证 | 32 |
| 风寒湿阻证 | 30 |
| 中气下陷证 | 29 |
| 风热毒蕴证 | 28 |
| 肾虚寒凝证 | 28 |
| 风热袭表证 | 28 |
| 湿热蕴毒证 | 27 |
| 脾胃气虚证 | 27 |
| 风湿蕴肤证 | 27 |
| 风寒痹阻证 | 27 |
| 气虚证 | 27 |
| 阳虚寒凝证 | 26 |
| 痰湿证 | 26 |
| 中气不足证 | 26 |
| 气滞痰凝证 | 25 |
| 心虚胆怯证 | 25 |
| 气郁痰阻证 | 24 |
| 痰蒙清窍证 | 24 |
| 风热伤络证 | 23 |
| 痰蒙神窍证 | 22 |
| 风热血热证 | 22 |
| 肝胃气滞证 | 22 |
| 血虚证 | 22 |
| 痰浊上蒙证 | 21 |
| 髓海不足证 | 20 |
| 脾胃阳虚证 | 20 |
| 风湿热证 | 20 |
| 热毒蕴肤证 | 18 |
| 痰湿阻滞证 | 18 |
| 肝肾亏损证 | 18 |
| 外伤损络证 | 18 |
| 痰热内扰证 | 18 |
| 气不摄血证 | 18 |
| 瘀滞胞宫证 | 17 |
| 肝肾两虚证 | 17 |
| 心阳不振证 | 17 |
| 肠燥津伤证 | 16 |
| 脾肾气虚证 | 16 |
| 风热外袭证 | 16 |
| 气虚血溢证 | 14 |
| 肾不纳气证 | 14 |
| 气阴亏虚证 | 13 |
| 肺阴虚证 | 13 |
| 心脾两虚证 | 13 |
| 湿毒蕴结证 | 12 |
| 风痰闭窍证 | 12 |
| 湿热瘀滞证 | 12 |
| 阴虚湿热证 | 11 |
| 寒痰阻肺证 | 11 |
| 热毒壅结证 | 11 |
| 痰气交阻证 | 11 |
| 毒邪流窜证 | 10 |
| 风痰闭阻证 | 10 |
| 脾胃湿热证 | 10 |
| 肾阳虚证 | 9 |
| 瘀血内阻证 | 9 |
| 阳虚痰凝证 | 9 |
| 气血失调证 | 9 |
附录表二:SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况
| 疾病 | 样本数量 |
|---|---|
| 咳嗽 | 14468 |
| 便秘 | 5395 |
| 失眠 | 4036 |
| 胃炎 | 3477 |
| 痛经 | 3252 |
| 高血压 | 2085 |
| 肝炎 | 1688 |
| 冠心病 | 1418 |
| 糖尿病 | 1143 |
| 肾炎 | 1072 |
| 紫癜 | 886 |
| 不孕症 | 814 |
| 痤疮 | 704 |
| 湿疹 | 612 |
| 胆囊炎 | 579 |
| 肝硬化 | 561 |
| 口腔溃疡 | 555 |
| 溃疡性结肠炎 | 535 |
| 呼吸道感染 | 492 |
| 心律失常 | 488 |
| 荨麻疹 | 465 |
| 鼻炎 | 450 |
| 前列腺炎 | 405 |
| 类风湿关节炎 | 398 |
| 盆腔炎 | 388 |
| 银屑病 | 385 |
| 子宫肌瘤 | 379 |
| 颈椎病 | 379 |
| 贫血 |
AI搜集汇总
数据集介绍

构建方式
该数据集的构建过程依托于大量非网络来源的高质量中医数据,涵盖了临床案例、名家典籍、医学百科等多个领域。数据源主要来自中国中医药信息查询平台、ICD-10术语、中医国标以及688本中医教材和著作。所有数据均经过人工校对和本地处理,通过提示词工程转化为问答对形式,确保了数据的准确性和信息密度。部分数据还进行了minHash处理以去除冗余,进一步提升了数据质量。
使用方法
该数据集的使用方法建议分为两个阶段:首先,使用配套的预训练数据集对模型进行继续预训练;其次,使用该数据集进行指令微调。由于数据集仅包含单轮对话,建议在训练时混入一定比例的中文常识和多轮对话数据,以避免灾难性遗忘。此外,针对中医领域的特殊性,可以酌情混入古文/文言文与现代文的翻译数据,以进一步提升模型的表现。数据集可直接通过LLamaFactory读取,并按照dataset_info.json中的信息进行加载。
背景与挑战
背景概述
Traditional-Chinese-Medicine-Dataset-SFT数据集是一个专注于中医领域的高质量数据集,旨在通过指令微调(SFT)提升大语言模型在中医知识问答任务中的表现。该数据集由SylvanL团队构建,主要数据来源于非网络渠道,包括中医临床案例、名家典籍、医学百科等,涵盖了广泛的中医知识领域。数据集的构建过程投入了大量人力和资源,确保了数据的高质量和信息密度。该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain数据集互为补充,建议在使用该数据集进行指令微调前,先使用预训练数据集进行模型继续预训练。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,中医领域的知识体系复杂且独特,涉及大量古文、术语和临床经验,如何将这些知识有效转化为机器可理解的问答对是一个难题。其次,数据集的构建依赖于大量人工校对和规则生成,确保数据的高质量和一致性需要耗费大量时间和资源。此外,中医知识的表达方式多样,如何避免模型在训练过程中出现灾难性遗忘,尤其是在面对多轮对话和常识性问题时,仍需进一步优化。最后,数据集的单轮对话特性限制了其在复杂医疗场景中的应用,如何扩展数据集以支持更复杂的医疗问答任务也是一个亟待解决的问题。
常用场景
经典使用场景
在中医领域的研究中,Traditional-Chinese-Medicine-Dataset-SFT数据集被广泛应用于中医知识的问答系统开发。该数据集通过提供高质量的中医临床案例、名家典籍和医学百科等内容,支持研究人员构建能够准确回答中医相关问题的智能系统。这些系统不仅能够帮助中医从业者快速获取专业知识,还能为患者提供初步的医疗咨询。
解决学术问题
该数据集解决了中医领域内知识获取和传播的难题。通过整合大量的中医临床数据和理论知识,研究人员能够利用这些数据进行深入的学术研究,如中医病症的自动诊断、中药方剂的推荐等。这不仅推动了中医现代化的发展,也为中医的国际化传播提供了数据支持。
实际应用
在实际应用中,Traditional-Chinese-Medicine-Dataset-SFT数据集被用于开发中医智能助手和在线咨询平台。这些应用能够根据用户输入的症状,提供初步的中医诊断建议和中药治疗方案,极大地提高了中医服务的可及性和效率。此外,该数据集还被用于教育领域,辅助中医学生和从业者进行学习和培训。
数据集最近研究
最新研究方向
近年来,随着人工智能在医疗领域的深入应用,中医数据集的研究方向逐渐聚焦于如何通过高质量的指令微调提升模型在中医诊断与治疗建议中的表现。Traditional-Chinese-Medicine-Dataset-SFT数据集凭借其丰富的中医临床案例、名家典籍及医学百科内容,为研究者提供了宝贵的资源。当前的研究热点包括如何通过多轮对话数据与古文翻译数据的结合,进一步提升模型对复杂中医术语的理解与生成能力。此外,该数据集在中医证型诊断与疾病诊断方面的广泛应用,也为中医智能化诊疗系统的开发提供了重要支持,推动了中医与现代科技的深度融合。
以上内容由AI搜集并总结生成



