Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集
收藏中医数据集-预训练/指令微调
数据介绍
该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容,涵盖全面,配比均衡。数据集主要由非网络来源的内部数据构成,99%为简体中文内容,内容质量优异,信息密度可观。
数据用途
- 仅适用于预训练或继续预训练用途。
- 未来将继续发布针对SFT/IFT的多轮对话和问答数据集。
数据关联
- 该数据集与
SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain
中的内容高度关联,但不完全重叠。 - 建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。
数据补充
- 建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
- 建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。
数据文件
文件名 | 数据细节 | 备注 | 是否有曾公开过 |
---|---|---|---|
SFT_medicalKnowledge_source1_548404 | 包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息,涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对,质量极高。由"Qwen2.5-14B"进行本地处理QA切分,基于下文【附录四】内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
SFT_medicalKnowledge_source2_99334 | 包含来自,不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释,同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建,质量极高。由"deepseek-chat"API进行本地处理QA化,基于"附录四"内的提示词工程。 | 已进行一次minHash(threshold=0.91596, num_perm=128),且认为没有进行二次minHash的必要。 | 内部数据,未曾面世。 |
SFT_medicalKnowledge_source3_556540 | 包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化,基于"附录四"内的提示词工程。 | 未进行minHash,且认为没有进行minHash的必要。 | 网络来源数据,内部处理校对。 |
SFT_nlpDiseaseDiagnosed_61486 | 包含61,486条来自高水平执业中医医生的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的疾病诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病,具体清单详见【附录表二】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
SFT_nlpSyndromeDiagnosed_48665 | 包含48,665条来自某知名教授的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型,具体清单详见【附录表一】} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
SFT_structGeneral_310860 | 包含从某互联网医院数据库中获取的部分结构化医案(1,592,410条医案),去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断,具体构成详见【附录表三】} | 已进行一次minHash(threshold=0.618, num_perm=128),可酌情进行二次minHash。 | 内部数据,未曾面世。 |
SFT_structPrescription_92896 | 包含92,896条从某中医院EMR系统中获得的部分归档医案,内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方} | 未进行minHash,且认为没有进行minHash的必要。 | 内部数据,未曾面世。 |
外部数据集 _SFT_external_shuffledCOIGCQIA_44694 | m-a-p/COIG-CQIA | https://arxiv.org/html/2403.18058v1 | 网络来源数据,未经处理。 |
外部数据集 _SFT_external_shuffledCOIG_275985 | BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条;11轮-13635条;9轮-12条;7轮-2条,结构格式与其他数据集不同,详见 dataset_info.json】 | https://arxiv.org/abs/2304.07987 | 网络来源数据,未经处理。 |
外部数据集 _SFT_external_traditionalTrans_7304 | 古文/文言文<->现代文翻译数据。映射关系为:{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文} | https://github.com/NiuTrans/Classical-Modern | 网络来源数据,内部处理校对。 |
附录表一:SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况
证型 | 样本数量 |
---|---|
气虚血瘀证 | 8303 |
湿热下注证 | 7843 |
气滞血瘀证 | 4791 |
风痰瘀阻证 | 3358 |
肝胃郁热证 | 2009 |
正虚瘀结证 | 1993 |
痰湿蕴肺证 | 1875 |
肝肾亏虚证 | 1457 |
热毒蕴结证 | 1292 |
脾肾两虚证 | 1022 |
气阴两虚证 | 860 |
湿热瘀阻证 | 622 |
肾虚证 | 593 |
肝胃不和证 | 546 |
风寒袭肺证 | 526 |
脾胃虚寒证 | 522 |
湿热蕴结证 | 520 |
阳虚水泛证 | 504 |
痰瘀痹阻证 | 477 |
心脉痹阻证 | 446 |
风痰上扰证 | 414 |
风寒外袭证 | 396 |
风痰入络证 | 344 |
瘀血阻络证 | 315 |
痰瘀互结证 | 309 |
阴虚阳亢证 | 299 |
痰浊蒙窍证 | 282 |
气血亏虚证 | 218 |
肝阳上亢证 | 209 |
痰湿蒙窍证 | 208 |
肝肾阴虚证 | 194 |
痰湿中阻证 | 185 |
阴虚火旺证 | 180 |
血瘀痰凝证 | 175 |
脾胃虚弱证 | 174 |
肝经湿热证 | 169 |
正虚毒瘀证 | 160 |
血热证 | 156 |
脾胃不和证 | 144 |
痰热壅肺证 | 138 |
阴虚血瘀证 | 130 |
湿热阻络证 | 125 |
肝郁气滞证 | 123 |
湿热内蕴证 | 112 |
心血虚证 | 110 |
寒凝血瘀证 | 99 |
脾肾阳虚证 | 94 |
阳虚血瘀证 | 93 |
风寒湿痹证 | 92 |
瘀阻心脉证 | 91 |
肝郁血瘀证 | 90 |
肝阴不足证 | 89 |
痰瘀滞络证 | 88 |
气虚不摄证 | 80 |
正虚毒结证 | 78 |
气滞证 | 75 |
肝气犯胃证 | 73 |
心肾不交证 | 72 |
瘀血阻滞证 | 71 |
饮食积滞证 | 70 |
气血不足证 | 69 |
脾虚湿盛证 | 68 |
脾胃积热证 | 68 |
风热犯肺证 | 66 |
肾虚水泛证 | 66 |
心肺气虚证 | 65 |
肺肾气虚证 | 63 |
痰浊内蕴证 | 62 |
气虚痰结证 | 60 |
风寒阻络证 | 60 |
气血两虚证 | 54 |
痰湿内阻证 | 54 |
痰火扰心证 | 54 |
津亏热结证 | 53 |
风寒袭表证 | 52 |
肺卫不固证 | 48 |
寒湿阻络证 | 46 |
肝郁脾虚证 | 45 |
血虚风燥证 | 43 |
肾气虚证 | 40 |
阴虚津亏证 | 37 |
大肠湿热证 | 37 |
肝胆湿热证 | 36 |
脾虚湿蕴证 | 36 |
热毒炽盛证 | 36 |
气血瘀滞证 | 34 |
阴虚血热证 | 33 |
肾虚肝亢证 | 33 |
脾气虚证 | 33 |
阴虚风动证 | 33 |
痰浊中阻证 | 32 |
风寒湿阻证 | 30 |
中气下陷证 | 29 |
风热毒蕴证 | 28 |
肾虚寒凝证 | 28 |
风热袭表证 | 28 |
湿热蕴毒证 | 27 |
脾胃气虚证 | 27 |
风湿蕴肤证 | 27 |
风寒痹阻证 | 27 |
气虚证 | 27 |
阳虚寒凝证 | 26 |
痰湿证 | 26 |
中气不足证 | 26 |
气滞痰凝证 | 25 |
心虚胆怯证 | 25 |
气郁痰阻证 | 24 |
痰蒙清窍证 | 24 |
风热伤络证 | 23 |
痰蒙神窍证 | 22 |
风热血热证 | 22 |
肝胃气滞证 | 22 |
血虚证 | 22 |
痰浊上蒙证 | 21 |
髓海不足证 | 20 |
脾胃阳虚证 | 20 |
风湿热证 | 20 |
热毒蕴肤证 | 18 |
痰湿阻滞证 | 18 |
肝肾亏损证 | 18 |
外伤损络证 | 18 |
痰热内扰证 | 18 |
气不摄血证 | 18 |
瘀滞胞宫证 | 17 |
肝肾两虚证 | 17 |
心阳不振证 | 17 |
肠燥津伤证 | 16 |
脾肾气虚证 | 16 |
风热外袭证 | 16 |
气虚血溢证 | 14 |
肾不纳气证 | 14 |
气阴亏虚证 | 13 |
肺阴虚证 | 13 |
心脾两虚证 | 13 |
湿毒蕴结证 | 12 |
风痰闭窍证 | 12 |
湿热瘀滞证 | 12 |
阴虚湿热证 | 11 |
寒痰阻肺证 | 11 |
热毒壅结证 | 11 |
痰气交阻证 | 11 |
毒邪流窜证 | 10 |
风痰闭阻证 | 10 |
脾胃湿热证 | 10 |
肾阳虚证 | 9 |
瘀血内阻证 | 9 |
阳虚痰凝证 | 9 |
气血失调证 | 9 |
附录表二:SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况
疾病 | 样本数量 |
---|---|
咳嗽 | 14468 |
便秘 | 5395 |
失眠 | 4036 |
胃炎 | 3477 |
痛经 | 3252 |
高血压 | 2085 |
肝炎 | 1688 |
冠心病 | 1418 |
糖尿病 | 1143 |
肾炎 | 1072 |
紫癜 | 886 |
不孕症 | 814 |
痤疮 | 704 |
湿疹 | 612 |
胆囊炎 | 579 |
肝硬化 | 561 |
口腔溃疡 | 555 |
溃疡性结肠炎 | 535 |
呼吸道感染 | 492 |
心律失常 | 488 |
荨麻疹 | 465 |
鼻炎 | 450 |
前列腺炎 | 405 |
类风湿关节炎 | 398 |
盆腔炎 | 388 |
银屑病 | 385 |
子宫肌瘤 | 379 |
颈椎病 | 379 |
贫血 |

Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录