five

Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集

收藏
huggingface2024-10-06 更新2024-12-12 收录
中医
自然语言处理
下载链接:
https://huggingface.co/datasets/SylvanL/Traditional-Chinese-Medicine-Dataset-SFT
下载链接
链接失效反馈
资源简介:
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
创建时间:
2024-10-02
原始信息汇总

中医数据集-预训练/指令微调

数据介绍

该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容,涵盖全面,配比均衡。数据集主要由非网络来源的内部数据构成,99%为简体中文内容,内容质量优异,信息密度可观。

数据用途

  • 仅适用于预训练或继续预训练用途。
  • 未来将继续发布针对SFT/IFT的多轮对话和问答数据集。

数据关联

  • 该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain中的内容高度关联,但不完全重叠。
  • 建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。

数据补充

  • 建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
  • 建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。

数据文件

文件名 数据细节 备注 是否有曾公开过
SFT_medicalKnowledge_source1_548404 包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息,涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对,质量极高。由"Qwen2.5-14B"进行本地处理QA切分,基于下文【附录四】内的提示词工程。 未进行minHash,且认为没有进行minHash的必要。 网络来源数据,内部处理校对。
SFT_medicalKnowledge_source2_99334 包含来自,不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释,同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建,质量极高。由"deepseek-chat"API进行本地处理QA化,基于"附录四"内的提示词工程。 已进行一次minHash(threshold=0.91596, num_perm=128),且认为没有进行二次minHash的必要。 内部数据,未曾面世。
SFT_medicalKnowledge_source3_556540 包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化,基于"附录四"内的提示词工程。 未进行minHash,且认为没有进行minHash的必要。 网络来源数据,内部处理校对。
SFT_nlpDiseaseDiagnosed_61486 包含61,486条来自高水平执业中医医生的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的疾病诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病,具体清单详见【附录表二】} 未进行minHash,且认为没有进行minHash的必要。 内部数据,未曾面世。
SFT_nlpSyndromeDiagnosed_48665 包含48,665条来自某知名教授的临床问诊记录,原内容为自然语言优质医案,包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑,质量极高。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型,具体清单详见【附录表一】} 未进行minHash,且认为没有进行minHash的必要。 内部数据,未曾面世。
SFT_structGeneral_310860 包含从某互联网医院数据库中获取的部分结构化医案(1,592,410条医案),去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你的证型诊断,无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断,具体构成详见【附录表三】} 已进行一次minHash(threshold=0.618, num_perm=128),可酌情进行二次minHash。 内部数据,未曾面世。
SFT_structPrescription_92896 包含92,896条从某中医院EMR系统中获得的部分归档医案,内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接,质量中规中矩。由规则直接生成,映射关系为:{instruction: 基于输入的患者医案记录,直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方} 未进行minHash,且认为没有进行minHash的必要。 内部数据,未曾面世。
外部数据集 _SFT_external_shuffledCOIGCQIA_44694 m-a-p/COIG-CQIA https://arxiv.org/html/2403.18058v1 网络来源数据,未经处理。
外部数据集 _SFT_external_shuffledCOIG_275985 BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条;11轮-13635条;9轮-12条;7轮-2条,结构格式与其他数据集不同,详见 dataset_info.json】 https://arxiv.org/abs/2304.07987 网络来源数据,未经处理。
外部数据集 _SFT_external_traditionalTrans_7304 古文/文言文<->现代文翻译数据。映射关系为:{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文} https://github.com/NiuTrans/Classical-Modern 网络来源数据,内部处理校对。

附录表一:SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况

证型 样本数量
气虚血瘀证 8303
湿热下注证 7843
气滞血瘀证 4791
风痰瘀阻证 3358
肝胃郁热证 2009
正虚瘀结证 1993
痰湿蕴肺证 1875
肝肾亏虚证 1457
热毒蕴结证 1292
脾肾两虚证 1022
气阴两虚证 860
湿热瘀阻证 622
肾虚证 593
肝胃不和证 546
风寒袭肺证 526
脾胃虚寒证 522
湿热蕴结证 520
阳虚水泛证 504
痰瘀痹阻证 477
心脉痹阻证 446
风痰上扰证 414
风寒外袭证 396
风痰入络证 344
瘀血阻络证 315
痰瘀互结证 309
阴虚阳亢证 299
痰浊蒙窍证 282
气血亏虚证 218
肝阳上亢证 209
痰湿蒙窍证 208
肝肾阴虚证 194
痰湿中阻证 185
阴虚火旺证 180
血瘀痰凝证 175
脾胃虚弱证 174
肝经湿热证 169
正虚毒瘀证 160
血热证 156
脾胃不和证 144
痰热壅肺证 138
阴虚血瘀证 130
湿热阻络证 125
肝郁气滞证 123
湿热内蕴证 112
心血虚证 110
寒凝血瘀证 99
脾肾阳虚证 94
阳虚血瘀证 93
风寒湿痹证 92
瘀阻心脉证 91
肝郁血瘀证 90
肝阴不足证 89
痰瘀滞络证 88
气虚不摄证 80
正虚毒结证 78
气滞证 75
肝气犯胃证 73
心肾不交证 72
瘀血阻滞证 71
饮食积滞证 70
气血不足证 69
脾虚湿盛证 68
脾胃积热证 68
风热犯肺证 66
肾虚水泛证 66
心肺气虚证 65
肺肾气虚证 63
痰浊内蕴证 62
气虚痰结证 60
风寒阻络证 60
气血两虚证 54
痰湿内阻证 54
痰火扰心证 54
津亏热结证 53
风寒袭表证 52
肺卫不固证 48
寒湿阻络证 46
肝郁脾虚证 45
血虚风燥证 43
肾气虚证 40
阴虚津亏证 37
大肠湿热证 37
肝胆湿热证 36
脾虚湿蕴证 36
热毒炽盛证 36
气血瘀滞证 34
阴虚血热证 33
肾虚肝亢证 33
脾气虚证 33
阴虚风动证 33
痰浊中阻证 32
风寒湿阻证 30
中气下陷证 29
风热毒蕴证 28
肾虚寒凝证 28
风热袭表证 28
湿热蕴毒证 27
脾胃气虚证 27
风湿蕴肤证 27
风寒痹阻证 27
气虚证 27
阳虚寒凝证 26
痰湿证 26
中气不足证 26
气滞痰凝证 25
心虚胆怯证 25
气郁痰阻证 24
痰蒙清窍证 24
风热伤络证 23
痰蒙神窍证 22
风热血热证 22
肝胃气滞证 22
血虚证 22
痰浊上蒙证 21
髓海不足证 20
脾胃阳虚证 20
风湿热证 20
热毒蕴肤证 18
痰湿阻滞证 18
肝肾亏损证 18
外伤损络证 18
痰热内扰证 18
气不摄血证 18
瘀滞胞宫证 17
肝肾两虚证 17
心阳不振证 17
肠燥津伤证 16
脾肾气虚证 16
风热外袭证 16
气虚血溢证 14
肾不纳气证 14
气阴亏虚证 13
肺阴虚证 13
心脾两虚证 13
湿毒蕴结证 12
风痰闭窍证 12
湿热瘀滞证 12
阴虚湿热证 11
寒痰阻肺证 11
热毒壅结证 11
痰气交阻证 11
毒邪流窜证 10
风痰闭阻证 10
脾胃湿热证 10
肾阳虚证 9
瘀血内阻证 9
阳虚痰凝证 9
气血失调证 9

附录表二:SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况

疾病 样本数量
咳嗽 14468
便秘 5395
失眠 4036
胃炎 3477
痛经 3252
高血压 2085
肝炎 1688
冠心病 1418
糖尿病 1143
肾炎 1072
紫癜 886
不孕症 814
痤疮 704
湿疹 612
胆囊炎 579
肝硬化 561
口腔溃疡 555
溃疡性结肠炎 535
呼吸道感染 492
心律失常 488
荨麻疹 465
鼻炎 450
前列腺炎 405
类风湿关节炎 398
盆腔炎 388
银屑病 385
子宫肌瘤 379
颈椎病 379
贫血
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程依托于大量非网络来源的高质量中医数据,涵盖了临床案例、名家典籍、医学百科等多个领域。数据源主要来自中国中医药信息查询平台、ICD-10术语、中医国标以及688本中医教材和著作。所有数据均经过人工校对和本地处理,通过提示词工程转化为问答对形式,确保了数据的准确性和信息密度。部分数据还进行了minHash处理以去除冗余,进一步提升了数据质量。
使用方法
该数据集的使用方法建议分为两个阶段:首先,使用配套的预训练数据集对模型进行继续预训练;其次,使用该数据集进行指令微调。由于数据集仅包含单轮对话,建议在训练时混入一定比例的中文常识和多轮对话数据,以避免灾难性遗忘。此外,针对中医领域的特殊性,可以酌情混入古文/文言文与现代文的翻译数据,以进一步提升模型的表现。数据集可直接通过LLamaFactory读取,并按照dataset_info.json中的信息进行加载。
背景与挑战
背景概述
Traditional-Chinese-Medicine-Dataset-SFT数据集是一个专注于中医领域的高质量数据集,旨在通过指令微调(SFT)提升大语言模型在中医知识问答任务中的表现。该数据集由SylvanL团队构建,主要数据来源于非网络渠道,包括中医临床案例、名家典籍、医学百科等,涵盖了广泛的中医知识领域。数据集的构建过程投入了大量人力和资源,确保了数据的高质量和信息密度。该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain数据集互为补充,建议在使用该数据集进行指令微调前,先使用预训练数据集进行模型继续预训练。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,中医领域的知识体系复杂且独特,涉及大量古文、术语和临床经验,如何将这些知识有效转化为机器可理解的问答对是一个难题。其次,数据集的构建依赖于大量人工校对和规则生成,确保数据的高质量和一致性需要耗费大量时间和资源。此外,中医知识的表达方式多样,如何避免模型在训练过程中出现灾难性遗忘,尤其是在面对多轮对话和常识性问题时,仍需进一步优化。最后,数据集的单轮对话特性限制了其在复杂医疗场景中的应用,如何扩展数据集以支持更复杂的医疗问答任务也是一个亟待解决的问题。
常用场景
经典使用场景
在中医领域的研究中,Traditional-Chinese-Medicine-Dataset-SFT数据集被广泛应用于中医知识的问答系统开发。该数据集通过提供高质量的中医临床案例、名家典籍和医学百科等内容,支持研究人员构建能够准确回答中医相关问题的智能系统。这些系统不仅能够帮助中医从业者快速获取专业知识,还能为患者提供初步的医疗咨询。
解决学术问题
该数据集解决了中医领域内知识获取和传播的难题。通过整合大量的中医临床数据和理论知识,研究人员能够利用这些数据进行深入的学术研究,如中医病症的自动诊断、中药方剂的推荐等。这不仅推动了中医现代化的发展,也为中医的国际化传播提供了数据支持。
实际应用
在实际应用中,Traditional-Chinese-Medicine-Dataset-SFT数据集被用于开发中医智能助手和在线咨询平台。这些应用能够根据用户输入的症状,提供初步的中医诊断建议和中药治疗方案,极大地提高了中医服务的可及性和效率。此外,该数据集还被用于教育领域,辅助中医学生和从业者进行学习和培训。
数据集最近研究
最新研究方向
近年来,随着人工智能在医疗领域的深入应用,中医数据集的研究方向逐渐聚焦于如何通过高质量的指令微调提升模型在中医诊断与治疗建议中的表现。Traditional-Chinese-Medicine-Dataset-SFT数据集凭借其丰富的中医临床案例、名家典籍及医学百科内容,为研究者提供了宝贵的资源。当前的研究热点包括如何通过多轮对话数据与古文翻译数据的结合,进一步提升模型对复杂中医术语的理解与生成能力。此外,该数据集在中医证型诊断与疾病诊断方面的广泛应用,也为中医智能化诊疗系统的开发提供了重要支持,推动了中医与现代科技的深度融合。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录