Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集

huggingface2024-10-06 更新2024-12-12 收录

中医

自然语言处理

下载链接：

https://huggingface.co/datasets/SylvanL/Traditional-Chinese-Medicine-Dataset-SFT

下载链接

链接失效反馈

资源简介：

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

创建时间：

2024-10-02

原始信息汇总

中医数据集-预训练/指令微调

数据介绍

该数据集包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容，涵盖全面，配比均衡。数据集主要由非网络来源的内部数据构成，99%为简体中文内容，内容质量优异，信息密度可观。

数据用途

仅适用于预训练或继续预训练用途。
未来将继续发布针对SFT/IFT的多轮对话和问答数据集。

数据关联

该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain中的内容高度关联，但不完全重叠。
建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。

数据补充

建议在训练时混入一定比例的【中文常识、中文多轮对话数据】来避免灾难性遗忘。
建议酌情混入一定比例的【古文/文言文<->现代文翻译数据】以进一步加强模型表现。

数据文件

文件名	数据细节	备注	是否有曾公开过
SFT_medicalKnowledge_source1_548404	包含来自"中国中医药信息查询平台"数据库的17,921条结构化信息，涵盖疾病、症状、医疗美容、药品、中药材、保健品、方剂、药膳食疗、针灸穴位、术语等的百科词条。原始内容全部经过人工校对，质量极高。由"Qwen2.5-14B"进行本地处理QA切分，基于下文【附录四】内的提示词工程。	未进行minHash，且认为没有进行minHash的必要。	网络来源数据，内部处理校对。
SFT_medicalKnowledge_source2_99334	包含来自，不限于ICD-10术语和中医国标所囊括的病症与术语的12,889条相关解释，同时涵盖常见方剂、中药材、针灸配穴等各种中医术语和名词的详细解释。原始内容全部经由人工构建，质量极高。由"deepseek-chat"API进行本地处理QA化，基于"附录四"内的提示词工程。	已进行一次minHash(threshold=0.91596, num_perm=128)，且认为没有进行二次minHash的必要。	内部数据，未曾面世。
SFT_medicalKnowledge_source3_556540	包含来自688本中医领域常用教材、著作、典籍的146244条书本内容。从pdf、word、图片、html以及chm等原始文件格式整理出。具体书录详见【SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain 附录一】。由"DeepSeek-V2-Lite-Chat"进行本地处理QA化，基于"附录四"内的提示词工程。	未进行minHash，且认为没有进行minHash的必要。	网络来源数据，内部处理校对。
SFT_nlpDiseaseDiagnosed_61486	包含61,486条来自高水平执业中医医生的临床问诊记录，原内容为自然语言优质医案，包含患者问诊引导、病症、主诉、诊断、方剂、中药等处方笺必备内容。内容完全由人工编辑，质量极高。由规则直接生成，映射关系为：{instruction: 基于输入的患者医案记录，直接给出你的疾病诊断，无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的疾病，具体清单详见【附录表二】}	未进行minHash，且认为没有进行minHash的必要。	内部数据，未曾面世。
SFT_nlpSyndromeDiagnosed_48665	包含48,665条来自某知名教授的临床问诊记录，原内容为自然语言优质医案，包含患者问诊引导、病症、主诉、诊断、证型、方剂、中药等处方笺必备内容。内容完全由人工编辑，质量极高。由规则直接生成，映射关系为：{instruction: 基于输入的患者医案记录，直接给出你的证型诊断，无需给出原因。,input: 自然语言的患者病历记录, output: 诊断的证型，具体清单详见【附录表一】}	未进行minHash，且认为没有进行minHash的必要。	内部数据，未曾面世。
SFT_structGeneral_310860	包含从某互联网医院数据库中获取的部分结构化医案（1,592,410条医案），去重处理后剩余310,860条。内容源头由医生线上问诊时由本人/学生点选或键入。内容由规则联表拼接，质量中规中矩。由规则直接生成，映射关系为：{instruction: 基于输入的患者医案记录，直接给出你的证型诊断，无需给出原因。,input: 半结构化的患者病历记录, output: 半结构化的通用诊断，具体构成详见【附录表三】}	已进行一次minHash(threshold=0.618, num_perm=128)，可酌情进行二次minHash。	内部数据，未曾面世。
SFT_structPrescription_92896	包含92,896条从某中医院EMR系统中获得的部分归档医案，内容源头由医生线下问诊时由本人/学生点选或键入。内容由规则联表拼接，质量中规中矩。由规则直接生成，映射关系为：{instruction: 基于输入的患者医案记录，直接给出你认为的方剂中药组成。,input: 半结构化的患者病历记录, output: 半结构化的最终开具处方}	未进行minHash，且认为没有进行minHash的必要。	内部数据，未曾面世。
外部数据集 _SFT_external_shuffledCOIGCQIA_44694	m-a-p/COIG-CQIA	https://arxiv.org/html/2403.18058v1	网络来源数据，未经处理。
外部数据集 _SFT_external_shuffledCOIG_275985	BAAI/COIG 【此数据集为多轮对话数据集3轮-262336条；11轮-13635条；9轮-12条；7轮-2条，结构格式与其他数据集不同，详见 dataset_info.json】	https://arxiv.org/abs/2304.07987	网络来源数据，未经处理。
外部数据集 _SFT_external_traditionalTrans_7304	古文/文言文<->现代文翻译数据。映射关系为：{instruction: 将输入的文言文/古文翻译成现代文。,input: 古文/文言文, output: 现代文}	https://github.com/NiuTrans/Classical-Modern	网络来源数据，内部处理校对。

附录表一：SFT_nlpSyndromeDiagnosed_48665 证型诊断样本分布情况

证型	样本数量
气虚血瘀证	8303
湿热下注证	7843
气滞血瘀证	4791
风痰瘀阻证	3358
肝胃郁热证	2009
正虚瘀结证	1993
痰湿蕴肺证	1875
肝肾亏虚证	1457
热毒蕴结证	1292
脾肾两虚证	1022
气阴两虚证	860
湿热瘀阻证	622
肾虚证	593
肝胃不和证	546
风寒袭肺证	526
脾胃虚寒证	522
湿热蕴结证	520
阳虚水泛证	504
痰瘀痹阻证	477
心脉痹阻证	446
风痰上扰证	414
风寒外袭证	396
风痰入络证	344
瘀血阻络证	315
痰瘀互结证	309
阴虚阳亢证	299
痰浊蒙窍证	282
气血亏虚证	218
肝阳上亢证	209
痰湿蒙窍证	208
肝肾阴虚证	194
痰湿中阻证	185
阴虚火旺证	180
血瘀痰凝证	175
脾胃虚弱证	174
肝经湿热证	169
正虚毒瘀证	160
血热证	156
脾胃不和证	144
痰热壅肺证	138
阴虚血瘀证	130
湿热阻络证	125
肝郁气滞证	123
湿热内蕴证	112
心血虚证	110
寒凝血瘀证	99
脾肾阳虚证	94
阳虚血瘀证	93
风寒湿痹证	92
瘀阻心脉证	91
肝郁血瘀证	90
肝阴不足证	89
痰瘀滞络证	88
气虚不摄证	80
正虚毒结证	78
气滞证	75
肝气犯胃证	73
心肾不交证	72
瘀血阻滞证	71
饮食积滞证	70
气血不足证	69
脾虚湿盛证	68
脾胃积热证	68
风热犯肺证	66
肾虚水泛证	66
心肺气虚证	65
肺肾气虚证	63
痰浊内蕴证	62
气虚痰结证	60
风寒阻络证	60
气血两虚证	54
痰湿内阻证	54
痰火扰心证	54
津亏热结证	53
风寒袭表证	52
肺卫不固证	48
寒湿阻络证	46
肝郁脾虚证	45
血虚风燥证	43
肾气虚证	40
阴虚津亏证	37
大肠湿热证	37
肝胆湿热证	36
脾虚湿蕴证	36
热毒炽盛证	36
气血瘀滞证	34
阴虚血热证	33
肾虚肝亢证	33
脾气虚证	33
阴虚风动证	33
痰浊中阻证	32
风寒湿阻证	30
中气下陷证	29
风热毒蕴证	28
肾虚寒凝证	28
风热袭表证	28
湿热蕴毒证	27
脾胃气虚证	27
风湿蕴肤证	27
风寒痹阻证	27
气虚证	27
阳虚寒凝证	26
痰湿证	26
中气不足证	26
气滞痰凝证	25
心虚胆怯证	25
气郁痰阻证	24
痰蒙清窍证	24
风热伤络证	23
痰蒙神窍证	22
风热血热证	22
肝胃气滞证	22
血虚证	22
痰浊上蒙证	21
髓海不足证	20
脾胃阳虚证	20
风湿热证	20
热毒蕴肤证	18
痰湿阻滞证	18
肝肾亏损证	18
外伤损络证	18
痰热内扰证	18
气不摄血证	18
瘀滞胞宫证	17
肝肾两虚证	17
心阳不振证	17
肠燥津伤证	16
脾肾气虚证	16
风热外袭证	16
气虚血溢证	14
肾不纳气证	14
气阴亏虚证	13
肺阴虚证	13
心脾两虚证	13
湿毒蕴结证	12
风痰闭窍证	12
湿热瘀滞证	12
阴虚湿热证	11
寒痰阻肺证	11
热毒壅结证	11
痰气交阻证	11
毒邪流窜证	10
风痰闭阻证	10
脾胃湿热证	10
肾阳虚证	9
瘀血内阻证	9
阳虚痰凝证	9
气血失调证	9

附录表二：SFT_nlpDiseaseDiagnosed_61486 疾病诊断样本分布情况

疾病	样本数量
咳嗽	14468
便秘	5395
失眠	4036
胃炎	3477
痛经	3252
高血压	2085
肝炎	1688
冠心病	1418
糖尿病	1143
肾炎	1072
紫癜	886
不孕症	814
痤疮	704
湿疹	612
胆囊炎	579
肝硬化	561
口腔溃疡	555
溃疡性结肠炎	535
呼吸道感染	492
心律失常	488
荨麻疹	465
鼻炎	450
前列腺炎	405
类风湿关节炎	398
盆腔炎	388
银屑病	385
子宫肌瘤	379
颈椎病	379
贫血

AI搜集汇总

数据集介绍

构建方式

该数据集的构建过程依托于大量非网络来源的高质量中医数据，涵盖了临床案例、名家典籍、医学百科等多个领域。数据源主要来自中国中医药信息查询平台、ICD-10术语、中医国标以及688本中医教材和著作。所有数据均经过人工校对和本地处理，通过提示词工程转化为问答对形式，确保了数据的准确性和信息密度。部分数据还进行了minHash处理以去除冗余，进一步提升了数据质量。

使用方法

该数据集的使用方法建议分为两个阶段：首先，使用配套的预训练数据集对模型进行继续预训练；其次，使用该数据集进行指令微调。由于数据集仅包含单轮对话，建议在训练时混入一定比例的中文常识和多轮对话数据，以避免灾难性遗忘。此外，针对中医领域的特殊性，可以酌情混入古文/文言文与现代文的翻译数据，以进一步提升模型的表现。数据集可直接通过LLamaFactory读取，并按照dataset_info.json中的信息进行加载。

背景与挑战

背景概述

Traditional-Chinese-Medicine-Dataset-SFT数据集是一个专注于中医领域的高质量数据集，旨在通过指令微调（SFT）提升大语言模型在中医知识问答任务中的表现。该数据集由SylvanL团队构建，主要数据来源于非网络渠道，包括中医临床案例、名家典籍、医学百科等，涵盖了广泛的中医知识领域。数据集的构建过程投入了大量人力和资源，确保了数据的高质量和信息密度。该数据集与SylvanL/Traditional-Chinese-Medicine-Dataset-Pretrain数据集互为补充，建议在使用该数据集进行指令微调前，先使用预训练数据集进行模型继续预训练。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，中医领域的知识体系复杂且独特，涉及大量古文、术语和临床经验，如何将这些知识有效转化为机器可理解的问答对是一个难题。其次，数据集的构建依赖于大量人工校对和规则生成，确保数据的高质量和一致性需要耗费大量时间和资源。此外，中医知识的表达方式多样，如何避免模型在训练过程中出现灾难性遗忘，尤其是在面对多轮对话和常识性问题时，仍需进一步优化。最后，数据集的单轮对话特性限制了其在复杂医疗场景中的应用，如何扩展数据集以支持更复杂的医疗问答任务也是一个亟待解决的问题。

常用场景

经典使用场景

在中医领域的研究中，Traditional-Chinese-Medicine-Dataset-SFT数据集被广泛应用于中医知识的问答系统开发。该数据集通过提供高质量的中医临床案例、名家典籍和医学百科等内容，支持研究人员构建能够准确回答中医相关问题的智能系统。这些系统不仅能够帮助中医从业者快速获取专业知识，还能为患者提供初步的医疗咨询。

解决学术问题

该数据集解决了中医领域内知识获取和传播的难题。通过整合大量的中医临床数据和理论知识，研究人员能够利用这些数据进行深入的学术研究，如中医病症的自动诊断、中药方剂的推荐等。这不仅推动了中医现代化的发展，也为中医的国际化传播提供了数据支持。

实际应用

在实际应用中，Traditional-Chinese-Medicine-Dataset-SFT数据集被用于开发中医智能助手和在线咨询平台。这些应用能够根据用户输入的症状，提供初步的中医诊断建议和中药治疗方案，极大地提高了中医服务的可及性和效率。此外，该数据集还被用于教育领域，辅助中医学生和从业者进行学习和培训。

数据集最近研究

最新研究方向

近年来，随着人工智能在医疗领域的深入应用，中医数据集的研究方向逐渐聚焦于如何通过高质量的指令微调提升模型在中医诊断与治疗建议中的表现。Traditional-Chinese-Medicine-Dataset-SFT数据集凭借其丰富的中医临床案例、名家典籍及医学百科内容，为研究者提供了宝贵的资源。当前的研究热点包括如何通过多轮对话数据与古文翻译数据的结合，进一步提升模型对复杂中医术语的理解与生成能力。此外，该数据集在中医证型诊断与疾病诊断方面的广泛应用，也为中医智能化诊疗系统的开发提供了重要支持，推动了中医与现代科技的深度融合。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

Kaggle - Digit Recognizer

该数据集包含手写数字（0-9）的图像数据，用于训练和测试数字识别模型。数据集包括训练集和测试集，训练集包含42000个样本，每个样本是一个28x28像素的灰度图像，以及对应的标签。测试集包含28000个样本，用于评估模型的性能。

www.kaggle.com 收录

中国1km分辨率逐月平均气温数据集（1901-2024）

该数据为中国逐月平均温度数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center，格式包括Fortran (.DAT)和JSON，数据集大小为81MB（压缩）和450MB（未压缩），记录数约750,000条，每日更新。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。