Monor/hwtcm
收藏Hugging Face2024-07-05 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Monor/hwtcm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集可用于评估大型语言模型(LLM)在传统中医领域的能力,包含多选题、单选题和判断题。数据集提供了每种题型的示例,并展示了不同模型在这些题型上的准确率。此外,还提到了一个正在训练中的中医领域的大型语言模型Canggong-14b-chat。
This dataset can be used to evaluate the traditional Chinese medicine capabilities of LLM and contains multiple-choice, multiple-answers and true/false questions. The dataset provides examples for each type of question and shows the accuracy of different models on these question types. Additionally, it mentions a large language model in the field of traditional Chinese medicine, Canggong-14b-chat, which is still in training.
提供机构:
Monor
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 问答
- 语言: 中文
- 标签: 医疗, 中医, 传统中医, 评估, 基准测试, 测试
数据集描述
该数据集用于评估大型语言模型(LLM)在传统中医方面的能力,包含多选题、多答案题和判断题。
数据示例
多答案题
json [ { "instruction": "请阅读以下中医评级考试多项选择题,并选出最合适的答案。", "input": "便秘的预防调护应注意 A.保持心情舒畅 B.少吃辛辣刺激性食物 C.适当摄入油脂 D.积极治疗肛门直肠疾病 E.按时登厕", "output": "ABCDE" } ]
单选题
json [ { "instruction": "以下是关于中医考试的选择题,请认真作答并选出正确答案。", "input": "患者,男,50岁。眩晕欲仆,头摇而痛,项强肢颤,腰膝疫软,舌红苔薄白,脉弦有力。其病机是 A.肝阳上亢 B.肝肾阴虚 C.肝阳化风 D.阴虚风动 E.肝血不足", "output": "C" } ]
判断题
json [ { "instruction": "请仔细阅读以下中医学测验判断题,随后进行正确判断。", "input": "秦医医和提出了“六气病源说”。", "output": "正确" }, { "instruction": "下面是中医学考试的判断题,请认真阅读并作出正确判断。", "input": "中风中经络邪盛时也可出现神志改变", "output": "错误" } ]
模型准确率基准测试
| 模型名称 | 单选题准确率 | 多答案题准确率 | 判断题准确率 |
|---|---|---|---|
| llama3:8b | 21.94% | 17.71% | 46.56% |
| phi3:14b-instruct | 26.93% | 1.04% | 38.93% |
| aya:8b | 17.85% | 1.04% | 34.35% |
| mistral:7b-instruct | 21.76% | 2.08% | 48.09% |
| qwen1.5-7b-chat | 51.35% | 13.54% | 46.56% |
| qwen1.5-14b-chat | 69.94% | 78.12% | 31.30% |
| huangdi-13b-chat | 21.73% | 45.83% | 0.00% |
| canggong-14b-chat(SFT) | 55.98% | 4.17% | 23.66% |
| canggong-14b-chat(DPO) | 72.33% | 2.08% | 45.80% |
搜集汇总
数据集介绍

构建方式
Monor/hwtcm数据集的构建旨在评估大型语言模型在中医领域的问答能力,其内容涵盖了多选题、单选题以及判断题等多种题型。该数据集的构建通过收集和整理传统中医领域的专业知识,形成了一系列结构化的问题与答案,以此作为语言模型的评估基准。
特点
该数据集的特点在于其专业性、多样性和评估性。专业性体现在所有问题均围绕传统中医知识展开,多样性则表现在题型的多样化,涵盖了不同类型的问答形式。评估性则是该数据集的核心价值,它为研究者提供了一个衡量语言模型在中医领域理解与应用能力的标准。此外,数据集遵循MIT开源协议,保证了其使用的开放性和灵活性。
使用方法
使用Monor/hwtcm数据集时,用户可以依据数据集中的问题与答案,对大型语言模型进行训练和评估。数据集提供了易于理解的JSON格式,方便用户读取和处理。具体使用时,用户需先获取数据集,然后根据研究需求,设计相应的评估框架,最后通过比较不同模型的回答准确率来评估其性能。
背景与挑战
背景概述
Monor/hwtcm数据集,致力于评估大型语言模型在传统中医领域的应用能力,该数据集的创建,汇集了多选题、单选题及判断题等多种形式的问题。该数据集的问世,始于2024年7月20日,由Haiwei AI团队研发,旨在解决传统中医领域内的知识评估问题,对于推动中医信息化、智能化研究具有重要的参考价值。数据集自发布以来,不断更新和完善,至2024年8月28日,新增7226个问题,丰富了数据集的内容,增强了其在学术研究和模型评估中的应用性。
当前挑战
在构建Monor/hwtcm数据集的过程中,研究团队面临了诸多挑战。首先,如何确保所收集的问题既具有代表性,又能全面覆盖传统中医领域的知识点,是一个重大的挑战。其次,数据集在构建过程中,还需克服如何保持问题系统的客观性和公正性,避免引入主观偏见。此外,大型语言模型在处理传统中医问题时,往往需要高度的专业知识和临床经验,这对于模型的设计和评估提出了更高的要求。在应用层面,如何利用该数据集有效评估模型在真实世界中医场景下的表现,也是当前面临的一个重要挑战。
常用场景
经典使用场景
在人工智能与传统中医学交叉融合的领域,Monor/hwtcm数据集的应用显得尤为重要。该数据集广泛用于评估大型语言模型在中医问题解答方面的能力,其包含多选、多答案和判断题等多种形式的问题,为研究者提供了一个全面且深入的研究场景。
实际应用
在实际应用中,Monor/hwtcm数据集的应用场景广泛,不仅可用于中医学术研究和教学,还能辅助中医诊断、治疗方案的推荐,以及中医知识的普及和推广。它为中医信息化和智慧医疗的发展提供了有力支持。
衍生相关工作
基于Monor/hwtcm数据集,已衍生出一系列相关研究工作,包括但不限于构建中医知识图谱、开发智能问答系统、以及进行中医语言理解的深入研究。这些工作进一步拓展了数据集的应用范围,对中医学的传承与创新产生了深远影响。
以上内容由遇见数据集搜集并总结生成



