MLCE(Medical-LLMs-Chinese-Exam)
收藏github2024-07-07 更新2024-07-08 收录
下载链接:
https://github.com/jingnant/Medical-LLMs-Chinese-Exam
下载链接
链接失效反馈官方服务:
资源简介:
MLCE数据集针对中国各类医疗考试和相关比赛数据集进行收集整理,用于助力大模型评测自身专项能力并进行针对性训练,目的是促进医疗领域具有全方位能力的大模型开发。
The MLCE Dataset is compiled and curated from a range of Chinese medical examinations and relevant medical competition datasets. It is developed to assist large language models (LLMs) in evaluating their specialized medical capabilities and conducting targeted training, with the goal of advancing the development of LLMs with comprehensive, all-round capabilities in the medical field.
创建时间:
2024-07-07
原始信息汇总
医疗大模型中文考试评估
数据集介绍
MLCE(Medical-LLMs-Chinese-Exam):医疗大模型中文考试评估,针对中国各类医疗考试、相关比赛数据集进行收集整理,用于助力大模型评测自身专项能力并进行针对性训练,目的是促进医疗领域具有全方位能力的大模型开发。
数据集进展
- [2024/7/7] 2017-2021年中国国家执业医师资格考试、中国国家执业药师资格考试、中国国家执业护士资格考试题目
- [2024/7/7] MLCE数据集首次开源
数据样例
针对考题类型数据,采用下列格式: json { "id": "", # 测试题相关信息组成的题目id "question": "", # 测试题问题 "options": {}, # 选项键值对 "answer": "", # 标准答案 "question_type": "" # 选择题类型,单选/多选 }
例如: json { "id": "2017-Unit1-1", "question": "男,40岁,因劳累近2周自感头晕、头疼,连续三次测血压值为21", "options": { "A": "急进性高血压", "B": "慢性肾炎", "C": "甲亢", "D": "原发性高血压", "E": "SLE" }, "answer": "D", "question_type": "单项选择题" }
数据细节
| 数据集名称 | 样本数量 | 数据归属 | 数据源 |
|---|---|---|---|
| 2017-2021physician.json | 3000 | 中国国家执业医师资格考试 | LLM-Chinese-NMLE |
| 2017-2021pharmacist.json | 2400 | 中国国家执业药师资格考试 | LLM-Chinese-NMLE |
| 2017-2021nurse.json | 1200 | 中国国家执业护士资格考试 | LLM-Chinese-NMLE |
| 总计 | 6600 |
感谢所有数据源的开源作者!,已处理完毕的数据可在data/中获取
更多数据正在处理中~
联系
若您对该工作感兴趣或有数据支持,以及相关问题可联系邮箱:jingnant@163.com
搜集汇总
数据集介绍

构建方式
MLCE数据集的构建基于对中国各类医疗考试及相关比赛数据的系统收集与整理。具体而言,该数据集涵盖了2017至2021年间中国国家执业医师资格考试、执业药师资格考试以及执业护士资格考试的题目。这些数据经过精心筛选和格式化,以确保其适用于大模型的评测与训练。数据集的构建过程中,采用了统一的JSON格式,包括题目ID、问题描述、选项、标准答案及题目类型等字段,从而为后续的模型训练和评估提供了标准化的数据基础。
特点
MLCE数据集的显著特点在于其针对性和全面性。首先,该数据集聚焦于医疗领域的专业考试,确保了数据的专业性和实用性。其次,数据集包含了多种类型的考试题目,如单选题和多选题,能够全面评估模型的多维度能力。此外,数据集的规模较大,总计包含6600个样本,为大模型的训练提供了丰富的数据资源。最后,数据集的开源性质使得研究者和开发者能够自由获取和使用,促进了医疗领域大模型的广泛应用和进一步发展。
使用方法
MLCE数据集的使用方法简便且灵活。用户可以通过访问数据集的GitHub页面,下载包含JSON格式数据的文件,这些文件位于`data/`目录下。下载后,用户可以根据需要加载数据,并利用其中的题目ID、问题描述、选项、标准答案及题目类型等字段进行模型的训练和评估。数据集的结构化格式使得数据处理和分析变得高效,用户可以轻松地将其集成到现有的机器学习或深度学习框架中。此外,数据集的开源性质还鼓励了社区的参与和贡献,进一步丰富了数据集的内容和应用场景。
背景与挑战
背景概述
在医疗领域,大模型的开发与评估对于提升诊断和治疗的准确性具有重要意义。MLCE(Medical-LLMs-Chinese-Exam)数据集应运而生,旨在通过收集和整理中国各类医疗考试及相关比赛的数据,为大模型的专项能力评测和针对性训练提供支持。该数据集由主要研究人员或机构于2024年7月7日首次开源,涵盖了2017至2021年的中国国家执业医师资格考试、执业药师资格考试及执业护士资格考试题目,总计6600个样本。MLCE数据集的创建不仅为医疗大模型的开发提供了宝贵的资源,还对推动医疗领域的技术进步具有深远影响。
当前挑战
MLCE数据集在构建过程中面临多项挑战。首先,数据收集的复杂性在于需从多个权威考试中提取高质量的题目,确保数据的准确性和权威性。其次,数据的标准化处理也是一个重要挑战,需将不同考试的题目格式统一,以便于大模型的有效训练和评估。此外,数据集的更新和维护也是一个持续的挑战,需不断纳入新的考试数据以保持其时效性和全面性。这些挑战不仅影响数据集的质量,也直接关系到基于该数据集训练的大模型在实际应用中的表现。
常用场景
经典使用场景
MLCE数据集在医疗大模型的评估与训练中扮演着至关重要的角色。其经典使用场景包括通过模拟中国各类医疗考试题目,评估和提升大模型在医疗领域的专项能力。例如,通过分析2017-2021年中国国家执业医师资格考试、执业药师资格考试及执业护士资格考试的题目,模型能够学习并掌握各类医疗知识,从而在实际应用中提供更为精准的诊断和治疗建议。
实际应用
在实际应用中,MLCE数据集为医疗大模型的开发和优化提供了坚实的基础。例如,医疗机构可以利用该数据集训练大模型,以提高其在临床诊断、药物推荐和护理指导等方面的准确性和效率。此外,教育机构也可使用该数据集进行模拟考试,帮助医学生和医护人员提升专业知识和技能,从而更好地服务于患者和社会。
衍生相关工作
MLCE数据集的发布催生了多项相关研究和工作。例如,研究人员基于该数据集开发了多种医疗大模型,这些模型在各类医疗考试中的表现显著提升。同时,该数据集也激发了更多关于医疗数据处理和模型评估的研究,推动了医疗人工智能领域的整体进步。这些衍生工作不仅丰富了医疗大模型的应用场景,也为未来的研究提供了宝贵的参考和借鉴。
以上内容由遇见数据集搜集并总结生成



