CMExam
收藏github2023-12-03 更新2024-05-31 收录
下载链接:
https://github.com/williamliujl/CMExam
下载链接
链接失效反馈官方服务:
资源简介:
CMExam是一个源自中国国家医学执照考试的数据集,包含60K+多项选择题和五种额外的按问题注释,包括疾病组、临床科室、医学学科、能力领域和问题难度级别。
CMExam is a dataset derived from the Chinese National Medical Licensing Examination, encompassing over 60,000 multiple-choice questions along with five additional annotations per question, including disease groups, clinical departments, medical disciplines, competency areas, and question difficulty levels.
创建时间:
2023-06-02
原始信息汇总
CMExam数据集概述
数据集介绍
CMExam是一个源自中国国家医学执业资格考试的数据集,包含超过60,000个多项选择题及五种额外的题目级标注,包括疾病组、临床科室、医学学科、能力领域和题目难度级别。
数据集统计
| Train | Val | Test | Total | |
|---|---|---|---|---|
| Question | 54,497 | 6,811 | 6,811 | 68,119 |
| Vocab | 4,545 | 3,620 | 3,599 | 4,629 |
| Max Q tokens | 676 | 500 | 585 | 676 |
| Max A tokens | 5 | 5 | 5 | 5 |
| Max E tokens | 2,999 | 2,678 | 2,680 | 2,999 |
| Avg Q tokens | 29.78 | 30.07 | 32.63 | 30.83 |
| Avg A tokens | 1.08 | 1.07 | 1.07 | 1.07 |
| Avg E tokens | 186.24 | 188.95 | 201.44 | 192.21 |
*Q: Question; A: Answer; E: Explanation
标注特性
| 标注内容 | 参考来源 | 唯一值数量 |
|---|---|---|
| 疾病组 | 第11次修订的ICD-11 | 27 |
| 临床科室 | 医疗机构诊疗科目目录 | 36 |
| 医学学科 | 2022年研究生教育学科专业目录 | 7 |
| 医学能力 | 医学专业人员 | 4 |
| 难度级别 | 人类表现 | 5 |
基准测试
数据集附带了对代表性大型语言模型(LLMs)和问答算法的全面实验。
数据集限制
- 排除非文本问题可能引入偏差。
- BLEU和ROUGE指标不足以全面评估解释;未来需要更好的专家分析。
数据集使用伦理
- 遵守法律和伦理指南。
- 用于学术/研究用途,禁止商业滥用。
- 用户应承认数据集的局限性和特定上下文。
- 不用于评估个人医学能力或患者诊断。
未来方向
- 正在进行英语翻译。
- 将包含多模态信息(新数据集ChiMed-Vision-Language-Instruction,包含469,441个问答对)。
搜集汇总
数据集介绍

构建方式
CMExam数据集源自中国国家医学考试,包含超过60,000道选择题,并附有五类额外的题目注释,涵盖疾病组、临床科室、医学学科、能力领域及题目难度等级。数据集的构建过程严格遵循医学领域的标准分类体系,如ICD-11疾病分类、医疗机构的诊疗科目目录等,确保了数据的专业性和权威性。
使用方法
使用CMExam数据集时,用户可以通过提供的预处理脚本对数据进行格式化处理,生成适合模型训练的提示文本。数据集支持多种微调方法,如Ptuning和LoRA,用户可以根据需求选择合适的训练策略。评估阶段,用户可以通过提供的评估脚本对模型性能进行量化分析。数据集的使用需遵循学术研究用途,禁止商业用途。
背景与挑战
背景概述
CMExam数据集源自中国国家医学考试,旨在为大规模语言模型(LLMs)在医学领域的应用提供基准测试。该数据集由超过6万道选择题组成,并附带了丰富的注释信息,包括疾病分类、临床科室、医学学科、能力领域和题目难度等级。该数据集由Liu等研究人员于2023年发布,并在NeurIPS 2023会议上展示。CMExam不仅为医学领域的自然语言处理研究提供了宝贵资源,还推动了LLMs在复杂医学知识理解和推理能力上的评估与优化。
当前挑战
CMExam数据集在构建和应用过程中面临多重挑战。首先,医学领域的复杂性和专业性要求数据集具备高度的准确性和权威性,确保题目和注释的准确性成为关键。其次,数据集中排除了非文本类题目,可能导致模型在评估时产生偏差。此外,现有的自动评估指标(如BLEU和ROUGE)在解释性答案的评估上表现不足,亟需引入专家分析以提升评估的全面性。最后,数据集的扩展方向包括多模态信息的整合和跨语言翻译,这对数据集的多样性和通用性提出了更高要求。
常用场景
经典使用场景
CMExam数据集作为中国国家医学考试的多选题数据集,广泛应用于评估大型语言模型(LLMs)在医学领域的表现。其经典使用场景包括医学知识问答系统的开发与优化,通过模型对60,000多道题目的解答能力进行测试,帮助研究者了解模型在复杂医学问题上的推理与理解能力。
解决学术问题
CMExam数据集解决了医学领域自然语言处理中的多个关键问题,如医学知识的自动问答、模型在复杂医学场景中的推理能力评估等。通过提供详细的题目注释和难度分级,该数据集为研究者提供了丰富的实验数据,推动了医学与人工智能交叉领域的研究进展。
实际应用
在实际应用中,CMExam数据集被用于开发智能医学助手和医学教育工具。例如,基于该数据集训练的模型可以辅助医学生进行考试复习,或为临床医生提供快速的知识检索服务。此外,该数据集还为医学领域的自动问答系统提供了基准测试平台。
数据集最近研究
最新研究方向
在医学人工智能领域,CMExam数据集的最新研究方向聚焦于大规模语言模型(LLMs)在中文医学考试题目上的性能评估与优化。该数据集源自中国国家医学考试,包含超过6万道选择题及其详细的注释信息,如疾病分类、临床科室、医学学科、能力领域和题目难度等级。通过对代表性LLMs的全面基准测试,研究者们揭示了这些模型在复杂医学知识理解和推理任务中的表现与局限性。此外,随着多模态数据在医学领域的应用日益广泛,CMExam的未来研究方向还包括将数据集扩展至视觉-语言问答对,以进一步提升模型在医学图像与文本结合任务中的能力。这一研究不仅推动了医学人工智能的发展,也为未来的医学教育和临床决策支持系统提供了重要的数据基础。
以上内容由遇见数据集搜集并总结生成



