CMExam

github2023-12-03 更新2024-05-31 收录

下载链接：

https://github.com/williamliujl/CMExam

下载链接

链接失效反馈

官方服务：

资源简介：

CMExam是一个源自中国国家医学执照考试的数据集，包含60K+多项选择题和五种额外的按问题注释，包括疾病组、临床科室、医学学科、能力领域和问题难度级别。

CMExam is a dataset derived from the Chinese National Medical Licensing Examination, encompassing over 60,000 multiple-choice questions along with five additional annotations per question, including disease groups, clinical departments, medical disciplines, competency areas, and question difficulty levels.

创建时间：

2023-06-02

原始信息汇总

CMExam数据集概述

数据集介绍

CMExam是一个源自中国国家医学执业资格考试的数据集，包含超过60,000个多项选择题及五种额外的题目级标注，包括疾病组、临床科室、医学学科、能力领域和题目难度级别。

数据集统计

	Train	Val	Test	Total
Question	54,497	6,811	6,811	68,119
Vocab	4,545	3,620	3,599	4,629
Max Q tokens	676	500	585	676
Max A tokens	5	5	5	5
Max E tokens	2,999	2,678	2,680	2,999
Avg Q tokens	29.78	30.07	32.63	30.83
Avg A tokens	1.08	1.07	1.07	1.07
Avg E tokens	186.24	188.95	201.44	192.21

*Q: Question; A: Answer; E: Explanation

标注特性

标注内容	参考来源	唯一值数量
疾病组	第11次修订的ICD-11	27
临床科室	医疗机构诊疗科目目录	36
医学学科	2022年研究生教育学科专业目录	7
医学能力	医学专业人员	4
难度级别	人类表现	5

基准测试

数据集附带了对代表性大型语言模型（LLMs）和问答算法的全面实验。

数据集限制

排除非文本问题可能引入偏差。
BLEU和ROUGE指标不足以全面评估解释；未来需要更好的专家分析。

数据集使用伦理

遵守法律和伦理指南。
用于学术/研究用途，禁止商业滥用。
用户应承认数据集的局限性和特定上下文。
不用于评估个人医学能力或患者诊断。

未来方向

正在进行英语翻译。
将包含多模态信息（新数据集ChiMed-Vision-Language-Instruction，包含469,441个问答对）。

搜集汇总

数据集介绍

构建方式

CMExam数据集源自中国国家医学考试，包含超过60,000道选择题，并附有五类额外的题目注释，涵盖疾病组、临床科室、医学学科、能力领域及题目难度等级。数据集的构建过程严格遵循医学领域的标准分类体系，如ICD-11疾病分类、医疗机构的诊疗科目目录等，确保了数据的专业性和权威性。

使用方法

使用CMExam数据集时，用户可以通过提供的预处理脚本对数据进行格式化处理，生成适合模型训练的提示文本。数据集支持多种微调方法，如Ptuning和LoRA，用户可以根据需求选择合适的训练策略。评估阶段，用户可以通过提供的评估脚本对模型性能进行量化分析。数据集的使用需遵循学术研究用途，禁止商业用途。

背景与挑战

背景概述

CMExam数据集源自中国国家医学考试，旨在为大规模语言模型（LLMs）在医学领域的应用提供基准测试。该数据集由超过6万道选择题组成，并附带了丰富的注释信息，包括疾病分类、临床科室、医学学科、能力领域和题目难度等级。该数据集由Liu等研究人员于2023年发布，并在NeurIPS 2023会议上展示。CMExam不仅为医学领域的自然语言处理研究提供了宝贵资源，还推动了LLMs在复杂医学知识理解和推理能力上的评估与优化。

当前挑战

CMExam数据集在构建和应用过程中面临多重挑战。首先，医学领域的复杂性和专业性要求数据集具备高度的准确性和权威性，确保题目和注释的准确性成为关键。其次，数据集中排除了非文本类题目，可能导致模型在评估时产生偏差。此外，现有的自动评估指标（如BLEU和ROUGE）在解释性答案的评估上表现不足，亟需引入专家分析以提升评估的全面性。最后，数据集的扩展方向包括多模态信息的整合和跨语言翻译，这对数据集的多样性和通用性提出了更高要求。

常用场景

经典使用场景

CMExam数据集作为中国国家医学考试的多选题数据集，广泛应用于评估大型语言模型（LLMs）在医学领域的表现。其经典使用场景包括医学知识问答系统的开发与优化，通过模型对60,000多道题目的解答能力进行测试，帮助研究者了解模型在复杂医学问题上的推理与理解能力。

解决学术问题

CMExam数据集解决了医学领域自然语言处理中的多个关键问题，如医学知识的自动问答、模型在复杂医学场景中的推理能力评估等。通过提供详细的题目注释和难度分级，该数据集为研究者提供了丰富的实验数据，推动了医学与人工智能交叉领域的研究进展。

实际应用

在实际应用中，CMExam数据集被用于开发智能医学助手和医学教育工具。例如，基于该数据集训练的模型可以辅助医学生进行考试复习，或为临床医生提供快速的知识检索服务。此外，该数据集还为医学领域的自动问答系统提供了基准测试平台。

数据集最近研究