five

CMExam

收藏
arXiv2023-10-23 更新2024-07-31 收录
下载链接:
https://github.com/williamliujl/CMExam
下载链接
链接失效反馈
官方服务:
资源简介:
CMExam是一个来自中国国家医学执照考试的综合性中文医学考试数据集,包含60,000多个多项选择题,用于标准化和客观评估,以及模型推理评估的开放式解决方案解释。此外,还邀请医学专业人员对五个额外的问题级注释进行了标注,包括疾病组、临床科室、医学学科、能力领域和问题难度级别。

CMExam is a comprehensive Chinese medical examination dataset sourced from the National Medical Licensing Examination of China. It includes over 60,000 multiple-choice questions designed for standardized and objective assessment, as well as open-ended solution explanations for model inference evaluation. Furthermore, medical professionals were invited to conduct five additional types of question-level annotations, covering disease group, clinical department, medical discipline, competency domain, and question difficulty level.
创建时间:
2023-06-06
原始信息汇总

CMExam 数据集概述

简介

CMExam 是一个源自中国国家医师资格考试的数据集,包含超过 60,000 道多项选择题以及五个额外的逐题注释,包括疾病组、临床科室、医学学科、能力领域和题目难度级别。此外,该数据集还进行了代表性大型语言模型(LLMs)的综合基准测试。

数据集统计

项目 训练集 验证集 测试集 总计
问题数量 54,497 6,811 6,811 68,119
词汇量 4,545 3,620 3,599 4,629
最大问题 tokens 676 500 585 676
最大答案 tokens 5 5 5 5
最大解释 tokens 2,999 2,678 2,680 2,999
平均问题 tokens 29.78 30.07 32.63 30.83
平均答案 tokens 1.08 1.07 1.07 1.07
平均解释 tokens 186.24 188.95 201.44 192.21
中位数 (Q1, Q3) 问题 tokens 17 (12, 32) 18 (12, 32) 18 (12, 37) 18 (12, 32)
中位数 (Q1, Q3) 答案 tokens 1 (1, 1) 1 (1, 1) 1 (1, 1) 1 (1, 1)
中位数 (Q1, Q3) 解释 tokens 146 (69, 246) 143 (65, 247) 158 (80, 263) 146 (69, 247)

*Q: 问题; A: 答案; E: 解释

注释特征

注释内容 参考来源 唯一值数量
疾病组 ICD-11 第 11 版 27
临床科室 医疗机构诊疗科目目录 36
医学学科 研究生教育学科专业目录(2022) 7
医学能力 医学专业人员 4
难度级别 人类表现 5

基准测试

除了数据集之外,我们还对代表性的大型语言模型和问答算法在 CMExam 上进行了全面的实验。

部署

环境设置

bash cd src pip install -r requirements.txt

数据预处理

bash cd preprocess python generate_prompt.py

Ptuning

bash cd ../ptuning bash train.sh bash prediction.sh

LoRA

bash cd ../LoRA bash ./scripts/finetune.sh bash ./scripts/infer_ori.sh bash ./scripts/infer_sft.sh

评估

bash cd ../evaluation python evaluate_lora_results.py --csv_file_path path/to/csv/file

注意事项

限制

  • 排除非文本问题可能引入偏差。
  • BLEU 和 ROUGE 指标不足以全面评估解释;未来需要更好的专家分析。

数据收集伦理

  • 遵守法律和伦理指南。
  • 用于评估大型语言模型的真实性和准确性。
  • 仅限于学术/研究用途;禁止商业滥用。
  • 用户应承认数据集的限制和特定上下文。
  • 不适用于评估个人医学能力或患者诊断。

未来方向

  • 翻译成英文(正在进行中)
  • 包含多模态信息(新数据集 ChiMed-Vision-Language-Instruction - 469,441 问答对)

引用

@article{liu2023benchmarking, title={Benchmarking Large Language Models on CMExam--A Comprehensive Chinese Medical Exam Dataset}, author={Liu, Junling and Zhou, Peilin and Hua, Yining and Chong, Dading and Tian, Zhongyu and Liu, Andrew and Wang, Helin and You, Chenyu and Guo, Zhenhua and Zhu, Lei and others}, journal={arXiv preprint arXiv:2306.03030}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
CMExam数据集源自中国国家医师资格考试,包含超过60,000道多选题,旨在为大语言模型(LLMs)在医学领域的评估提供标准化和客观的基准。数据集的构建过程中,研究团队从真实的医学考试中筛选出高质量的题目,并排除了依赖非文本信息的题目,如包含图像和表格的题目。此外,数据集还通过GPT-Assisted Annotation策略,利用GPT-4进行初步标注,随后由两名医学专家进行手动验证,确保标注的准确性和可靠性。
使用方法
CMExam数据集可用于评估大语言模型在医学问答任务中的表现,尤其是多选题的答案预测和解答推理任务。研究者可以通过该数据集对模型进行微调,并使用准确率和加权F1分数等指标评估模型在多选题上的表现。对于解答推理任务,可以使用BLEU和ROUGE等指标评估模型生成的解释与标准答案的匹配度。此外,数据集的额外标注维度为研究者提供了多角度的分析工具,帮助深入理解模型在不同医学领域的表现。
背景与挑战
背景概述
CMExam数据集是由阿里巴巴集团、香港科技大学(广州)、哈佛大学等多家知名机构的研究人员共同开发的中文医学考试数据集。该数据集源自中国国家医师资格考试,包含超过60,000道多选题,旨在为大语言模型(LLMs)在医学领域的评估提供标准化和全面的基准。CMExam不仅提供了多选题的标准化评估,还通过详细的解答解释,支持对模型推理能力的开放式评估。此外,数据集还引入了五种额外的题目级标注维度,包括疾病组、临床科室、医学学科、能力领域和题目难度,进一步提升了数据集的全面性和评估深度。CMExam的推出填补了中文医学领域缺乏高质量评估数据集的空白,为医学问答系统和LLM评估提供了宝贵的资源。
当前挑战
CMExam数据集在构建过程中面临多项挑战。首先,医学领域的语言模型评估因缺乏标准化和全面的数据集而变得复杂,尤其是中文医学数据集的稀缺性进一步加剧了这一问题。其次,数据集的构建需要从权威的医学考试中提取高质量的题目,并确保题目的多样性和覆盖面,这要求研究人员在数据筛选和预处理过程中投入大量精力。此外,为了提升数据集的评估能力,研究人员引入了五种额外的标注维度,这些标注的生成需要结合医学专家的知识,增加了数据集构建的复杂性和成本。最后,尽管CMExam在评估LLMs的性能方面取得了显著进展,但模型在解答任务中的表现仍与人类专家存在较大差距,尤其是在推理能力和复杂问题的处理上,仍有很大的改进空间。
常用场景
经典使用场景
CMExam数据集的经典使用场景主要集中在医学领域的大语言模型(LLMs)评估。通过提供超过60,000道多选题及其详细的解答解释,CMExam为研究人员提供了一个标准化的评估平台,用于测试和比较不同LLMs在医学问答任务中的表现。该数据集特别适用于零样本学习、微调模型以及多任务学习等场景,帮助研究人员深入分析模型在医学知识推理和答案生成方面的能力。
解决学术问题
CMExam数据集解决了医学领域中缺乏标准化、全面评估数据集的问题。传统的医学问答数据集通常规模较小、多样性不足,且缺乏详细的解答解释,难以全面评估LLMs的性能。CMExam通过引入多选题格式、详细的解答解释以及五种额外的标注维度(如疾病分类、临床科室、医学学科等),为研究人员提供了一个权威的评估基准,推动了医学问答系统的研究进展。
实际应用
CMExam数据集在实际应用中具有广泛的前景,特别是在医学教育和临床辅助决策系统中。例如,它可以用于开发智能医学考试辅导系统,帮助医学生进行自我评估和知识巩固。此外,CMExam还可以用于构建临床决策支持系统,辅助医生在复杂病例中进行快速诊断和治疗方案选择。通过提供详细的解答解释,该数据集还能帮助医生和研究人员更好地理解模型的推理过程,提升模型的可解释性和实用性。
数据集最近研究
最新研究方向
CMExam数据集在医学领域的大语言模型(LLMs)评估中展现了显著的前沿研究方向。该数据集通过引入中国国家医学执业资格考试中的60K+多选题,提供了标准化和客观的评估框架,并结合详细的解答解释,以开放式的方式测试模型的推理能力。此外,CMExam还通过五种额外的标注维度(如疾病分类、临床科室、医学学科等),进一步提升了对LLMs在医学领域表现的全面评估。研究表明,尽管GPT-4在零样本任务中表现出色,但与人类表现仍存在显著差距,这为未来在医学问答系统和LLMs评估管道中的改进提供了重要方向。CMExam的推出不仅填补了中文医学数据集的空白,还为医学领域LLMs的性能评估提供了宝贵的资源和基准。
相关研究论文
  • 1
    Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作