CMExam
收藏CMExam 数据集概述
简介
CMExam 是一个源自中国国家医师资格考试的数据集,包含超过 60,000 道多项选择题以及五个额外的逐题注释,包括疾病组、临床科室、医学学科、能力领域和题目难度级别。此外,该数据集还进行了代表性大型语言模型(LLMs)的综合基准测试。
数据集统计
| 项目 | 训练集 | 验证集 | 测试集 | 总计 |
|---|---|---|---|---|
| 问题数量 | 54,497 | 6,811 | 6,811 | 68,119 |
| 词汇量 | 4,545 | 3,620 | 3,599 | 4,629 |
| 最大问题 tokens | 676 | 500 | 585 | 676 |
| 最大答案 tokens | 5 | 5 | 5 | 5 |
| 最大解释 tokens | 2,999 | 2,678 | 2,680 | 2,999 |
| 平均问题 tokens | 29.78 | 30.07 | 32.63 | 30.83 |
| 平均答案 tokens | 1.08 | 1.07 | 1.07 | 1.07 |
| 平均解释 tokens | 186.24 | 188.95 | 201.44 | 192.21 |
| 中位数 (Q1, Q3) 问题 tokens | 17 (12, 32) | 18 (12, 32) | 18 (12, 37) | 18 (12, 32) |
| 中位数 (Q1, Q3) 答案 tokens | 1 (1, 1) | 1 (1, 1) | 1 (1, 1) | 1 (1, 1) |
| 中位数 (Q1, Q3) 解释 tokens | 146 (69, 246) | 143 (65, 247) | 158 (80, 263) | 146 (69, 247) |
*Q: 问题; A: 答案; E: 解释
注释特征
| 注释内容 | 参考来源 | 唯一值数量 |
|---|---|---|
| 疾病组 | ICD-11 第 11 版 | 27 |
| 临床科室 | 医疗机构诊疗科目目录 | 36 |
| 医学学科 | 研究生教育学科专业目录(2022) | 7 |
| 医学能力 | 医学专业人员 | 4 |
| 难度级别 | 人类表现 | 5 |
基准测试
除了数据集之外,我们还对代表性的大型语言模型和问答算法在 CMExam 上进行了全面的实验。
部署
环境设置
bash cd src pip install -r requirements.txt
数据预处理
bash cd preprocess python generate_prompt.py
Ptuning
bash cd ../ptuning bash train.sh bash prediction.sh
LoRA
bash cd ../LoRA bash ./scripts/finetune.sh bash ./scripts/infer_ori.sh bash ./scripts/infer_sft.sh
评估
bash cd ../evaluation python evaluate_lora_results.py --csv_file_path path/to/csv/file
注意事项
限制
- 排除非文本问题可能引入偏差。
- BLEU 和 ROUGE 指标不足以全面评估解释;未来需要更好的专家分析。
数据收集伦理
- 遵守法律和伦理指南。
- 用于评估大型语言模型的真实性和准确性。
- 仅限于学术/研究用途;禁止商业滥用。
- 用户应承认数据集的限制和特定上下文。
- 不适用于评估个人医学能力或患者诊断。
未来方向
- 翻译成英文(正在进行中)
- 包含多模态信息(新数据集 ChiMed-Vision-Language-Instruction - 469,441 问答对)
引用
@article{liu2023benchmarking, title={Benchmarking Large Language Models on CMExam--A Comprehensive Chinese Medical Exam Dataset}, author={Liu, Junling and Zhou, Peilin and Hua, Yining and Chong, Dading and Tian, Zhongyu and Liu, Andrew and Wang, Helin and You, Chenyu and Guo, Zhenhua and Zhu, Lei and others}, journal={arXiv preprint arXiv:2306.03030}, year={2023} }

- 1Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset · 2023年



