sean0042/KorMedMCQA
收藏Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sean0042/KorMedMCQA
下载链接
链接失效反馈官方服务:
资源简介:
KorMedMCQA是首个基于韩国医疗专业人员资格考试的多项选择题回答基准数据集,涵盖了2012年至2023年的考试题目。该数据集包括医生、护士和药剂师的考试题目,涉及多种主题。我们对多种大型语言模型进行了基线实验,包括专有/开源、多语言/韩语额外预训练和临床上下文预训练模型,展示了进一步改进的潜力。我们在HuggingFace上公开了数据,并通过LM-Harness提供了评估脚本,邀请在韩国医疗环境中进行进一步探索和进步。
KorMedMCQA是首个基于韩国医疗专业人员资格考试的多项选择题回答基准数据集,涵盖了2012年至2023年的考试题目。该数据集包括医生、护士和药剂师的考试题目,涉及多种主题。我们对多种大型语言模型进行了基线实验,包括专有/开源、多语言/韩语额外预训练和临床上下文预训练模型,展示了进一步改进的潜力。我们在HuggingFace上公开了数据,并通过LM-Harness提供了评估脚本,邀请在韩国医疗环境中进行进一步探索和进步。
提供机构:
sean0042
原始信息汇总
KorMedMCQA 数据集概述
数据集简介
KorMedMCQA 是首个从韩国医疗专业资格考试中提取的韩语多选题问答(MCQA)基准数据集,涵盖了从2012年到2023年的考试题目。该数据集包括医生、护士和药剂师的资格考试题目,涉及多种科目。
数据集配置
- 医生:
- 训练集:
data/doctor-train.csv - 开发集:
data/doctor-dev.csv - 测试集:
data/doctor-test.csv
- 训练集:
- 护士:
- 训练集:
data/nurse-train.csv - 开发集:
data/nurse-dev.csv - 测试集:
data/nurse-test.csv
- 训练集:
- 药剂师:
- 训练集:
data/pharm-train.csv - 开发集:
data/pharm-dev.csv - 测试集:
data/pharm-test.csv
- 训练集:
许可证
数据集使用 CC-BY-NC-2.0 许可证。
任务类别
- 问答
语言
- 韩语
标签
- 医疗
数据规模
- 10K<n<100K
数据集详情
语言
- 韩语
统计数据
| 类别 | 问题数量 (训练/开发/测试) |
|---|---|
| 医生 | 2,339 (1,890/164/285) |
| 护士 | 1,460 (582/291/587) |
| 药剂师 | 1,546 (632/300/614) |
数据字段
subject:医生、护士或药剂师year:考试年份period:考试时期q_number:考试题目编号question:问题A:第一个答案选项B:第二个答案选项C:第三个答案选项D:第四个答案选项E:第五个答案选项answer:答案(1到5),1表示答案A,5表示答案E



