PersianMedQA
收藏PersianMedQA 数据集概述
基本信息
- 数据集名称: PersianMedQA
- 简介: 一个大规模、专家验证的多选题集,涵盖23个医学专业,收集自14年的伊朗住院医师和预住院医师委员会考试。
- 许可证: CC BY 4.0
- 语言: 波斯语 (
fa) 和英语 (en) - 任务类型: 多选问答 (
multiple-choice-qa) - 规模: 10K < n < 100K
数据集结构
- 总条目数: 20,785
- 训练集: 14,549
- 验证集: 1,000
- 测试集: 5,236
- 领域划分:
- 临床案例场景: ≈70%
- 非临床/基础科学: ≈30%
- 元数据:
- 专业标签 (
specialty) - 临床/非临床标志 (
is_clinical) - 患者年龄 (
patient_age) - 患者性别 (
patient_gender) - 语言 (
language)
- 专业标签 (
数据结构示例
json { "id": "PMQA_000123", "question": "بیمار ۴۸ سالهای با درد قفسه سینه ... مؤثرترین اقدام درمانی کدام است؟", "options": [ "تجویز فیبرینولیتیک و در صورت لزوم آنژیوپلاستی اورژانس", "تجویز فیبرینولیتیک", "آنژیوپلاستی اورژانس", "تجویز فیبرینولیتیک و آنژیوپلاستی ۴۸ ساعت بعد" ], "answer_idx": 2, "specialty": "Cardiology", "is_clinical": true, "patient_age": 48, "patient_gender": "male", "language": "fa" }
数据来源与处理
- 来源: 2009–2022年伊朗官方住院医师和预住院医师考试。
- 清理: 去重、排除依赖图像的条目、答案键验证。
- 专家标注: 专业标签验证、临床与非临床标签。
- 人口统计信息提取: 从问题文本中提取年龄/性别线索。
- 分割: 按年份和专业随机分层分割以避免泄漏。
- 翻译: 使用Gemini 2.5 Flash进行高质量自动翻译,并进行手动抽查。
预期用途与任务
- 基准测试: 多语言/领域特定语言模型在高风险医学推理上的表现。
- 少样本/零样本评估: 波斯语(和跨语言)问答能力。
- 研究: 翻译效果、文化背景、选择性回答、集成等。
⚠️ 不用于临床部署。该数据集仅包含考试题目,不得用于提供真实世界的医疗建议。
评估结果(节选)
| 模型 | 波斯语准确率 | 英语准确率 |
|---|---|---|
| GPT-4.1 | 83.1% | 83.3% |
| Gemini 2.5 Flash | 82.4% | 83.7% |
| Llama 3.1-405B-Instruct | 69.3% | 75.8% |
| Meditron3-8B | 39.7% | 51.6% |
| Dorna2-Llama3-8B | 36.0% | 53.1% |
引用
bibtex @inproceedings{ranjbar2025persianmedqa, title = {PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain}, author = {Mohammad Javad Ranjbar Kalahroodi and Amirhossein Sheikholselami and Sepehr Karimi Arpanahi and Sepideh Ranjbar Kalahroodi and Heshaam Faili and Azadeh Shakery}, booktitle = {Proceedings of EMNLP 2025}, year = {2025} }
许可证
- 许可证类型: 知识共享署名4.0国际许可协议 (CC BY 4.0)
- 权限: 可共享、混编、改编和基于数据构建任何目的,甚至商业用途,但需给予适当署名。
联系方式
- 问题或反馈: 在Hugging Face仓库中提交问题或联系作者:
{ mohammadJRanjbar | ah.sheikh | sepehrkarimi | hfaili | shakery }@ut.ac.ir




