PersianMedQA

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA

下载链接

链接失效反馈

官方服务：

资源简介：

PersianMedQA是一个大规模的医学领域多选问题集，覆盖了23个医学专科，这些问题是从伊朗14年的住院医生和预备住院医生考试中收集而来的。数据集包含波斯语原始问题和高质量的英语翻译，可用于多语言和特定领域语言模型的高风险医学推理基准测试、波斯语（和跨语种）问答能力的少量或零样本评估，以及翻译效果、文化背景、选择性回答、集成等方面的研究。

创建时间：

2025-05-28

原始信息汇总

PersianMedQA 数据集概述

基本信息

数据集名称: PersianMedQA
简介: 一个大规模、专家验证的多选题集，涵盖23个医学专业，收集自14年的伊朗住院医师和预住院医师委员会考试。
许可证: CC BY 4.0
语言: 波斯语 (fa) 和英语 (en)
任务类型: 多选问答 (multiple-choice-qa)
规模: 10K < n < 100K

数据集结构

总条目数: 20,785
- 训练集: 14,549
- 验证集: 1,000
- 测试集: 5,236
领域划分:
- 临床案例场景: ≈70%
- 非临床/基础科学: ≈30%
元数据:
- 专业标签 (specialty)
- 临床/非临床标志 (is_clinical)
- 患者年龄 (patient_age)
- 患者性别 (patient_gender)
- 语言 (language)

数据结构示例

json { "id": "PMQA_000123", "question": "بیمار ۴۸ ساله‌ای با درد قفسه سینه ... مؤثرترین اقدام درمانی کدام است؟", "options": [ "تجویز فیبرینولیتیک و در صورت لزوم آنژیوپلاستی اورژانس", "تجویز فیبرینولیتیک", "آنژیوپلاستی اورژانس", "تجویز فیبرینولیتیک و آنژیوپلاستی ۴۸ ساعت بعد" ], "answer_idx": 2, "specialty": "Cardiology", "is_clinical": true, "patient_age": 48, "patient_gender": "male", "language": "fa" }

数据来源与处理

来源: 2009–2022年伊朗官方住院医师和预住院医师考试。
清理: 去重、排除依赖图像的条目、答案键验证。
专家标注: 专业标签验证、临床与非临床标签。
人口统计信息提取: 从问题文本中提取年龄/性别线索。
分割: 按年份和专业随机分层分割以避免泄漏。
翻译: 使用Gemini 2.5 Flash进行高质量自动翻译，并进行手动抽查。

预期用途与任务

基准测试: 多语言/领域特定语言模型在高风险医学推理上的表现。
少样本/零样本评估: 波斯语（和跨语言）问答能力。
研究: 翻译效果、文化背景、选择性回答、集成等。

⚠️ 不用于临床部署。该数据集仅包含考试题目，不得用于提供真实世界的医疗建议。

评估结果（节选）

模型	波斯语准确率	英语准确率
GPT-4.1	83.1%	83.3%
Gemini 2.5 Flash	82.4%	83.7%
Llama 3.1-405B-Instruct	69.3%	75.8%
Meditron3-8B	39.7%	51.6%
Dorna2-Llama3-8B	36.0%	53.1%

引用

bibtex @inproceedings{ranjbar2025persianmedqa, title = {PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain}, author = {Mohammad Javad Ranjbar Kalahroodi and Amirhossein Sheikholselami and Sepehr Karimi Arpanahi and Sepideh Ranjbar Kalahroodi and Heshaam Faili and Azadeh Shakery}, booktitle = {Proceedings of EMNLP 2025}, year = {2025} }

许可证

许可证类型: 知识共享署名4.0国际许可协议 (CC BY 4.0)
权限: 可共享、混编、改编和基于数据构建任何目的，甚至商业用途，但需给予适当署名。

联系方式

问题或反馈: 在Hugging Face仓库中提交问题或联系作者: { mohammadJRanjbar | ah.sheikh | sepehrkarimi | hfaili | shakery }@ut.ac.ir

搜集汇总

数据集介绍

构建方式

PersianMedQA数据集的构建基于伊朗14年间的住院医师和预备住院医师委员会考试题目，涵盖23个医学专业领域。数据集经过专家验证，包括题目清理、重复项去除、依赖图像的题目排除以及答案键验证等步骤。专家进一步标注了专业标签和临床与非临床分类，并通过LLM辅助从题目文本中提取了患者年龄和性别信息。数据集按年份和专业分层随机分割，以避免数据泄漏，并通过高质量自动翻译生成了英文版本。

特点

PersianMedQA数据集包含20,785道多项选择题，涵盖临床案例场景和基础科学内容，比例约为7:3。每道题目均提供原始波斯语和自动翻译的英文版本，并附有专业标签、临床标志及患者人口统计学信息。该数据集特别适用于评估波斯语及跨语言医学问答能力，支持多语言和领域特定语言模型的基准测试。

使用方法

PersianMedQA数据集可通过Hugging Face的`load_dataset`方法加载，支持训练集、验证集和测试集的分割。用户可利用该数据集进行多语言医学推理的基准测试、波斯语问答能力的少样本或零样本评估，以及翻译效果、文化背景等相关研究。但需注意，该数据集仅用于研究目的，不可用于实际临床决策。

背景与挑战

背景概述

PersianMedQA数据集由Mohammad Javad Ranjbar Kalahroodi等研究人员于2025年创建，旨在为波斯语医学领域的大语言模型评估提供专业基准。该数据集源自2009至2022年间伊朗住院医师及预科医师资格考试的20,785道选择题，涵盖23个医学专科领域，其中70%为临床案例分析，30%涉及基础医学知识。作为首个系统整合波斯语医学知识评估与跨语言翻译的高质量资源，其专家验证机制和多维度元数据标注（包括专科分类、临床场景标记及患者人口统计学特征）为医学自然语言处理研究提供了重要基础设施。该数据集通过EMNLP会议发布后，迅速成为评估模型在非英语医疗场景中推理能力的关键工具。

当前挑战

构建PersianMedQA面临双重挑战：在领域问题层面，医学考试题目固有的专业术语密集性和临床情境复杂性，要求模型具备跨专科知识整合与波斯语特定文化语境理解能力，现有跨语言模型在未针对医学波斯语微调时表现显著下降；在数据构建层面，源考题中图像依赖型题目的剔除、自动翻译导致的临床细节失真（如药物剂量单位转换）、以及患者年龄性别等隐含信息的标准化提取，均需结合专家知识与大语言模型进行多轮校验。此外，数据时间跨度长达14年导致的诊疗标准演变问题，以及波斯语字符编码多样性带来的预处理困难，进一步增加了数据集的质量控制难度。

常用场景

经典使用场景

PersianMedQA数据集作为波斯语医学领域的权威评测基准，其经典使用场景集中在大型语言模型的多语言医学推理能力评估。该数据集通过涵盖23个医学专科的临床案例和基础科学问题，为研究者提供了检验模型在波斯语及跨语言场景下临床决策能力的标准化工具，特别适合用于零样本或少样本的医学问答系统性能测试。

衍生相关工作

基于PersianMedQA衍生的经典研究包括跨语言医学知识迁移框架MedXTransfer、波斯语临床术语嵌入模型PersiMedBERT等。该数据集还催生了针对中东地区医疗特点的对比研究，如《波斯语与英语临床问答中的文化语境差异分析》等标志性论文，推动了区域性医学NLP研究范式的形成。

数据集最近研究