RoMedQA

Name: RoMedQA
Creator: University of Bucharest, Romania; "Carol Davila" University of Medicine and Pharmacy, Romania; Col ̧tea Clinical Hospital, Romania; Hospice Hope Bucharest, Romania
Published: 2025-08-22 21:48:37
License: 暂无描述

arXiv2025-08-22 更新2025-11-25 收录

下载链接：

https://github.com/ana-rogoz/MedQARo

下载链接

链接失效反馈

官方服务：

资源简介：

RoMedQA 是首个罗马尼亚语医疗问答基准数据集，由布加勒斯特大学等研究机构创建。该数据集包含 102,646 对高质量的问答对，涉及 1,011 位癌症患者的医疗病例摘要。数据集内容涉及乳腺癌和肺癌患者，由七位专门从事肿瘤学或放射疗法的医生耗时 2,100 小时进行手动标注。RoMedQA 数据集旨在解决罗马尼亚语医疗问答领域的挑战，为开发可靠的临床问答模型提供数据支持。

RoMedQA is the first Romanian-language medical question answering benchmark dataset, created by research institutions including the University of Bucharest. It contains 102,646 high-quality question-answer pairs, covering medical case summaries of 1,011 cancer patients. The dataset involves patients with breast cancer and lung cancer, and was manually annotated by seven doctors specializing in oncology or radiation therapy over a total of 2,100 hours. RoMedQA aims to address the challenges in the Romanian-language medical question answering domain, and provide data support for the development of reliable clinical question answering models.

提供机构：

University of Bucharest, Romania; "Carol Davila" University of Medicine and Pharmacy, Romania; Col ̧tea Clinical Hospital, Romania; Hospice Hope Bucharest, Romania

创建时间：

2025-08-22

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，构建高质量专业数据集对推动临床智能应用至关重要。RoMedQA数据集的构建基于罗马尼亚科尔特亚临床医院1011名癌症患者的真实病历摘要，由七名肿瘤学与放射治疗专业医师耗时约2100小时完成人工标注。标注过程采用双级质量控制机制：初级由住院医师根据标准化指南提取答案，高级由资深专家复核一致性，最终形成102,646对问答数据，确保医学准确性与语言规范性。

使用方法

针对罗马尼亚临床问答任务，该数据集支持零样本提示与监督微调两种典型应用范式。研究实践表明，采用低秩自适应技术对Phi-4-mini-instruct等模型进行领域适配能显著提升性能。输入格式推荐采用“问题+病历摘要+答案”结构，最佳上下文长度建议控制在2048词元以内。评估时需综合考量精确匹配、F1值、BLEU和METEOR四类指标，以全面衡量模型在医学术语理解与临床推理方面的能力。

背景与挑战

背景概述

RoMedQA作为首个罗马尼亚语医学问答基准数据集，由布加勒斯特大学与卡罗·达维拉医药大学联合团队于2025年8月发布。该数据集聚焦癌症患者的临床诊疗场景，涵盖1,011份真实病历摘要与102,646组高质量问答对，由七名肿瘤学专家耗时约2,100小时完成人工标注。其核心价值在于填补低资源语言在专业医学自然语言处理领域的空白，为罗马尼亚语临床智能问答系统的开发提供了关键基础设施。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决医学叙事复杂性带来的语义理解难题，包括医学术语多义性解析、临床推理链重建等核心问题；在构建过程中，需克服专业标注资源稀缺性障碍，通过制定肿瘤分期标准化、医学术语统一等标注规范，确保跨医师标注的一致性，其科恩κ系数达0.9562的标注质量印证了方法论的有效性。

常用场景

经典使用场景

在医学自然语言处理领域，RoMedQA数据集作为首个罗马尼亚语医疗问答基准，其经典应用场景聚焦于评估大型语言模型在临床文本理解与推理任务中的表现。该数据集通过102,646对高质量医患问答对，构建了涵盖乳腺癌与肺癌病例的完整知识体系，为模型提供了从电子病历中提取关键信息、进行医学逻辑推理的标准化测试平台。研究人员通过该数据集能够系统分析模型在处理罗马尼亚语医学术语、理解复杂临床叙事方面的能力，推动跨语言医疗AI技术的发展。

解决学术问题

RoMedQA有效解决了低资源语言在专业领域自然语言处理中的核心挑战。该数据集填补了罗马尼亚语医疗问答资源的空白，为研究语言模型在专业术语理解、临床推理泛化能力等关键问题提供了实证基础。通过对比零样本提示与监督微调实验，揭示了领域特定与语言特定适应对医疗问答可靠性的决定性作用，为开发面向低资源语言的临床决策支持系统奠定了理论框架。其构建方法学为医学数据匿名化处理、专业标注流程标准化提供了重要参考范式。

实际应用

该数据集在临床辅助决策系统中具有直接应用价值。医疗机构可基于RoMedQA训练的模型开发智能问诊系统，帮助医生快速从电子病历中提取关键临床指标。在医学教育领域，该资源可用于构建罗马尼亚语医学知识测评工具，辅助医学生进行病例分析训练。公共卫生部门亦可利用此类技术实现大规模病历数据的自动化筛查，提升癌症等重大疾病的管理效率。其严格的患者级数据分割机制确保了模型在真实医疗场景中的部署可靠性。

数据集最近研究