NorMedQA
收藏github2025-05-02 更新2025-05-06 收录
下载链接:
https://github.com/kelkalot/normedqa
下载链接
链接失效反馈官方服务:
资源简介:
NorMedQA旨在评估大型语言模型(LLMs)在挪威语境(Bokmål和Nynorsk)中的医学知识和推理能力。基准测试包含1241个问答对,涵盖多个医学领域。数据是从公开可用的挪威医学考试问题来源收集的,并经过检查、清理和预处理。
NorMedQA is designed to evaluate the medical knowledge and reasoning abilities of large language models (LLMs) within the Norwegian context (Bokmål and Nynorsk). The benchmark test consists of 1241 question-answer pairs, spanning multiple medical domains. The data is collected from publicly available Norwegian medical examination questions, and has been checked, cleaned, and preprocessed.
创建时间:
2025-05-02
原始信息汇总
NorMedQA: 挪威医学问答基准与数据集概述
数据集基本信息
- 名称: NorMedQA (Norwegian Medical Question Answering Dataset)
- 语言: 挪威语(Bokmål和Nynorsk)
- 数据量: 1241个问答对
- 领域: 医学领域,涵盖多个医学专业
- 数据来源: 公开可用的挪威医学考试题目
- 数据处理: 经过检查、清理和预处理
数据集获取
- 存储位置: Zenodo
- 访问地址: https://zenodo.org/records/15345466
- 版本: 1.0
- 发布者: Riegler, M. A. (2025)
数据集特点
- 用途: 评估大型语言模型(LLMs)在挪威语境下的医学知识和推理能力
- 数据拆分: 包含将原始数据文件拆分为训练集/测试集的代码
评估指标
exact_match: 生成答案与参考答案完全匹配的百分比rouge: 基于n-grams和最长公共子序列的生成答案与参考答案重叠度测量(包括rouge1、rouge2、rougeL、rougeLsum)
使用许可
- 许可证: CC BY 4.0
引用信息
bibtex @dataset{riegler_michael_alexander_2025_15320038, author = {Riegler, Michael Alexander}, title = {{Norwegian Medical Question Answering Dataset - NorMedQA}}, month = may, year = 2025, publisher = {Zenodo}, version = {1.0}, doi = {10.5281/zenodo.15320038}, url = {https://doi.org/10.5281/zenodo.15320037} }
相关资源
- 基准测试代码库: https://github.com/kelkalot/normedqa
- Colab笔记本: https://colab.research.google.com/drive/1sDYReWYdt-3vYiAibqAohrAqTBD7aJHr?usp=sharing
搜集汇总
数据集介绍

构建方式
在医学知识评估领域,NorMedQA数据集的构建体现了严谨的学术态度。该数据集通过系统收集挪威公开医学考试题目,经过专业团队的校验与清洗,最终形成1241组涵盖多医学领域的问答对。构建过程中特别注重保留挪威语(博克马尔语和新挪威语)的语境特征,确保数据能够真实反映挪威医疗体系的知识结构。
特点
作为挪威首个专业医学问答基准,NorMedQA展现出鲜明的领域特性。其双语种设计支持博克马尔语和新挪威语的医学知识评估,覆盖内科、外科等多元专科领域。数据集特别强调临床推理能力的测评,每个问答对都经过医学专家验证,确保专业术语的准确性和临床情境的真实性。
使用方法
研究者可通过Zenodo平台获取原始数据集,利用配套的Colab笔记本实现环境配置与评估流程。该数据集支持使用lm-evaluation-harness框架进行模型测试,提供精确匹配度和ROUGE系列指标评估。用户可自由扩展评估维度,通过修改Python脚本实现个性化测评需求,特别适合挪威语医疗大语言模型的性能验证。
背景与挑战
背景概述
NorMedQA数据集由Michael Alexander Riegler于2025年创建,旨在评估大型语言模型在挪威语(博克马尔语和新挪威语)语境下的医学知识和推理能力。该数据集包含1241个医学领域的问题-答案对,覆盖多个医学分支,数据来源于公开的挪威医学考试题目,经过严格的清洗和预处理。作为挪威首个专注于医学问答的基准数据集,NorMedQA为北欧地区的医疗人工智能发展提供了重要支撑,填补了非英语医学语言模型的评估空白。
当前挑战
该数据集面临的核心挑战体现在两个维度:领域层面需解决挪威语医疗术语的语义复杂性,包括双语变体带来的标注一致性难题;构建过程中需克服小语种医学数据稀缺性,原始数据的专业校验依赖挪威本土医学专家,导致质量控制成本高昂。同时,医学问题的动态演进特性要求数据集持续更新以保持时效性,这对资源有限的维护团队构成显著压力。
常用场景
经典使用场景
在医学自然语言处理领域,NorMedQA数据集为研究者提供了一个评估大型语言模型在挪威语(Bokmål和Nynorsk)环境下医学知识理解和推理能力的标准平台。该数据集包含1241个涵盖多个医学领域的问答对,特别适用于测试模型在挪威语境下的专业术语理解和复杂医学问题的解答能力。研究者可以通过该数据集对模型进行精确的医学知识评估,从而推动挪威语医学NLP技术的发展。
衍生相关工作
围绕NorMedQA数据集,研究者已经开展了一系列相关研究工作。其中包括基于该数据集的挪威语医学语言模型微调方法探索,以及跨语言医学知识迁移研究。这些工作不仅推动了挪威语医学NLP技术的发展,也为其他低资源语言医学问答系统的构建提供了宝贵经验。部分研究还尝试将该数据集与其他北欧语言医学数据集结合,探索泛北欧医疗语言模型的可能性。
数据集最近研究
最新研究方向
在医疗人工智能领域,挪威语医学问答数据集NorMedQA的推出为北欧地区医疗自然语言处理研究填补了关键空白。该数据集聚焦于评估大型语言模型在挪威语语境下的医学知识推理能力,其1241组涵盖多医学领域的质询对为研究低资源语言医疗问答系统提供了重要基准。当前研究热点集中在跨语言医疗知识迁移、小样本学习在专业领域的应用,以及基于Rouge和精确匹配指标的生成式模型优化。随着欧盟对多语言AI技术的政策倾斜,该数据集在促进医疗信息公平获取、提升非英语地区数字医疗服务方面展现出独特价值。
以上内容由遇见数据集搜集并总结生成



