five

MRI-Eval

收藏
arXiv2026-05-07 更新2026-05-08 收录
下载链接:
https://github.com/MRI-Eval
下载链接
链接失效反馈
官方服务:
资源简介:
MRI-Eval是由卡尔加里大学主导构建的磁共振成像领域分层评测基准,包含1365道多选题,涵盖GE扫描仪操作、脉冲序列、安全规范等9个类别及3个难度层级。数据源自权威教材、GE厂商手册及专家生成问题,旨在评估大语言模型对专业MRI知识的掌握程度,尤其揭示多选题高分背后生成式回忆能力的不足。该数据集通过标准化测试框架,为MRI研究场景中LLM的可靠性提供了关键评估工具。

MRI-Eval is a hierarchical evaluation benchmark for the magnetic resonance imaging (MRI) domain, developed under the leadership of the University of Calgary. It contains 1,365 multiple-choice questions spanning 9 categories including GE scanner operation, pulse sequences, safety specifications, and three difficulty levels. The dataset is sourced from authoritative textbooks, GE manufacturer manuals, and expert-curated questions. Its core purpose is to evaluate the proficiency of large language models (LLMs) in professional MRI knowledge, and specifically uncover the deficiencies in generative recall capabilities that underlie the high scores of these multiple-choice questions. Through a standardized testing framework, this dataset provides a critical assessment tool for the reliability of LLMs in MRI research scenarios.
提供机构:
卡尔加里大学·放射学系; 卡尔加里大学·儿童与青少年影像研究项目; 阿尔伯塔儿童医院研究所
创建时间:
2026-05-07
搜集汇总
数据集介绍
构建方式
MRI-Eval基准由1365道计分多项选择题构成,涵盖九个类别和三个难度层次。题目来源于权威教科书、GE扫描仪应用手册、EPIC编程课程资料以及专家自创问题,覆盖MRI物理基础和GE厂商专有操作知识。每道题被归类至唯一类别,包括GE扫描仪操作、脉冲序列、安全等,并按难度划分为回顾单概念的一级、跨概念整合的二级和专家推理的三级。数据集的构建注重知识边界探查,而非能力确认,尤其突出厂商专有内容这一在常规训练语料中稀缺的维度。
特点
MRI-Eval的核心特点在于其分层结构与互补评估格式的结合。通过设置三个难度层次,该基准能够有效区分模型在基础物理与厂商专有操作知识上的表现差异。此外,除标准多项选择题外,还引入去选项纯文本评估和有提示诊断条件,直接测量模型在无选项线索下的生成式回忆能力。实验发现,模型在多项选择题上的接近满分表现可能掩盖了其在厂商专有内容上的实际缺陷,尤其在GE扫描仪操作类别中,去选项后准确率大幅下降,凸显了多项选择格式的局限性与评估格式互补的必要性。
使用方法
使用MRI-Eval时,用户首先在零样本条件下以四项选择格式对模型进行评测,答案选项需随机打乱,模型以字母形式输出答案。随后可进行去选项纯文本评估,移除全部选项,由独立LLM裁判对模型自由文本回答进行二元正确性判定。此外,有提示诊断条件通过向模型提出一个错误答案并请求其判断,用于探查模型对用户误导信息的响应模式。所有脚本和复制性文件已公开于GitHub,但完整题库被保留以防训练数据污染。
背景与挑战
背景概述
MRI-Eval数据集由加拿大卡尔加里大学放射学系的Perry E. Radau于2026年创建,旨在系统评估大语言模型在磁共振成像物理学与GE扫描仪操作知识方面的表现。该数据集填补了现有基准测试的空白——先前唯一的MRI领域LLM基准仅基于1995年技师复习书的选择题,缺乏供应商特定操作内容与难度分层。MRI-Eval包含1365道多选题目,覆盖九个知识类别与三个难度层级,题目源自教科书、GE扫描仪应用手册、编程课程材料及专家生成问题。五个代表性模型(GPT-5.4、Claude Opus 4.6、Claude Sonnet 4.6、Gemini 2.5 Pro、Llama 3.3 70B)在标准化条件下进行了评估。该数据集的核心贡献在于揭示了多选题高正确率可能掩盖知识检索的薄弱环节,尤其是供应商特定操作知识领域,为MRI研究中LLM的可靠应用提供了关键洞察。
当前挑战
MRI-Eval面临的核心挑战源于LLM在专业领域评估中固有的结构性难题。首先,领域问题层面,现有基准无法区分模型是真正掌握知识还是依赖选项识别——所有模型在多选题上达到93.2%至97.1%的正确率,但去除选项后前沿模型正确率骤降至58.4%至61.1%,Llama 3.3 70B更跌至37.1%,尤其在GE扫描操作类别中仅存13.8%至29.8%。这种选择题与自由回忆之间的巨大鸿沟暗示高正确率可能源自选项长度线索(84.9%的题目正确选项长度超过干扰项均值1.3倍)而非实质理解。其次,构建过程遭遇的挑战包括:Tier 3专家级题目仅18道导致统计效力不足;单一领域专家验证可能引入主观偏差;Gemini 2.5 Pro的强制推理模式造成方法学不对称;独立LLM评判器Grok的严格性偏差使绝对正确率可能低估2-3个百分点。这些因素共同制约了基准的绝对能力标定功能,而更适合作为相对模型比较工具。
常用场景
经典使用场景
在磁共振成像(MRI)这一高度专业化的医学影像领域,MRI-Eval数据集被设计为一个多层次、多维度的基准测试工具,专门用于评估大语言模型在MRI物理学与GE品牌扫描仪操作知识上的表现。其经典使用场景在于通过标准化选择题(MCQ)对模型进行核心知识评测,并结合去选项自由文本回答与错误提示诊断性测试,全面揭示模型在MRI专业知识上的真实掌握程度,尤其关注其对厂商特定技术细节的理解能力。
衍生相关工作
基于MRI-Eval的发现,该数据集已催生出一系列衍生的经典研究工作。其中最直接的方向是评估检索增强系统,利用GE官方文档作为检索源,旨在弥补模型在厂商操作知识上的生成性缺陷。此外,针对原基准中初级诊断测试所揭示的模型赞同偏差现象,后续工作正设计专注的谄媚行为评估框架,通过置信度评分引导来分离用户附和与答案提示效应。这些衍生研究共同推动了LLM在医疗设备操作领域评估范式的深化与实用化转型。
数据集最近研究
最新研究方向
在当前大语言模型(LLM)迅猛渗透至科研与临床决策的浪潮下,MRI领域对其在专业物理知识与设备操作层面的可靠性提出了迫切检验需求。MRI-Eval数据集应运而生,它以分层基准的形式系统评估了LLM在磁共振物理及GE扫描仪操作知识上的掌握程度。最新研究聚焦于揭示多选题(MCQ)与自由文本生成能力之间的显著鸿沟——尤其在GE专属操作知识方面,前沿模型的高MCQ得分(超93%)并未转化为同等水平的生成式回忆,回答去选项后准确率骤降至不足30%。这一发现警示学界与工业界,不应以MCQ分数作为模型在垂直专业领域具备实际部署能力的凭证。研究进一步推动了检索增强生成(RAG)与文档依托型系统作为下一代解决方案的探索,意图弥补纯参数化知识在厂商专有内容上的薄弱地带。MRI-Eval的发布,不仅为评估LLM在专业医学成像领域的真知储备提供了更为严苛的工具,更深刻影响了MRI协议自动化决策的安全性认知,促使整个社区重新审视AI在关键临床路径中的角色边界。
相关研究论文
  • 1
    MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge卡尔加里大学·放射学系; 卡尔加里大学·儿童与青少年影像研究项目; 阿尔伯塔儿童医院研究所 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作