MedErr-CT
收藏arXiv2025-06-24 更新2025-06-28 收录
下载链接:
https://github.com/babbu3682/MedErr-CT
下载链接
链接失效反馈官方服务:
资源简介:
MedErr-CT数据集是一个用于评估医疗多模态大语言模型(MLLMs)在CT报告中识别和纠正错误能力的视觉问答(VQA)基准。该数据集由韩国蔚山大学医学院生物医学工程系的Sunggu Kyung等人创建,包含六种错误类型,分为视觉中心错误和词汇错误,并分为三个任务难度等级:分类、检测和纠正。数据集采用CT-RATE和RadGenome-Chest CT数据集的区域级报告,利用DSPy框架和LLaMA-3.3-70B模型生成错误报告。MedErr-CT数据集旨在解决临床诊断中CT报告错误率高的问题,通过评估MLLMs在识别和纠正CT报告中的错误的能力,推动更可靠和临床适用的MLLMs的开发,最终帮助减少诊断错误并提高临床实践中的准确性。
提供机构:
韩国蔚山大学医学院生物医学工程系
创建时间:
2025-06-24
搜集汇总
数据集介绍

构建方式
MedErr-CT数据集的构建依托于RadGenome-Chest CT的区域级报告数据,通过自动化流程生成包含六种错误类型的失真报告。研究团队采用DSPy框架结合LLaMA-3.3-70B模型,针对遗漏、插入、方向、大小、单位和拼写错误等类别生成结构化问答对。为确保数据质量,最终由两名放射科医师对生成的40,000组问答数据进行人工验证,形成包含三个难度层级(分类、检测、校正)的评估体系。
特点
该数据集创新性地融合了视觉中心错误与词汇错误两大类别,其中方向错误和尺寸错误等四种视觉相关错误类型尤其考验模型对CT影像的深层理解能力。区别于传统医疗VQA数据集,MedErr-CT通过分层任务设计(错误存在性判断、错误定位及修正)系统评估模型的临床推理能力,其包含的3,000例患者数据覆盖肺部结节与胸腔积液等典型病变,为三维医学多模态大模型提供了首个专注于报告纠错的基准测试平台。
使用方法
使用者可通过GitHub获取数据集后,按照分类、检测、校正三级任务框架进行评估。在分类阶段需判断报告是否存在错误;检测阶段要求定位错误语句位置;校正阶段则需生成修正后的准确描述。评估指标包含传统文本相似度度量(BLEU、ROUGE-L)及医疗特异性指标GREEN,建议配合CT影像原始数据共同输入模型,以全面测试模型结合视觉-文本信息进行错误诊断的能力。
背景与挑战
背景概述
MedErr-CT是由韩国蔚山大学医学院生物医学工程系的研究团队于2025年提出的创新性基准数据集,旨在通过视觉问答(VQA)框架评估多模态大语言模型(MLLMs)在CT报告错误识别与修正方面的能力。该数据集基于胸部CT影像与放射学报告构建,包含六类临床常见错误(遗漏、插入、方向、大小、单位、拼写错误),并设立分类、检测、修正三级渐进式任务难度。作为首个专注于3D医学影像报告错误分析的基准,其创新性地将视觉中心错误与文本错误相结合,填补了现有医学VQA数据集在临床相关性方面的空白,为提升AI辅助诊断的可靠性提供了重要研究工具。
当前挑战
MedErr-CT面临的核心挑战体现在两个维度:在领域问题层面,需解决医学影像报告中30%的高错误率问题,但现有MLLMs存在生成误导性信息的风险,且传统评估基准多局限于简单视觉识别任务,缺乏对临床级复杂推理能力的验证;在构建技术层面,需克服3D医学数据标注成本高、错误类型模拟需兼顾视觉语义合理性、以及跨模态对齐等难题。具体挑战包括:如何定义具有临床意义的错误分类体系,确保生成错误的真实性;设计能区分专家级知识的多层次评估框架;处理CT影像高维度特征与文本报告的细粒度关联;以及解决模型在修正任务中普遍存在的过度检测或漏检问题。
常用场景
经典使用场景
在医学影像诊断领域,MedErr-CT数据集为多模态大语言模型(MLLMs)的评估提供了独特场景。该数据集通过构建包含六类CT报告错误的视觉问答框架(如遗漏、方向错误等),系统检验模型对放射科文本错误的识别与修正能力。其经典性体现在模拟真实临床工作流,要求模型完成从错误分类、定位到修正的三级渐进任务,有效填补了现有医学VQA基准在三维影像与复杂临床推理结合评估上的空白。
实际应用
在实际临床场景中,MedErr-CT可直接应用于放射科工作站的智能质控系统。例如自动筛查CT报告中常见的大小单位错误(4,170个标注样本)或解剖结构方向描述偏差(5,826个样本),显著降低因医师疲劳导致的误诊风险。数据集涵盖的结节与胸腔积液两类高频病变,对应肺癌筛查与胸水评估等关键场景,其40,000余条错误-修正对可为AI系统提供实时纠错训练样本,提升放射科报告生成系统的临床可靠性。
衍生相关工作
该数据集推动了三维医学多模态模型的迭代研究,直接催生了CT-CHAT、MedM-VL等先进模型的优化。其构建方法启发了后续工作如MedVH对医疗幻觉的评估框架,而采用的GREEN指标(评估事实准确性)已成为医学文本生成的新标准。在技术层面,数据集首次验证了指令数据规模(如CT-RATE的270万样本)与模型纠错性能的正相关性,为3D医学大模型的训练范式提供了关键实证依据。
以上内容由遇见数据集搜集并总结生成



