CheXStruct and CXReasonBench
收藏arXiv2025-05-24 更新2025-05-27 收录
下载链接:
https://github.com/ttumyche/CXReasonBench
下载链接
链接失效反馈官方服务:
资源简介:
CheXStruct 和 CXReasonBench 是一个基于公开的 MIMIC-CXR-JPG 数据集构建的结构化流程和基准,用于评估模型在胸片上的结构化诊断推理能力。该数据集包含 18,988 个 QA 对,涵盖 12 个诊断任务和 1,200 个病例,每个 QA 对配对最多 4 个视觉输入,支持多路径、多阶段评估,包括通过解剖区域选择和诊断测量进行视觉定位。
提供机构:
韩国科学技术院(KAIST)
创建时间:
2025-05-24
原始信息汇总
CXReasonBench数据集概述
数据集基本信息
- 名称:CXReasonBench
- 用途:用于评估胸部X射线中的结构化诊断推理
- 相关论文:CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays
数据集特点
- 专注于胸部X射线的结构化诊断推理评估
- 提供基准测试功能
相关资源
- 论文链接:https://arxiv.org/pdf/2505.18087
搜集汇总
数据集介绍

构建方式
CheXStruct and CXReasonBench 的构建基于公开的 MIMIC-CXR-JPG 数据集,采用全自动流水线从胸部 X 光影像中提取结构化临床信息。该流程首先通过预训练的解剖分割模型 CXAS 识别关键解剖区域,随后提取解剖标志点和诊断测量值,计算诊断指数,并应用临床阈值进行判断。为确保数据质量,系统实施了任务特定的质量控制规则,自动过滤不符合解剖有效性或临床可靠性标准的样本,最终生成包含多步骤参考答案的高质量数据集。
特点
该数据集的核心特点在于其精细的结构化推理评估框架,涵盖 12 项诊断任务和 18,988 个问答对,支持多路径、多阶段的评估模式。CXReasonBench 不仅评估最终诊断答案的正确性,更注重模型在解剖结构识别、测量计算和临床规则应用等中间步骤的表现。其独特之处在于提供视觉基础验证(如解剖区域选择)和诊断测量,并引入专家定义的量化标准,确保评估的临床相关性和可重复性。
使用方法
数据集的使用分为两条评估路径:路径一直接评估模型从初始诊断到最终决策的完整推理过程,要求模型逐步完成标准选择、结构识别、测量计算和阈值应用;路径二则在模型表示不确定时提供结构化指导,测试其从标注中学习并泛化至新病例的能力。评估采用多选格式,结合 Wilson 评分机制确保公平性,支持对模型一致性、对齐度和推理深度等指标的量化分析,适用于视觉-语言模型在医疗诊断中的细粒度性能验证。
背景与挑战
背景概述
CheXStruct与CXReasonBench数据集由KAIST、首尔大学医院及首尔医疗中心的研究团队于2025年联合创建,旨在推动胸部X光影像的结构化诊断推理研究。该数据集基于公开的MIMIC-CXR-JPG数据构建,通过自动化流程提取解剖区域分割、诊断测量指标及临床阈值应用等中间推理步骤,填补了现有医学视觉问答基准仅关注最终诊断结果而忽视临床推理过程的空白。其多阶段评估框架涵盖12项诊断任务和18,988对问答数据,显著提升了诊断推理的可解释性与透明度,对医学人工智能领域的可信评估具有里程碑意义。
当前挑战
该数据集核心挑战在于解决胸部X光诊断中结构化推理的评估难题,要求模型具备解剖结构定位、定量测量计算和临床规则应用的多层次能力。构建过程中面临两大挑战:一是自动化流水线需协调分割模型精度与临床规则的一致性,通过专家定义的质量控制规则过滤低质量样本;二是多路径评估框架需平衡标准化诊断准则与专家定制规则的兼容性,例如将依赖影像元数据的绝对测量转化为图像可计算的相对比例指标,确保评估的临床有效性与技术可行性。
常用场景
经典使用场景
在医学影像分析领域,CXReasonBench作为结构化诊断推理的评估基准,主要用于测试大型视觉语言模型在胸部X光片诊断任务中的多步推理能力。该数据集通过解剖结构分割、诊断测量计算和临床阈值应用等标准化流程,构建了包含12项诊断任务的18,988对问答数据,支持从解剖区域选择到定量计算的多阶段评估。
衍生相关工作
基于该数据集衍生的研究包括多模态医学推理模型的微调范式、视觉-语言模型在医疗领域的可解释性增强方法,以及结构化知识引导的诊断决策框架。相关工作还扩展到医疗报告生成系统的真实性验证、解剖结构分割模型的迭代优化,以及临床决策支持系统的透明度评估标准建立。
数据集最近研究
最新研究方向
在医学影像分析领域,CheXStruct与CXReasonBench数据集的推出标志着对大型视觉语言模型(LVLM)诊断推理能力评估范式的重大革新。该数据集基于MIMIC-CXR-JPG构建,通过自动化流程提取胸部X光片的解剖结构分割、诊断测量指标及临床阈值应用等结构化推理步骤,填补了现有基准仅关注最终诊断结果而忽视中间临床推理过程的空白。其前沿研究聚焦于多路径多阶段评估框架,涵盖解剖区域选择、视觉 grounding 和诊断测量等维度,揭示了当前顶尖模型在结构化推理与泛化能力上的显著缺陷,尤其是在抽象知识与视觉解释的衔接方面。这一工作推动了可解释医疗AI的发展,为模型训练提供了细粒度监督信号,并促进了临床决策透明化评估标准的建立。
相关研究论文
- 1CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays韩国科学技术院(KAIST) · 2025年
以上内容由遇见数据集搜集并总结生成



