CXReasonBench

github2026-03-22 更新2026-04-09 收录

下载链接：

https://github.com/ttumyche/CXReasonBench

下载链接

链接失效反馈

官方服务：

资源简介：

CXReasonBench是一个多路径、多阶段的评估框架，用于评估模型在胸部X光中进行结构化诊断推理的能力。该基准包括12个诊断任务的18,988个问答对和1,200个案例，每个案例最多有4个视觉输入，能够详细评估推理步骤，包括视觉定位和诊断测量。

CXReasonBench is a multi-path, multi-stage evaluation framework for assessing models' capabilities of performing structured diagnostic reasoning on chest X-rays. This benchmark includes 18,988 question-answer pairs across 12 diagnostic tasks and 1,200 cases, with each case supporting up to 4 visual inputs. It enables detailed evaluation of reasoning steps, including visual localization and diagnostic measurement.

创建时间：

2026-03-22

原始信息汇总

CXReasonBench 数据集概述

数据集基本信息

数据集名称: CXReasonBench (CheXStruct)
核心内容: 一个用于评估胸部X射线结构化诊断推理能力的基准。
发布会议: The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track (NeurIPS 2025 D&B Track - Spotlight)
相关论文: arXiv:2505.18087

数据集构成与规模

数据总量: 包含18,988个问答对。
覆盖病例: 基于1,200个病例。
视觉输入: 每个病例最多包含4个视觉输入。
任务类型: 涵盖12项诊断任务。

数据集核心特点

评估重点: 专注于评估模型进行结构化诊断推理的能力，而非仅关注最终诊断答案。
评估框架: 采用多路径、多阶段的评估框架。
评估维度: 能够对推理步骤进行详细评估，包括视觉定位和诊断测量。
关联工具: 与自动化结构化信息提取管道“CheXStruct”关联。该管道能够从胸部X射线中直接提取结构化临床信息，具体流程包括：解剖分割、解剖标志和诊断测量推导、诊断指数计算以及基于专家指南的临床阈值应用。

数据获取与引用

官方数据源:
- Physionet
- HuggingFace
引用格式:

@inproceedings{leecxreasonbench, title={CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays}, author={Lee, Hyungyung and Choi, Geon and Lee, Jung-Oh and Yoon, Hangyul and Hong, Hyuk Gi and Choi, Edward}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track} }
联系邮箱: ttumyche@kaist.ac.kr

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，评估模型是否具备结构化诊断推理能力至关重要。CXReasonBench的构建依托于CheXStruct自动化流程，该流程从胸部X光影像中提取结构化临床信息。具体而言，系统首先执行解剖结构分割，随后识别关键解剖标志并计算诊断测量指标，进而依据专家指南设定的临床阈值生成诊断指数。这一全自动化的构建方式确保了数据的一致性与可扩展性，为后续的评估任务提供了坚实的数据基础。

特点

该数据集的核心特点在于其多路径、多阶段的评估框架设计。它涵盖了12项诊断任务，包含18,988个问答对以及1,200个病例，每个病例最多可提供4个视觉输入。这种设计使得评估能够深入到视觉定位、诊断测量等具体的推理步骤，而非仅仅关注最终诊断答案。数据集的结构化特性为深入探究大视觉语言模型在临床推理中的能力与局限提供了精细的评估尺度。

使用方法

研究人员可通过PhysioNet或Hugging Face平台获取CXReasonBench数据集。使用该数据集时，应将其应用于评估视觉语言模型在胸部X光影像上的结构化诊断推理性能。典型的评估流程涉及加载数据集中的病例与多阶段问答对，让模型依次完成视觉信息提取、测量计算及诊断判断等任务，并通过对比模型输出与标注的中间步骤及最终答案，系统性地量化模型在临床推理链条上的表现。

背景与挑战

背景概述

在医学人工智能领域，胸部X光影像的自动诊断一直是研究热点。随着大视觉语言模型的快速发展，其在医疗报告生成和视觉问答等任务中展现出潜力，但现有评估基准多聚焦于最终诊断答案，难以深入考察模型是否遵循临床合理的推理过程。为此，由韩国科学技术院等机构的研究团队于2025年创建了CXReasonBench数据集，旨在系统评估模型在胸部X光诊断中的结构化推理能力。该数据集通过多路径、多阶段的评估框架，涵盖近1.9万个问答对和12项诊断任务，推动了医学影像分析向可解释、可验证的推理范式演进，为提升人工智能在临床决策中的可靠性与透明度奠定了重要基础。

当前挑战

CXReasonBench所针对的核心挑战在于解决医学影像诊断中模型缺乏结构化临床推理能力的问题。传统方法往往仅输出诊断结论，而忽略了对解剖结构分割、关键测量指标计算及临床指南应用等中间步骤的评估，导致模型决策过程如同黑箱，难以满足实际医疗场景对可解释性的严格要求。在数据集构建过程中，研究者面临从原始X光影像中自动化提取结构化临床信息的艰巨任务，需设计精准的解剖分割算法、依据专家共识定义诊断指标与阈值，并构建涵盖多阶段推理链的评估体系，确保数据既能反映真实临床复杂性，又具备标准化与可扩展性。

常用场景

经典使用场景

在医学影像分析领域，CXReasonBench作为一项结构化诊断推理评估基准，其经典使用场景集中于系统性地评估大型视觉语言模型在胸部X光片解读中的推理能力。该基准通过多路径、多阶段的评估框架，要求模型不仅输出最终诊断结论，还需展示从解剖分割、关键点定位到测量指标计算等一系列结构化推理步骤，从而深入检验模型是否遵循临床逻辑进行决策。

实际应用

在实际临床应用中，CXReasonBench为开发下一代智能医学影像诊断系统提供了关键的验证工具。其评估框架可直接用于测试临床决策支持系统在真实场景下的结构化推理鲁棒性，例如在胸片异常检测、气胸量化评估或心脏肥大诊断等任务中，确保模型输出不仅准确，而且其推理过程符合放射科医师的思维模式，从而提升辅助诊断系统的实用性与接受度。

衍生相关工作

围绕CXReasonBench，已衍生出一系列专注于增强医学视觉语言模型结构化推理能力的研究工作。例如，基于其评估框架，研究者们开发了融合临床知识图谱的推理模型、引入链式思维提示的策略，以及针对解剖感知的模块化网络架构。这些工作共同推动了医学人工智能从端到端预测向可解释、分步骤临床推理的范式转变，丰富了该领域的技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集