DDX-TRACE

Name: DDX-TRACE
Creator: 慕尼黑工业大学; 慕尼黑工业大学大学医院; 慕尼黑机器学习中心; 慕尼黑大学; 阿尔托大学; 帝国理工学院
Published: 2026-05-22 21:41:10
License: 暂无描述

arXiv2026-05-22 更新2026-05-26 收录

下载链接：

https://huggingface.co/datasets/User3033/DDx-TRACE

下载链接

链接失效反馈

官方服务：

资源简介：

DDX-TRACE是由慕尼黑工业大学等机构联合构建的多模态神经放射学诊断轨迹基准数据集，旨在评估模型在隐藏证据下的序列化诊断决策能力。该数据集包含211个精心筛选的神经放射学病例，涵盖785个可请求的影像检查单元和1609幅图像，数据源自EuroRad教学病例并经过临床专家标准化标注。数据集通过限定初始临床信息、自由形式影像请求和概率性鉴别诊断更新机制，模拟真实临床工作流程。该基准主要应用于评估医疗AI模型的证据获取规划、影像解读和不确定性推理能力，以解决传统终点式评估无法检测的临床决策轨迹质量问题。

DDX-TRACE is a multimodal neuroradiological diagnostic trajectory benchmark dataset jointly developed by the Technical University of Munich and other institutions, aiming to evaluate the sequential diagnostic decision-making capabilities of models under hidden evidence conditions. This dataset contains 211 carefully curated neuroradiological cases, encompassing 785 requestable imaging examination units and 1609 images. The data is sourced from EuroRad teaching cases and has been annotated in a standardized manner by clinical experts. It simulates real-world clinical workflows by restricting initial clinical information, enabling free-form imaging requests, and adopting a probabilistic differential diagnosis update mechanism. This benchmark is primarily utilized to evaluate the evidence acquisition planning, image interpretation and uncertainty reasoning capabilities of medical AI models, so as to address the issue of clinical decision trajectory quality that cannot be detected by traditional endpoint-based assessments.

提供机构：

慕尼黑工业大学; 慕尼黑工业大学大学医院; 慕尼黑机器学习中心; 慕尼黑大学; 阿尔托大学; 帝国理工学院

创建时间：

2026-05-22

原始信息汇总

数据集概要

DDx-TRACE 是一个基于 EuroRad 来源的神经放射学基准数据集，旨在评估多模态鉴别诊断推理与证据追踪能力。数据集包含病例、图像、诊断步骤及影像检查记录。

数据集规模

病例数：191 个
图像/子图数：1609 张
影像检查/证据单元记录：811 条
诊断步骤记录：789 条

数据文件组成

data/eurorad_neuro_01_release.json：基准代码使用的源嵌套清单文件。
data/cases.csv：每行对应一个病例。
data/images.csv：每行对应一张图像或子图。
data/diagnostic_steps.csv：每行对应一个诊断轨迹步骤。
data/imaging_examinations.csv：每行对应一项影像检查或证据单元。
data/DDx-TRACE-images.tar.zst：图像归档文件，路径与 images.csv:image_path 及 JSON 清单中 images[].path 字段匹配。
ATTRIBUTION.tsv：图像级归属元数据。
croissant.json：包含核心与负责任 AI 字段的 Croissant 元数据。

数据配置

该数据集提供四个配置，均使用 test 拆分：

cases：对应 data/cases.csv
images：对应 data/images.csv
diagnostic_steps：对应 data/diagnostic_steps.csv
imaging_examinations：对应 data/imaging_examinations.csv

语言与标签

语言：英语
标签：medical-imaging, neuroradiology, differential-diagnosis, multimodal-evaluation, evidence-tracing, mlcroissant, image

许可证与来源

许可证：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International（CC BY-NC-SA 4.0）
来源：公开的 EuroRad 病例
归属信息：提供于 data/eurorad_neuro_01_release.json、data/images.csv 及 ATTRIBUTION.tsv 中

预期用途

应用于多模态诊断推理、证据追踪、基于评分标准的评估以及数据集文档与溯源流程的研究评估。

非预期用途

不适用于临床决策支持、患者诊断、分诊、治疗规划或商业医疗产品验证。

敏感信息

数据集中包含与健康相关的医学图像及公开病例叙述，包含有限的病人描述信息（如年龄、性别、国家）。原始病例为公开且经去标识化处理，但无法完全排除再识别的残留风险。

已知局限与偏差

DDx-TRACE 不具备人群代表性，继承了病例报告选择偏差、对教学性或罕见病例的发表偏好、EuroRad 贡献者的地理/机构偏倚、影像模态可用性偏差以及 DDx-TRACE 构建过程中注解模式的偏差。

引用

引用信息应在论文被接收或相机-ready 发布后替换为 NeurIPS/OpenReview 的引用内容。

搜集汇总

数据集介绍

构建方式

在神经放射学领域，临床诊断本质上是基于证据的序贯决策过程，而非对完整临床资料的终点预测。DDX-TRACE 基准测试正是基于这一认识而构建，它从 EuroRad 教学案例库中精心筛选出 211 个复杂病例，每个病例均包含有限的初始病史、785 个可请求的影像检查单元以及 1609 张图像。每个病例被重构为一个隐藏证据清单，模型仅能获知初始病史，随后需通过自由文本依次请求影像检查，每轮获取匹配的图像束，并更新包含四个候选诊断及其概率的鉴别诊断列表。五名执业医师对每个病例的检查重要性、优先顺序、难度和罕见度进行了独立标注与交叉审核，最终通过资深医师的元审查解决分歧，确保了标注的高质量与临床一致性。

使用方法

使用 DDX-TRACE 时，模型需遵循严格的回合制交互协议：初始回合仅接收有限的临床病史，之后每轮需输出一个JSON格式的应答，包含当前四个鉴别诊断及其概率、一个自由文本的影像检查请求或停止指令以及最终定位信息。检查请求通过确定性解析器与隐藏的检查池进行匹配，每轮最多揭示一个匹配的图像束。模型在最多8轮对话中完成整个工作流，基准通过端点指标与路径指标联合评估其表现。研究者可利用控制变量变体（如一次性揭示所有图像、按黄金顺序揭示或提供专家文本发现）来解耦模型在规划、视觉提取与推理等不同环节的失败模式，从而精准定位系统的薄弱环节并指导模型改进方向。

背景与挑战

背景概述

DDX-TRACE是一个由慕尼黑工业大学、慕尼黑大学医院及帝国理工学院等机构联合构建的神经放射学多模态诊断轨迹基准数据集，发表于2026年。该数据集由Jiazhen Pan、Weixiang Shen等人主导，旨在攻克当前医学人工智能评估体系中以终点答案为导向的根本局限——传统基准如MedQA或VQA-RAD仅对最终诊断进行评分，却无法揭示模型是否通过合理的证据获取与推理链条抵达该结论。DDX-TRACE基于211例经医师裁定的EuroRad神经放射学病例，设计了隐藏证据、逐步获取影像、更新概率鉴别诊断并最终定位病灶的模拟临床工作流，为评估模型在真实诊断过程中的证据召回、工作流顺序、置信度校准等能力提供了开创性框架，对推动医学多模态模型从答案式评估转向流程式评估具有里程碑意义。

当前挑战

DDX-TRACE面临的核心挑战源于诊断本身从静态预测向动态决策过程的范式转变。首先，在领域问题层面，传统医学基准仅评估最终答案的准确性，而DDX-TRACE要求模型在有限临床病史下主动规划影像检查请求、自由形式地获取证据、识别未提供的检查，并逐一更新概率性鉴别诊断，这暴露出当前VLM在主动证据获取规划、原始影像视觉特征提取以及下游推理整合上的三重瓶颈。其次，在构建过程中，团队需将EuroRad公开病例重构成隐藏证据库，每位病例涉及785个可请求的影像单元与1609张图像，医师需手工标注每项检查的重要性等级（必要/可选/不必要）、最佳工作流顺序及病例难度，并协调多位专科医师间的分歧（如必要与可选的边界争议），确保标注的临床可靠性，这对标注流程的严格控制与一致性校验提出了极高要求。

常用场景

经典使用场景

在医学影像诊断领域，传统基准测试往往将诊断简化为给定完整临床信息后的单一答案预测，忽视了临床上循序渐进的证据采集与推理过程。DDX-TRACE数据集正是在这一背景下应运而生，它专注于评估视觉语言模型（VLM）在部分信息条件下的多轮诊断推理能力。该数据集最经典的使用场景是模拟医生在神经影像学中的实际工作流程：模型仅接收有限的病史信息，随后需要自主决定请求何种影像学检查，在获得影像结果后更新鉴别诊断的概率分布，直至收集到足够证据后给出最终定位诊断。这使得从终点导向的单次预测评估范式，转向对诊断轨迹全过程的质量考量。

解决学术问题

DDX-TRACE核心解决了当前医学AI基准测试中一个根本性的学术盲区：终点准确率无法反映诊断过程质量。传统方法将全部关键证据预先揭示并仅评价最终答案，使得模型可能通过猜测获取正确答案，却掩盖了其缺乏必要证据、过早关闭诊断、无效检查或置信度更新不当等临床重大问题。该数据集通过引入过程感知的评估框架，系统性地衡量了证据召回率、检查顺序一致性、无效请求率、停止行为以及基于置信度的信念更新质量，揭示了当前最先进的视觉语言模型在主动证据获取、图像到发现提取和不确定性推理方面的显著瓶颈，推动了医学AI从“模型给出了什么诊断”向“模型如何到达该诊断以及诊断路径是否临床充分”的范式转变。

实际应用

在实际临床场景中，DDX-TRACE所定义的任务范式具有深远的应用价值。它模拟了放射科医生日常工作中的核心挑战：面对有限的患者主诉和体征，医生必须理性决策下一步检查方案，在逐步获取影像结果的过程中动态调整鉴别诊断的优先顺序，并最终在证据充分时做出精准的定位诊断。该数据集构建的评估体系可直接应用于智能诊断辅助系统的开发与验证，帮助识别模型在临床工作流程中的薄弱环节——例如模型是否倾向于过早下结论、是否忽略关键检查、是否无法正确解读多模态影像的协同证据。这些洞察对于设计真正具备临床决策支持能力、而非仅仅擅长考试问答的医学人工智能系统至关重要，尤其适用于急诊神经影像、疑难病例会诊等对诊断路径质量要求极高的场景。

数据集最近研究