DrVD-Bench

github2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/Jerry-Boss/DrVD-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

DrVD-Bench是第一个用于临床视觉推理的多模态基准，包含三个模块：视觉证据理解、推理轨迹评估和报告生成评估，共7,789个图像-问题对。该基准覆盖20种任务类型、17种诊断类别和五种成像模态（CT、MRI、超声、X射线和病理学），并模拟了从模态识别到病变识别和诊断的临床工作流程。

DrVD-Bench is the first multimodal benchmark for clinical visual reasoning. It consists of three modules: visual evidence understanding, reasoning trajectory evaluation, and report generation evaluation, with a total of 7,789 image-question pairs. This benchmark covers 20 task types, 17 diagnostic categories, and five imaging modalities: CT, MRI, ultrasound, X-ray, and pathology, and simulates the clinical workflow spanning from modality recognition to lesion recognition and diagnosis.

创建时间：

2025-05-14

原始信息汇总

DrVD-Bench 数据集概述

数据集简介

DrVD-Bench 是一个用于评估视觉-语言模型（VLMs）在医学图像诊断中是否像人类医生一样推理的多模态基准。该数据集包含三个模块：视觉证据理解、推理轨迹评估和报告生成评估，共计 7,789 个图像-问题对。

数据集特点

覆盖范围：
- 任务类型：20种
- 诊断类别：17种
- 成像模态：CT、MRI、超声、X射线和病理学
临床工作流：从模态识别到病变识别和诊断的完整流程。

数据集用途

评估对象：19种视觉-语言模型（包括通用和医学专用、开源和专有模型）。
评估结果：模型性能随推理复杂性增加而显著下降，部分模型表现出类似人类的推理痕迹，但多数依赖表面相关性而非视觉理解。

快速开始

环境准备

bash pip3 install -r requirements.txt

数据集获取

Kaggle：https://www.kaggle.com/datasets/tianhongzhou/drvd-bench/data
Hugging Face：https://huggingface.co/datasets/jerry1565/DrVD-Bench

模型输出格式要求

visual_evidence_qa.jsonl / independent_qa.jsonl：单字母（如 A、B、C）。
joint_qa.jsonl：字母列表（如 [B,D,A]）。
report_generation.jsonl：完整字符串。

推理示例

使用 Qwen-2.5-VL-72B API 进行推理： bash python qwen2.5vl_example.py --API_KEY="your_qwen_api_key" --INPUT_PATH="/path/to/joint_qa.jsonl" --OUTPUT_PATH="/path/to/result.jsonl" --IMAGE_ROOT=path/to/benchmark/data/root --type="joint"

指标计算

视觉证据理解 / 独立问答： bash python compute_choice_metric.py --json_path="/path/to/results.jsonl" --type=single
联合问答： bash python compute_choice_metric.py --json_path="/path/to/results.jsonl" --type=joint
报告生成： bash python report_generation_metric.py --API_KEY=your_deepseek_api_key --JSON_PATH=/path/to/results.jsonl

联系方式

Tianhong Zhou：zth24@mails.tsinghua.edu.cn
Yin Xu：xuyin23@mails.tsinghua.edu.cn
Yingtao Zhu：zhuyt22@mails.tsinghua.edu.cn

搜集汇总

数据集介绍

构建方式

在医学影像诊断领域，DrVD-Bench数据集的构建采用了系统化的多模态评估框架，通过整合临床工作流程中的关键环节，构建了包含7,789个图像-问题对的大规模基准测试。该数据集采用三级模块化设计：视觉证据理解模块评估基础图像识别能力，推理轨迹评估模块模拟医生诊断思维过程，报告生成模块测试综合表达能力。数据覆盖CT、MRI等5种影像模态，涉及17种诊断类别和20种任务类型，所有样本均经过临床专家严格标注以确保专业性和可靠性。

使用方法

使用DrVD-Bench需通过Kaggle或Hugging Face获取原始数据，按照指定JSONL格式组织影像路径和问题。评估流程支持API调用和本地推理两种模式，对于视觉问答任务需输出标准化选项字母，联合推理任务则需提交有序预测序列。报告生成评估依赖DeepSeek API进行关键词提取，配套提供的映射脚本可将非结构化输出转为可评估格式。基准测试提供三类专用评估脚本，分别计算单选准确率、多步推理匹配度和报告生成质量，所有指标实现均保持与临床判断准则的一致性。

背景与挑战

背景概述

DrVD-Bench是由清华大学研究人员Tianhong Zhou、Yin Xu和Yingtao Zhu等人提出的首个多模态临床视觉推理基准测试。该数据集创建于2023年，旨在系统评估视觉语言模型（VLMs）在医学图像诊断中是否真正具备类似人类医生的推理能力。数据集包含7,789个图像-问题对，涵盖20种任务类型、17种诊断类别和5种成像模态（CT、MRI、超声、X射线和病理学），完整模拟了从模态识别到病灶定位再到最终诊断的临床工作流程。作为医学人工智能领域的重要基准，DrVD-Bench为开发具有临床可信度的视觉语言模型提供了严谨的评估框架。

当前挑战

DrVD-Bench面临的核心挑战体现在两个方面：在领域问题层面，现有视觉语言模型往往依赖表面相关性而非真正的视觉理解，当推理复杂度增加时性能显著下降；在构建过程中，需要精准模拟临床医生的诊断推理轨迹，同时确保数据集的全面性以覆盖多种医学影像模态和诊断场景。此外，评估指标的设计也面临挑战，需要区分模型是进行真实推理还是简单模式模仿，这对医学AI的可解释性提出了更高要求。

常用场景

经典使用场景

在医学影像诊断领域，DrVD-Bench数据集通过其多模态特性，为视觉语言模型（VLMs）提供了一个系统评估临床推理能力的平台。该数据集包含7,789个图像-问题对，覆盖20种任务类型、17种诊断类别和五种成像模态，能够模拟从模态识别到病变诊断的完整临床工作流程。研究人员利用该数据集，可以深入探究模型在视觉证据理解、推理轨迹评估和报告生成等方面的表现，从而揭示模型是否真正具备类似医生的推理能力。

解决学术问题

DrVD-Bench数据集有效解决了医学影像分析中模型推理能力评估的空白问题。传统方法往往局限于表面模式的模仿，而该数据集通过结构化设计，能够系统评估模型是否具备基于视觉理解的临床推理能力。研究表明，现有模型在复杂推理任务中表现显著下降，揭示了其依赖短路径相关性的局限性。这一发现为开发更具临床可信度的视觉语言模型提供了关键方向，推动了医学人工智能向更可靠、更透明的方向发展。

实际应用

在实际医疗场景中，DrVD-Bench数据集的应用价值体现在提升诊断辅助系统的可靠性上。通过该数据集的评估，医疗机构能够筛选出真正具备临床推理能力的模型，用于辅助放射科医生进行影像解读。数据集涵盖的CT、MRI、超声、X光和病理等多种成像模态，使其能够适应不同专科的诊断需求。此外，该数据集还可用于医学教育，帮助培训医学生建立规范的诊断思维模式。

数据集最近研究