DrVD-Bench
收藏github2025-05-16 更新2025-05-17 收录
下载链接:
https://github.com/Jerry-Boss/DrVD-Bench
下载链接
链接失效反馈官方服务:
资源简介:
DrVD-Bench是第一个用于临床视觉推理的多模态基准,包含三个模块:视觉证据理解、推理轨迹评估和报告生成评估,共7,789个图像-问题对。该基准覆盖20种任务类型、17种诊断类别和五种成像模态(CT、MRI、超声、X射线和病理学),并模拟了从模态识别到病变识别和诊断的临床工作流程。
DrVD-Bench is the first multimodal benchmark for clinical visual reasoning. It consists of three modules: visual evidence understanding, reasoning trajectory evaluation, and report generation evaluation, with a total of 7,789 image-question pairs. This benchmark covers 20 task types, 17 diagnostic categories, and five imaging modalities: CT, MRI, ultrasound, X-ray, and pathology, and simulates the clinical workflow spanning from modality recognition to lesion recognition and diagnosis.
创建时间:
2025-05-14
原始信息汇总
DrVD-Bench 数据集概述
数据集简介
DrVD-Bench 是一个用于评估视觉-语言模型(VLMs)在医学图像诊断中是否像人类医生一样推理的多模态基准。该数据集包含三个模块:视觉证据理解、推理轨迹评估和报告生成评估,共计 7,789 个图像-问题对。
数据集特点
- 覆盖范围:
- 任务类型:20种
- 诊断类别:17种
- 成像模态:CT、MRI、超声、X射线和病理学
- 临床工作流:从模态识别到病变识别和诊断的完整流程。
数据集用途
- 评估对象:19种视觉-语言模型(包括通用和医学专用、开源和专有模型)。
- 评估结果:模型性能随推理复杂性增加而显著下降,部分模型表现出类似人类的推理痕迹,但多数依赖表面相关性而非视觉理解。
快速开始
环境准备
bash pip3 install -r requirements.txt
数据集获取
- Kaggle:https://www.kaggle.com/datasets/tianhongzhou/drvd-bench/data
- Hugging Face:https://huggingface.co/datasets/jerry1565/DrVD-Bench
模型输出格式要求
- visual_evidence_qa.jsonl / independent_qa.jsonl:单字母(如
A、B、C)。 - joint_qa.jsonl:字母列表(如
[B,D,A])。 - report_generation.jsonl:完整字符串。
推理示例
使用 Qwen-2.5-VL-72B API 进行推理: bash python qwen2.5vl_example.py --API_KEY="your_qwen_api_key" --INPUT_PATH="/path/to/joint_qa.jsonl" --OUTPUT_PATH="/path/to/result.jsonl" --IMAGE_ROOT=path/to/benchmark/data/root --type="joint"
指标计算
-
视觉证据理解 / 独立问答: bash python compute_choice_metric.py --json_path="/path/to/results.jsonl" --type=single
-
联合问答: bash python compute_choice_metric.py --json_path="/path/to/results.jsonl" --type=joint
-
报告生成: bash python report_generation_metric.py --API_KEY=your_deepseek_api_key --JSON_PATH=/path/to/results.jsonl
联系方式
- Tianhong Zhou:zth24@mails.tsinghua.edu.cn
- Yin Xu:xuyin23@mails.tsinghua.edu.cn
- Yingtao Zhu:zhuyt22@mails.tsinghua.edu.cn
搜集汇总
数据集介绍

构建方式
在医学影像诊断领域,DrVD-Bench数据集的构建采用了系统化的多模态评估框架,通过整合临床工作流程中的关键环节,构建了包含7,789个图像-问题对的大规模基准测试。该数据集采用三级模块化设计:视觉证据理解模块评估基础图像识别能力,推理轨迹评估模块模拟医生诊断思维过程,报告生成模块测试综合表达能力。数据覆盖CT、MRI等5种影像模态,涉及17种诊断类别和20种任务类型,所有样本均经过临床专家严格标注以确保专业性和可靠性。
使用方法
使用DrVD-Bench需通过Kaggle或Hugging Face获取原始数据,按照指定JSONL格式组织影像路径和问题。评估流程支持API调用和本地推理两种模式,对于视觉问答任务需输出标准化选项字母,联合推理任务则需提交有序预测序列。报告生成评估依赖DeepSeek API进行关键词提取,配套提供的映射脚本可将非结构化输出转为可评估格式。基准测试提供三类专用评估脚本,分别计算单选准确率、多步推理匹配度和报告生成质量,所有指标实现均保持与临床判断准则的一致性。
背景与挑战
背景概述
DrVD-Bench是由清华大学研究人员Tianhong Zhou、Yin Xu和Yingtao Zhu等人提出的首个多模态临床视觉推理基准测试。该数据集创建于2023年,旨在系统评估视觉语言模型(VLMs)在医学图像诊断中是否真正具备类似人类医生的推理能力。数据集包含7,789个图像-问题对,涵盖20种任务类型、17种诊断类别和5种成像模态(CT、MRI、超声、X射线和病理学),完整模拟了从模态识别到病灶定位再到最终诊断的临床工作流程。作为医学人工智能领域的重要基准,DrVD-Bench为开发具有临床可信度的视觉语言模型提供了严谨的评估框架。
当前挑战
DrVD-Bench面临的核心挑战体现在两个方面:在领域问题层面,现有视觉语言模型往往依赖表面相关性而非真正的视觉理解,当推理复杂度增加时性能显著下降;在构建过程中,需要精准模拟临床医生的诊断推理轨迹,同时确保数据集的全面性以覆盖多种医学影像模态和诊断场景。此外,评估指标的设计也面临挑战,需要区分模型是进行真实推理还是简单模式模仿,这对医学AI的可解释性提出了更高要求。
常用场景
经典使用场景
在医学影像诊断领域,DrVD-Bench数据集通过其多模态特性,为视觉语言模型(VLMs)提供了一个系统评估临床推理能力的平台。该数据集包含7,789个图像-问题对,覆盖20种任务类型、17种诊断类别和五种成像模态,能够模拟从模态识别到病变诊断的完整临床工作流程。研究人员利用该数据集,可以深入探究模型在视觉证据理解、推理轨迹评估和报告生成等方面的表现,从而揭示模型是否真正具备类似医生的推理能力。
解决学术问题
DrVD-Bench数据集有效解决了医学影像分析中模型推理能力评估的空白问题。传统方法往往局限于表面模式的模仿,而该数据集通过结构化设计,能够系统评估模型是否具备基于视觉理解的临床推理能力。研究表明,现有模型在复杂推理任务中表现显著下降,揭示了其依赖短路径相关性的局限性。这一发现为开发更具临床可信度的视觉语言模型提供了关键方向,推动了医学人工智能向更可靠、更透明的方向发展。
实际应用
在实际医疗场景中,DrVD-Bench数据集的应用价值体现在提升诊断辅助系统的可靠性上。通过该数据集的评估,医疗机构能够筛选出真正具备临床推理能力的模型,用于辅助放射科医生进行影像解读。数据集涵盖的CT、MRI、超声、X光和病理等多种成像模态,使其能够适应不同专科的诊断需求。此外,该数据集还可用于医学教育,帮助培训医学生建立规范的诊断思维模式。
数据集最近研究
最新研究方向
在医疗人工智能领域,视觉-语言模型(VLMs)的临床推理能力评估正成为研究热点。DrVD-Bench作为首个针对医学图像诊断的多模态基准测试框架,通过视觉证据理解、推理轨迹评估和报告生成三大模块,系统性地揭示了当前模型与人类医生临床思维的差距。最新研究表明,尽管部分VLMs在简单任务中展现出类人推理的雏形,但在复杂诊断场景中仍存在依赖表面关联而非深层视觉理解的问题。该数据集涵盖5种影像模态和17种诊断类别,为开发具有临床可信度的AI系统提供了标准化评估工具,尤其推动了模型可解释性和医疗决策透明化的研究进程。
以上内容由遇见数据集搜集并总结生成



