five

DrVD-Bench

收藏
github2025-05-16 更新2025-05-17 收录
下载链接:
https://github.com/Jerry-Boss/DrVD-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
DrVD-Bench是第一个用于临床视觉推理的多模态基准,包含三个模块:视觉证据理解、推理轨迹评估和报告生成评估,共7,789个图像-问题对。该基准覆盖20种任务类型、17种诊断类别和五种成像模态(CT、MRI、超声、X射线和病理学),并模拟了从模态识别到病变识别和诊断的临床工作流程。

DrVD-Bench is the first multimodal benchmark for clinical visual reasoning. It consists of three modules: visual evidence understanding, reasoning trajectory evaluation, and report generation evaluation, with a total of 7,789 image-question pairs. This benchmark covers 20 task types, 17 diagnostic categories, and five imaging modalities: CT, MRI, ultrasound, X-ray, and pathology, and simulates the clinical workflow spanning from modality recognition to lesion recognition and diagnosis.
创建时间:
2025-05-14
原始信息汇总

DrVD-Bench 数据集概述

数据集简介

DrVD-Bench 是一个用于评估视觉-语言模型(VLMs)在医学图像诊断中是否像人类医生一样推理的多模态基准。该数据集包含三个模块:视觉证据理解、推理轨迹评估和报告生成评估,共计 7,789 个图像-问题对。

数据集特点

  • 覆盖范围
    • 任务类型:20种
    • 诊断类别:17种
    • 成像模态:CT、MRI、超声、X射线和病理学
  • 临床工作流:从模态识别到病变识别和诊断的完整流程。

数据集用途

  • 评估对象:19种视觉-语言模型(包括通用和医学专用、开源和专有模型)。
  • 评估结果:模型性能随推理复杂性增加而显著下降,部分模型表现出类似人类的推理痕迹,但多数依赖表面相关性而非视觉理解。

快速开始

环境准备

bash pip3 install -r requirements.txt

数据集获取

  • Kaggle:https://www.kaggle.com/datasets/tianhongzhou/drvd-bench/data
  • Hugging Face:https://huggingface.co/datasets/jerry1565/DrVD-Bench

模型输出格式要求

  • visual_evidence_qa.jsonl / independent_qa.jsonl:单字母(如 ABC)。
  • joint_qa.jsonl:字母列表(如 [B,D,A])。
  • report_generation.jsonl:完整字符串。

推理示例

使用 Qwen-2.5-VL-72B API 进行推理: bash python qwen2.5vl_example.py --API_KEY="your_qwen_api_key" --INPUT_PATH="/path/to/joint_qa.jsonl" --OUTPUT_PATH="/path/to/result.jsonl" --IMAGE_ROOT=path/to/benchmark/data/root --type="joint"

指标计算

  • 视觉证据理解 / 独立问答: bash python compute_choice_metric.py --json_path="/path/to/results.jsonl" --type=single

  • 联合问答: bash python compute_choice_metric.py --json_path="/path/to/results.jsonl" --type=joint

  • 报告生成: bash python report_generation_metric.py --API_KEY=your_deepseek_api_key --JSON_PATH=/path/to/results.jsonl

联系方式

  • Tianhong Zhou:zth24@mails.tsinghua.edu.cn
  • Yin Xu:xuyin23@mails.tsinghua.edu.cn
  • Yingtao Zhu:zhuyt22@mails.tsinghua.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像诊断领域,DrVD-Bench数据集的构建采用了系统化的多模态评估框架,通过整合临床工作流程中的关键环节,构建了包含7,789个图像-问题对的大规模基准测试。该数据集采用三级模块化设计:视觉证据理解模块评估基础图像识别能力,推理轨迹评估模块模拟医生诊断思维过程,报告生成模块测试综合表达能力。数据覆盖CT、MRI等5种影像模态,涉及17种诊断类别和20种任务类型,所有样本均经过临床专家严格标注以确保专业性和可靠性。
使用方法
使用DrVD-Bench需通过Kaggle或Hugging Face获取原始数据,按照指定JSONL格式组织影像路径和问题。评估流程支持API调用和本地推理两种模式,对于视觉问答任务需输出标准化选项字母,联合推理任务则需提交有序预测序列。报告生成评估依赖DeepSeek API进行关键词提取,配套提供的映射脚本可将非结构化输出转为可评估格式。基准测试提供三类专用评估脚本,分别计算单选准确率、多步推理匹配度和报告生成质量,所有指标实现均保持与临床判断准则的一致性。
背景与挑战
背景概述
DrVD-Bench是由清华大学研究人员Tianhong Zhou、Yin Xu和Yingtao Zhu等人提出的首个多模态临床视觉推理基准测试。该数据集创建于2023年,旨在系统评估视觉语言模型(VLMs)在医学图像诊断中是否真正具备类似人类医生的推理能力。数据集包含7,789个图像-问题对,涵盖20种任务类型、17种诊断类别和5种成像模态(CT、MRI、超声、X射线和病理学),完整模拟了从模态识别到病灶定位再到最终诊断的临床工作流程。作为医学人工智能领域的重要基准,DrVD-Bench为开发具有临床可信度的视觉语言模型提供了严谨的评估框架。
当前挑战
DrVD-Bench面临的核心挑战体现在两个方面:在领域问题层面,现有视觉语言模型往往依赖表面相关性而非真正的视觉理解,当推理复杂度增加时性能显著下降;在构建过程中,需要精准模拟临床医生的诊断推理轨迹,同时确保数据集的全面性以覆盖多种医学影像模态和诊断场景。此外,评估指标的设计也面临挑战,需要区分模型是进行真实推理还是简单模式模仿,这对医学AI的可解释性提出了更高要求。
常用场景
经典使用场景
在医学影像诊断领域,DrVD-Bench数据集通过其多模态特性,为视觉语言模型(VLMs)提供了一个系统评估临床推理能力的平台。该数据集包含7,789个图像-问题对,覆盖20种任务类型、17种诊断类别和五种成像模态,能够模拟从模态识别到病变诊断的完整临床工作流程。研究人员利用该数据集,可以深入探究模型在视觉证据理解、推理轨迹评估和报告生成等方面的表现,从而揭示模型是否真正具备类似医生的推理能力。
解决学术问题
DrVD-Bench数据集有效解决了医学影像分析中模型推理能力评估的空白问题。传统方法往往局限于表面模式的模仿,而该数据集通过结构化设计,能够系统评估模型是否具备基于视觉理解的临床推理能力。研究表明,现有模型在复杂推理任务中表现显著下降,揭示了其依赖短路径相关性的局限性。这一发现为开发更具临床可信度的视觉语言模型提供了关键方向,推动了医学人工智能向更可靠、更透明的方向发展。
实际应用
在实际医疗场景中,DrVD-Bench数据集的应用价值体现在提升诊断辅助系统的可靠性上。通过该数据集的评估,医疗机构能够筛选出真正具备临床推理能力的模型,用于辅助放射科医生进行影像解读。数据集涵盖的CT、MRI、超声、X光和病理等多种成像模态,使其能够适应不同专科的诊断需求。此外,该数据集还可用于医学教育,帮助培训医学生建立规范的诊断思维模式。
数据集最近研究
最新研究方向
在医疗人工智能领域,视觉-语言模型(VLMs)的临床推理能力评估正成为研究热点。DrVD-Bench作为首个针对医学图像诊断的多模态基准测试框架,通过视觉证据理解、推理轨迹评估和报告生成三大模块,系统性地揭示了当前模型与人类医生临床思维的差距。最新研究表明,尽管部分VLMs在简单任务中展现出类人推理的雏形,但在复杂诊断场景中仍存在依赖表面关联而非深层视觉理解的问题。该数据集涵盖5种影像模态和17种诊断类别,为开发具有临床可信度的AI系统提供了标准化评估工具,尤其推动了模型可解释性和医疗决策透明化的研究进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作