GADVR

Name: GADVR
Creator: 哈尔滨工业大学，德国莱布尼茨分析科学研究所，中山大学附属第六医院，埃森大学医院病理研究所，德国北莱茵-威斯特法伦州文化科学部，德国联邦教育和研究部，中国国家自然科学基金委员会
Published: 2025-08-28 22:46:24
License: 暂无描述

arXiv2025-08-28 更新2025-08-30 收录

下载链接：

https://github.com/zhangye-zoe/PathMR

下载链接

链接失效反馈

官方服务：

资源简介：

GADVR数据集是首个像素级视觉推理数据集，包含大约19万个图像块和55万个配对的图像和文本条目。该数据集基于PatchGastricADC22构建，提供了像素级的细胞核分割和分类标签，以及细胞级的问答对，用于胃癌亚型的诊断。数据集的构建过程包括使用预训练的CLIP-ViT模型选择代表性图像块，然后使用预训练的HoverNet模型进行细胞核分割和分类标签的生成，以及使用GPT-4o模型生成细胞级的问答对。

The GADVR dataset is the first pixel-level visual reasoning dataset, which contains approximately 190,000 image patches and 550,000 paired image-text entries. Constructed based on PatchGastricADC22, this dataset provides pixel-level nuclear segmentation and classification labels, as well as cell-level question-answer pairs for the diagnosis of gastric cancer subtypes. The dataset construction process involves using the pre-trained CLIP-ViT model to select representative image patches, then leveraging the pre-trained HoverNet model to generate nuclear segmentation and classification labels, and finally utilizing the GPT-4o model to generate cell-level question-answer pairs.

提供机构：

哈尔滨工业大学，德国莱布尼茨分析科学研究所，中山大学附属第六医院，埃森大学医院病理研究所，德国北莱茵-威斯特法伦州文化科学部，德国联邦教育和研究部，中国国家自然科学基金委员会

创建时间：

2025-08-28

原始信息汇总

PathMR 数据集概述

数据集名称

PathMR

核心功能

细胞级多模态视觉推理框架
生成专家级诊断文本解释
生成像素级分割掩码
增强人工智能辅助病理学的透明度和可解释性

训练配置

支持4 GPU训练
使用DeepSpeed框架
基于LLaVA模型架构（liuhaotian/llava-llama-2-13b-chat-lightning-preview）
视觉编码器：openai/clip-vit-large-patch14
最大模型长度：2048 tokens
批处理大小：6
梯度累积步数：1

数据集使用

训练数据集：vqa_data_train
验证数据集：MultiPartReasonSeg|val
验证JSON文件：reason_seg_val.json
数据集目录：data/GADVR

部署方式

提供交互式Gradio演示界面
支持bf16精度推理
可通过CUDA_VISIBLE_DEVICES指定GPU设备

技术依赖

基于MMR多模态推理框架
借鉴SurgicalSAM的分割模块
使用GLAMM的交互演示基础框架

搜集汇总

数据集介绍

构建方式

GADVR数据集的构建基于PatchGastricADC22的26万余张胃腺癌病理图像块，通过预训练的CLIP-ViT模型筛选与诊断报告高度相关的图像区域，确保局部组织特征与亚型标签的强相关性。随后采用HoverNet模型生成像素级细胞核分割与分类标注，并引入病理学家人工校正机制优化分类准确性。文本标注方面，利用GPT-4o基于病理报告生成涵盖细胞形态、空间分布及亚型诊断推理的问答对，通过迭代提示设计确保文本与视觉标注的语义对齐。

使用方法

GADVR适用于训练多模态视觉推理模型，输入为病理图像与文本查询，输出需同时生成分割掩膜和语义对齐的诊断解释。数据集按全幻灯片图像以8:1:1比例划分训练、验证与测试集，确保模型评估的临床代表性。使用时需注重视觉-文本特征的跨模态对齐，可结合分类监督与形态一致性约束优化分割精度，适用于胃腺癌亚型诊断、细胞分布模式分析及可解释病理诊断模型的开发。

背景与挑战

背景概述

GADVR（胃腺癌诊断视觉推理）数据集由哈尔滨工业大学与德国莱布尼茨分析科学研究所等机构于2025年联合构建，旨在推动病理图像的多模态细粒度推理研究。该数据集聚焦于解决人工智能在病理诊断中可解释性不足的核心问题，通过整合像素级细胞分割标签与专家级文本描述，为胃癌亚型诊断提供细胞级别的视觉-语言对齐基准。其创新性在于首次将自然场景中的像素级推理范式引入病理领域，通过19万张图像块和55万条图文对，显著提升了模型在病理诊断中的透明度和可信度，对计算病理学的发展具有里程碑意义。

当前挑战

GADVR数据集主要应对两大挑战：在领域问题层面，需解决病理诊断中细胞形态多样性高、空间结构复杂导致的细粒度视觉推理难题，要求模型同时完成细胞分类、分割和自然语言描述生成；在构建过程中，面临病理图像块与诊断标签弱相关性、细胞分类标注一致性维护，以及生成临床意义准确的问答对等挑战。具体包括通过预训练模型筛选高相关性图像块，采用人机协同循环优化核分类标签，并利用大语言模型生成与视觉特征严格对齐的诊断文本，确保数据集的科学性和实用性。

常用场景

经典使用场景

在计算病理学领域，GADVR数据集作为首个像素级视觉推理基准，主要用于胃癌亚型的多模态诊断分析。该数据集通过整合细胞级分割标注与诊断问答对，支持模型同时生成精确的核分割掩码和语义对齐的病理描述，从而实现对组织形态学特征的细粒度解析。典型应用包括模型在推理分割任务中根据病理图像和文本查询，输出细胞分布模式及其诊断依据，为自动化病理诊断提供可解释的决策支持。

解决学术问题

GADVR数据集解决了病理图像分析中模型可解释性不足的核心问题。传统方法如多示例学习仅能提供粗糙的注意力图，缺乏细胞级语义关联和文本化推理过程。该数据集通过提供像素级核分割标签和专家标注的问答对，使模型能够实现视觉-语言模态的精确对齐，推动了解释性人工智能在病理诊断中的发展，为临床决策提供了透明且可信的推理依据。

实际应用

在实际临床场景中，GADVR数据集支持开发辅助诊断系统，用于胃癌的自动化亚型分类和诊断报告生成。通过结合细胞形态学特征和空间分布模式，模型可生成符合病理专家规范的诊断叙述，并高亮关键病变区域。此类系统能够提升诊断效率，减少观察者间差异，并为基层医疗机构提供标准化诊断参考，缓解病理医生资源不足的压力。

数据集最近研究