SlideInstruction, SlideBench

github2025-03-21 更新2025-03-22 收录

下载链接：

https://github.com/uni-medical/SlideChat

下载链接

链接失效反馈

官方服务：

资源简介：

SlideInstruction是最大的WSI指令跟随数据集，包含4.2K WSI标题和176K VQA对，涵盖多种类别。SlideBench是一个多模态基准，包括SlideBench-Caption、SlideBench-VQA (TCGA)和SlideBench-VQA (BCNB)，用于评估SlideChat在不同临床环境中的能力。

SlideInstruction是目前规模最大的全切片图像（Whole Slide Image, WSI）指令跟随数据集，包含4200条全切片图像标题与17.6万条视觉问答（Visual Question Answering, VQA）对，涵盖多种类别。SlideBench是一款多模态基准测试集，包含SlideBench-Caption、SlideBench-VQA（TCGA）以及SlideBench-VQA（BCNB）三个子模块，用于评估SlideChat在不同临床环境中的能力。

创建时间：

2025-03-19

原始信息汇总

SlideChat数据集概述

基本信息

名称: SlideChat
类型: 病理学全切片图像理解的大规模视觉语言助手
发布年份: 2025
相关论文: SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
数据集主页: SlideChat Homepage
数据集下载: HuggingFace Dataset
模型下载: HuggingFace Model

数据集内容

SlideInstruction: 包含4.2K全切片图像（WSI）描述和176K视觉问答（VQA）对，是目前最大的WSI指令跟随数据集。
SlideBench: 多模态基准测试，包括SlideBench-Caption、SlideBench-VQA（TCGA）和SlideBench-VQA（BCNB），涵盖多种病理场景。

技术特点

模型架构: 基于Xtuner框架，包含补丁级编码器（CONCH）、切片级编码器和多模态投影器。
训练阶段:
1. 跨域对齐: 使用4.2K WSI-描述对训练，仅更新切片级编码器和投影层。
2. 视觉指令学习: 使用176K WSI VQA对训练，所有组件均可训练。

使用方法

依赖安装: bash git clone https://github.com/uni-medical/SlideChat.git cd SlideChat pip install -e .
训练配置:
- 配置文件位于configs/目录。
- 支持两阶段训练，示例配置见stage_1.py和stage_2.py。
推理示例: bash xtuner test configs/slidechat/stage_2.py --checkpoint stage2_pth --test_slide_csv SlideBench-VQA(TCGA).csv --test_output_csv output_my_test.csv --local_rank 0

性能

在22个任务中的18个上达到最先进性能。

引用

bibtex @article{chen2024slidechat, title={SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding}, author={Chen, Ying and Wang, Guoan and Ji, Yuanfeng and Li, Yanjun and Ye, Jin and Li, Tianbin and and Ming, Hu and Yu, Rongshan and Qiao, Yu and He, Junjun}, journal={arXiv preprint arXiv:2410.11761}, year={2024} }

联系方式

Ying Chen: cying2023@stu.xmu.edu.cn
Yuanfeng Ji: yfj@stanford.edu
Junjun He: hejunjun@pjlab.org.cn

搜集汇总

数据集介绍

构建方式

SlideInstruction数据集的构建基于病理报告，涵盖了4200张全切片图像（WSI）的标注和176,000个视觉问答（VQA）对。这些数据经过精心筛选和整理，确保其能够全面反映病理学中的多样化场景。SlideBench则是一个多模态基准测试集，包含SlideBench-Caption、SlideBench-VQA（TCGA）和SlideBench-VQA（BCNB）三个子任务，旨在评估模型在不同临床环境下的表现。数据集的构建过程中，专家团队进行了多轮审核和过滤，以确保数据的高质量和可靠性。

特点

SlideInstruction和SlideBench数据集的特点在于其规模庞大且多样化。SlideInstruction是目前最大的全切片图像指令跟随数据集，涵盖了丰富的病理学场景，能够为模型提供全面的上下文信息。SlideBench则通过多模态任务（如图像描述和视觉问答）评估模型的能力，特别适用于复杂病理图像的分析。数据集中的图像特征以512维的向量表示，确保了数据的高效处理和模型的高精度训练。

使用方法

使用SlideInstruction和SlideBench数据集时，首先需要从Hugging Face平台下载包含WSI ID和对话数据的JSON文件。数据集中的图像特征以CSV格式存储，每个切片被分割为多个512维的补丁特征。训练过程分为两个阶段：第一阶段通过4,200个WSI-标注对进行跨域对齐训练，第二阶段则利用176,000个VQA对进行视觉指令学习。训练和推理过程依赖于Xtuner框架，用户可以通过配置文件调整模型参数，如LLM路径、数据路径等。推理时，模型能够生成详细的图像描述和上下文相关的回答，适用于病理图像的自动化分析。

背景与挑战

背景概述

SlideInstruction和SlideBench数据集由General-Medical-AI团队于2025年发布，旨在推动计算病理学领域的发展。该数据集由厦门大学、斯坦福大学等机构的研究人员共同开发，主要解决了全切片病理图像（WSI）的多模态理解问题。SlideInstruction是迄今为止最大的指令跟随数据集，包含4.2K张WSI描述和176K个视觉问答对，涵盖了多种病理场景。SlideBench则是一个多模态基准测试，用于评估模型在显微图像和诊断等临床环境中的表现。这些数据集的发布为计算病理学的研究提供了重要的资源，显著提升了多模态大语言模型（MLLMs）在全切片图像分析中的应用能力。

当前挑战

SlideInstruction和SlideBench的构建面临多重挑战。首先，全切片病理图像的千兆像素规模对数据处理和存储提出了极高的要求，传统的图像分析方法难以直接应用于此类高分辨率数据。其次，生成高质量的指令跟随数据需要大量的人工标注和专家验证，以确保数据的准确性和临床相关性。此外，多模态模型的训练需要高效的算法设计，以处理视觉特征与语言模型之间的复杂交互。这些挑战不仅体现在数据集的构建过程中，也直接影响了模型在实际应用中的性能表现。通过解决这些技术难题，SlideInstruction和SlideBench为计算病理学领域的研究提供了新的基准和方向。

常用场景

经典使用场景

SlideInstruction和SlideBench数据集在计算病理学领域中被广泛用于训练和评估多模态大语言模型（MLLMs）。这些数据集通过提供大规模的病理图像描述和视觉问答对，支持模型在整张切片图像（WSI）上的理解和分析。SlideBench作为多模态基准测试，涵盖了从图像描述到复杂视觉问答的多种任务，为模型在临床环境中的表现提供了全面的评估框架。

实际应用

在实际应用中，SlideInstruction和SlideBench数据集被用于开发智能病理诊断系统。这些系统能够自动生成病理图像的详细描述，并回答医生提出的复杂问题，从而辅助临床决策。例如，在癌症诊断中，模型可以通过分析整张切片图像，提供关于肿瘤类型、分期和预后的详细信息，显著提高了诊断的准确性和效率。

衍生相关工作

SlideInstruction和SlideBench数据集的发布催生了一系列相关研究工作。例如，基于这些数据集开发的SlideChat模型在22项任务中的18项上达到了最先进的性能，展示了其在多模态病理图像分析中的卓越能力。此外，这些数据集还推动了其他多模态大语言模型在病理学领域的应用研究，如基于WSI的自动诊断系统和病理图像生成模型等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集