SlideBench
收藏SlideBench 数据集概述
简介
SlideBench 是一个综合基准,用于评估 SlideChat 在理解全片病理图像方面的性能。SlideBench 包含三个主要组件:
-
SlideBench-Caption: 包含来自 TCGA 数据集的 734 张全片图像(WSIs),用于评估 SlideChat 生成准确和连贯描述的能力。
-
SlideBench-VQA(TCGA): 设计用于闭集视觉问答,评估 SlideChat 在多个方面的性能。经过大型语言模型(LLMs)和专家病理学家的精心筛选,SlideBench-VQA (TCGA) 包含 7,827 个 VQA 对,涵盖 13 个类别。
-
SlideBench-VQA(BCNB): 为进一步评估泛化能力,引入了早期乳腺癌核心针活检(BCNB)数据集,该数据集具有多样化的患者群体和一系列临床任务标签。通过将分类目标重新表述为问题,并将多类标签转换为可选选项,BCNB 数据集被格式化为 VQA 对,创建了 7,247 个 VQA 对。
数据详情
- SlideBench-VQA (BCNB).csv: 提供详细的测试信息,包括
patient_id、task、question、answer options(A, B, C, D)和correct answer。 - BCNB_patch_feat.tar.gz: 使用预训练的 CONCH 模型提取了 1,058 张 WSIs 的特征。每个文件包含 512 维的特征表示,以及相应的空间位置信息。文件按患者 ID 命名,例如 "1.csv" 对应患者 ID 1。
引用
如果该数据集对你的研究有用,请考虑引用以下文献:
bibtex @article{chen2024slidechat, title={SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding}, author={Chen, Ying and Wang, Guoan and Ji, Yuanfeng and Li, Yanjun and Ye, Jin and Li, Tianbin and Zhang, Bin and Pei, Nana and Yu, Rongshan and Qiao, Yu and others}, journal={arXiv preprint arXiv:2410.11761}, year={2024} }




