MTBBench

Name: MTBBench
Creator: 苏黎世联邦理工学院、洛桑联邦理工学院、日内瓦大学医院
Published: 2025-11-26 00:56:25
License: 暂无描述

arXiv2025-11-26 更新2025-11-27 收录

下载链接：

https://hf-mirror.com/datasets/EeshaanJain/MTBBench

下载链接

链接失效反馈

官方服务：

资源简介：

MTBBench是由苏黎世联邦理工学院等机构联合构建的多模态肿瘤学临床决策基准数据集。该数据集整合了来自HANCOCK和MSK-CHORD项目的66例患者数据，包含573个专业标注的问答对，涵盖数字病理切片、免疫组化图像、血液学报告和基因组数据等多维度信息。数据集通过GPT-4o生成问题并结合临床专家验证流程，确保临床准确性与时效性。该基准主要应用于精准肿瘤学领域，旨在评估人工智能系统在模拟分子肿瘤董事会工作流程中的多模态时序推理能力，解决现有模型在整合异质医疗数据和时序推理方面的技术瓶颈。

提供机构：

苏黎世联邦理工学院、洛桑联邦理工学院、日内瓦大学医院

创建时间：

2025-11-26

原始信息汇总

MTBBench数据集概述

基本信息

数据集名称: MTBBench
创建者: EeshaanJain
许可证: MIT
模态: 图像、文本
格式: imagefolder
数据量: 1K - 10K
库支持: Datasets、Croissant

数据集规模

下载数据集文件大小: 1.41 GB
自动转换Parquet文件大小: 1.4 GB
数据行数: 1,012行
最近月下载量: 192次

数据结构

子集划分

默认子集: 1.01k行

数据分割

训练集: 1.01k行

数据特征

列信息

image: 图像数据
imagewidth: 图像宽度（像素），示例值：240
label: 类别标签，包含32个类别
- 示例标签值：0104、1116、2120等

数据集描述

MTBBench是一个用于评估多模态大语言模型在复杂临床决策场景中推理能力的基准测试。该基准专注于肿瘤学中的两个核心挑战：多模态整合（如病理学、基因组学、放射学）和跨患者时间线的纵向推理。基准包括需要与外部基础模型工具和数据集交互的代理任务。

基准结构

数据集包含两个JSON文件，包含问题、答案、每个问题的相关文件以及用于生成问题的上下文信息。这适用于HANCOCK和MSK-CHORD两个队列。

HANCOCK队列

每个HANCOCK患者的病例文件夹通常包括：

各种免疫组织化学标记的组织微阵列图像
原发肿瘤和淋巴结的苏木精-伊红染色图像
临床和病理数据

MSK-CHORD队列

每个MSK-CHORD患者的病例文件夹通常包括：

临床事件时间线
基因组数据
样本元数据

搜集汇总

数据集介绍

构建方式

在精准肿瘤学领域，MTBBench通过整合HANCOCK和MSK-CHORD两大临床数据集构建而成，涵盖头颈癌与泛癌种患者的多模态数据。该数据集采用临床专家协同开发的标注平台进行验证，从26例头颈癌病例中提取390组多模态问答对，从40例泛癌种病例中构建183组纵向问答对。所有临床问题均经过分子肿瘤委员会工作流程模拟，确保数据标注的临床准确性与时序逻辑合理性。

特点

该数据集显著特征在于其三维临床复杂性：多模态维度融合数字病理（H&E/IHC染色）、血液学报告与基因组学数据；纵向维度捕捉患者诊疗过程中关键时间节点的临床事件演变；工作流维度模拟真实分子肿瘤委员会的多轮决策场景。特别设计非持续性文件访问机制，要求智能体在回答每个问题时主动检索相关信息，高度还原临床决策中信息获取的动态特性。

使用方法

研究人员可通过基准测试框架评估智能体在多轮对话中的表现，智能体需遵循临床工作流程依次处理病理诊断、术前评估与预后预测等阶段。数据集支持工具增强模式，允许调用CONCH病理模型与UNI2免疫组化模型等专业工具，同时集成DrugBank药物数据库与PubMed文献检索功能。评估指标聚焦于诊断准确率与文件访问策略分析，为临床决策支持系统的开发提供标准化测试环境。

背景与挑战

背景概述

MTBBench数据集由苏黎世联邦理工学院、洛桑联邦理工学院和日内瓦大学医院的研究团队于2025年联合创建，旨在解决精准肿瘤学中分子肿瘤委员会决策流程的复杂性。该数据集聚焦于多模态时序临床推理，模拟真实肿瘤委员会的多专家协作环境，整合了病理学、血液学、基因组学等异构数据，并引入纵向患者历史以反映临床决策的动态演变。通过临床医生共同开发的验证平台，MTBBench确保了数据的临床相关性，为评估多模态大语言模型在复杂医疗场景中的可靠性提供了重要基准。

当前挑战

MTBBench面临的领域挑战在于解决多模态时序临床决策的复杂性，包括模型在整合异构数据时频繁产生幻觉、难以从时间解析数据中推理，以及无法协调冲突证据或多模态信息。构建过程中的挑战涉及多模态数据对齐与标注，需在数字病理切片、实验室报告和基因组数据间建立一致性；同时，纵向时间线的构建要求精确捕捉临床事件的时序依赖关系，并通过专家验证平台确保问答对的临床合理性与准确性。

常用场景

经典使用场景

在精准肿瘤学领域，MTBBench作为首个模拟分子肿瘤委员会工作流程的基准测试平台，其经典应用场景聚焦于评估多模态大语言模型在整合数字病理、血液学与基因组学数据时的临床推理能力。该数据集通过时序演化的患者病例，要求智能体在动态环境中完成诊断分类、生物标志物空间解析及预后预测等任务，精确还原了肿瘤专家跨模态信息融合的决策过程。

衍生相关工作

该数据集催生了系列医疗代理系统的创新研究，例如基于CONCH病理模型的零样本区域分类工具、结合ABMIL的免疫组化量化算法，以及融合DrugBank知识库的时序推理框架。这些衍生工作通过可复现的工具链设计，持续推动着多模态临床决策系统在可解释性与泛化能力方面的突破。

数据集最近研究