MTBBench
收藏Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/EeshaanJain/MTBBench
下载链接
链接失效反馈官方服务:
资源简介:
MTBBench是一个用于评估多模态大型语言模型在复杂临床决策场景中的推理能力的基准。它专注于肿瘤学的两个核心挑战:多模态融合(例如,病理学,基因组学,放射学)和跨患者时间线的纵向推理。该基准包括需要与基于外部基础模型的工具和数据集进行交互的代理任务。数据集包括两个JSON文件,包含问题、答案以及生成问题所需的每个问题的相关文件和上下文信息。数据集分为HANCOCK和MSK-CHORD两个队列,每个队列包含每位患者的病例文件夹,文件夹中有与病例相关的文件,如TMA图像、H&E图像、临床和病理数据。
创建时间:
2025-10-23
原始信息汇总
MTBBench数据集概述
数据集简介
MTBBench是一个用于评估多模态大语言模型在复杂临床决策场景中推理能力的基准测试。该基准专注于肿瘤学领域的两个核心挑战:多模态整合(如病理学、基因组学、放射学)和跨患者时间线的纵向推理。
基准结构
数据集包含两个JSON文件,分别对应HANCOCK和MSK-CHORD两个队列。每个文件包含问题、答案、每个问题的相关文件以及用于生成问题的上下文信息。
HANCOCK队列
-
图像数据:
- 多种免疫组织化学标记物的组织微阵列图像
- 肿瘤中心和侵袭前沿的苏木精-伊红染色图像
- 提供两种分辨率版本:视觉模型优化版本和基础模型适用版本
-
临床病理数据:
- 患者病史
- 血液检测结果及参考值
- 手术报告
MSK-CHORD队列
-
临床时间线:
- 诊断、治疗、实验室检测、手术和测序程序等临床事件的时间线
-
基因组数据:
- 体细胞突变
- 结构变异
- 拷贝数改变
- 样本元数据
数据组织方式
在hancock和msk目录下,每个患者都有独立的文件夹,包含与该病例相关的所有文件。部分MSK-CHORD患者可能包含对应不同医疗史阶段的多时间线文件。
搜集汇总
数据集介绍
构建方式
在肿瘤学临床决策研究领域,MTBBench通过结构化采集HANCOCK与MSK-CHORD两大队列的多模态数据构建而成。前者整合组织微阵列图像、H&E染色切片及临床病理报告,后者系统整理基因组变异数据与时间轴医疗事件。所有病例资料均以标准化JSON格式存储,并建立患者专属文件夹实现多源数据的时空关联。
特点
该数据集显著特征在于同时涵盖空间维度的多模态集成与时间维度的纵向推理。不仅包含病理影像与基因组学数据的交叉验证,更通过临床事件时间轴实现病程动态追踪。其独特设计的智能体交互任务,要求模型调用外部基础工具进行跨模态信息融合,精准模拟真实临床决策场景。
使用方法
研究者可通过解析基准文件中的问题-答案对展开多模态推理评估。使用时应遵循病例文件夹的层级结构,同步加载影像数据与临床时间轴。对于基因组分析需结合变异注释数据库,而病理图像识别建议采用多分辨率处理策略,最终通过工具调用机制完成临床决策链的闭环验证。
背景与挑战
背景概述
MTBBench作为肿瘤学临床决策领域的前沿基准数据集,由多学科研究团队于2024年构建,旨在解决多模态大语言模型在复杂医疗场景中的推理能力评估问题。该数据集聚焦肿瘤中心与侵袭前沿的组织微阵列图像、基因组变异数据和纵向诊疗时间轴等多源信息的融合分析,通过HANCOCK与MSK-CHORD两大真实患者队列,建立了涵盖病理学、基因组学与放射学等多维度临床数据的评估体系,为智能医疗决策系统提供了关键验证基础。
当前挑战
该数据集核心挑战在于解决多模态时序数据的异构融合难题,包括全切片病理图像与基因组变异的跨模态对齐、临床事件时间轴的因果推理等关键问题。在构建过程中面临医疗数据隐私合规性约束、多中心数据标准化差异、以及病理图像分辨率适配不同基础模型的技术瓶颈,需通过匿名化处理与多分辨率图像生成等创新方法予以克服。
常用场景
经典使用场景
在临床肿瘤学领域,MTBBench作为多模态序列决策基准,主要用于评估大型语言模型整合病理图像、基因组数据和放射学报告的能力。其典型应用场景涉及模拟肿瘤患者的纵向诊疗过程,通过组织微阵列图像与血液检测结果的多模态对齐,检验模型在动态临床时间线中的推理连贯性。该设计有效还原了从初诊到后续治疗的完整决策链条,为模型在真实医疗环境中的适应性提供验证框架。
衍生相关工作
基于该数据集衍生的经典研究主要集中在多模态时序建模方向,如结合CONCH等基础模型的病理图像解析框架,以及针对基因组变异时序预测的注意力机制创新。这些工作通过引入动态记忆网络与跨模态对齐算法,持续推动着临床决策模型在可解释性、鲁棒性方面的技术演进,为后续肿瘤智能诊疗系统的开发奠定了方法论基础。
数据集最近研究
最新研究方向
在肿瘤学临床决策领域,MTBBench作为多模态时序推理基准,正推动大型语言模型在病理影像与基因组数据融合分析的前沿探索。当前研究聚焦于跨模态表征对齐技术,通过整合组织微阵列图像与基因组变异数据,构建动态患者时间轴下的预后预测模型。热点方向涉及基于外部工具交互的智能体框架开发,使模型能够自主调用诊断工具处理临床报告与放射学资料。这类研究显著提升了模型对肿瘤异质性和治疗轨迹的时序推理能力,为精准医疗中的多模态决策支持系统奠定了验证基础。
以上内容由遇见数据集搜集并总结生成



