SMMILE

Name: SMMILE
Creator: 斯坦福大学
Published: 2025-06-26 23:08:18
License: 暂无描述

arXiv2025-06-26 更新2025-06-28 收录

下载链接：

https://smmile-benchmark.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

SMMILE是一个由专家驱动的多模态医疗领域内情境学习（ICL）基准数据集，由11位医疗专家共同打造，包含111个问题（517个问题-图像-答案三元组），涵盖了6个医疗专业和13种成像模式。该数据集旨在评估多模态大型语言模型在医疗任务中的情境学习能力，揭示了当前模型在处理医疗领域多模态任务时的局限性和偏差。

SMMILE is an expert-driven multimodal benchmark dataset for in-context learning (ICL) in the medical domain. Co-constructed by 11 medical experts, it includes 111 questions (517 question-image-answer triplets) covering 6 medical specialties and 13 imaging modalities. This benchmark aims to evaluate the in-context learning capabilities of multimodal large language models (LLMs) on medical tasks, and reveals the limitations and biases of current models when processing multimodal tasks in the medical field.

提供机构：

斯坦福大学

创建时间：

2025-06-26

原始信息汇总

SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

数据集概述

名称: SMMILE (Stanford Multimodal Medical In-Context Learning)
类型: 专家驱动的多模态医学上下文学习基准
规模:
- 111个问题（517个问题-图像-答案三元组）
- 增强变体SMMILE++包含1038个排列问题
创建机构: 苏黎世联邦理工学院、斯坦福大学等11家国际机构合作开发

数据特点

专业性: 由11名平均6.4年临床经验的医学专家参与创建
覆盖范围:
- 6个医学专科: 放射学、病理学、皮肤病学、眼科学、外科学、普通医学
- 13种成像模态: X射线、CT、MRI、超声、照片、染色、ECG、EEG、乳腺X光、眼底摄影等
任务类型: 分类问题、诊断问题、推理任务和需要各种认知过程的定量分析

数据结构

问题组成:
- 上下文示例: 专家策划的上下文学习问题
- 查询: 模型必须根据学习模式回答的最终图像-问题对
- 真实答案: 专家验证的评估答案

评估结果

评估模型: 15个最先进的多模态大语言模型（包括开源和闭源模型）
关键发现:
- ICL效益有限: SMMILE平均仅提高8%，SMMILE++提高9.4%
- 模型表现: GPT-4o在SMMILE领先，Qwen2.5-VL-72B在SMMILE++表现更优
识别偏差:
- 近因偏差: 模型过度重视最后一个示例
- 示例质量敏感性: 一个不相关示例可导致性能下降高达9.5%
- 特定困难: 数值答案(0%准确率)、定量推理任务、MRI和医学插图等模态

引用信息

bibtex @misc{rieff2025smmileexpertdrivenbenchmarkmultimodal, title={SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning}, author={Melanie Rieff and Maya Varma and Ossian Rabow and Subathra Adithan and Julie Kim and Ken Chang and Hannah Lee and Nidhi Rohatgi and Christian Bluethgen and Mohamed S. Muneer and Jean-Benoit Delbrouck and Michael Moor}, year={2025}, eprint={2506.21355}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2506.21355}, }

搜集汇总

数据集介绍

构建方式

SMMILE数据集由11位医学专家精心构建，涵盖了6个医学专业和13种影像模态。专家们通过一个结构化的网络界面，为每个问题设计了一个多模态查询和多个多模态上下文示例。数据集共包含111个问题，涉及517个问题-图像-答案三元组。构建过程中，专家们首先接受详细的指导，确保问题涵盖广泛的医学专业和影像类型，随后通过分步工作流程创建问题，并进行严格的质量控制，包括人工检查和拼写校对。

特点

SMMILE数据集的特点在于其专家驱动的高质量标注和多模态特性。每个问题不仅包含一个多模态查询，还配备了多个上下文示例，这些示例被设计为任务演示，以支持模型学习。数据集覆盖了诊断和分类等多种任务类型，其中约75%的问题需要自由回答格式。此外，数据集中超过三分之一的案例呈现了罕见的临床表现，且大多数问题被标记为对当前大型语言模型具有挑战性。

使用方法

SMMILE数据集支持开放式和封闭式两种评估任务。在开放式生成任务中，多模态大型语言模型（MLLM）接收一个查询问题和图像，并生成自由文本响应。在封闭式生成任务中，模型从上下文示例集中的封闭选项中选择答案。此外，数据集还提供了一个增强版本SMMILE++，通过对上下文示例的顺序进行排列生成1038个问题。使用该数据集时，研究人员可以通过提供的评估代码和基线模型，复现实验流程并衡量模型在多模态医学上下文学习中的表现。

背景与挑战

背景概述

SMMILE（Stanford Multimodal Medical In-context Learning）数据集是由斯坦福大学等机构的研究团队于2025年推出的首个专家驱动的多模态医学上下文学习基准。该数据集由11位医学专家参与构建，涵盖了6个医学专业和13种影像模态，包含111个问题（共517个问题-图像-答案三元组）。SMMILE旨在评估多模态大语言模型（MLLMs）在医学任务中的上下文学习能力，其核心研究问题聚焦于模型如何从有限的多模态示例中学习和泛化，以解决临床实践中常见的复杂任务。该数据集的推出填补了医学领域多模态上下文学习评估的空白，并为未来医学人工智能的发展提供了重要参考。

当前挑战

SMMILE数据集面临的挑战主要体现在两个方面：首先，在解决领域问题方面，当前多模态大语言模型在医学上下文学习任务中表现不佳，即使是最好的模型（如GPT-4o和Qwen2.5-VL-72B）也只能准确回答约半数问题，且上下文学习带来的性能提升有限（平均仅提高8%）。其次，在数据集构建过程中，研究人员面临着医学专业知识整合的挑战，包括确保数据质量、处理多样化的医学影像模态，以及设计有效的上下文示例。此外，数据还显示出模型对示例顺序的敏感性（存在近因偏差）和对噪声示例的脆弱性（单个不相关示例可导致性能下降达9.5%），这些都为数据集的构建和评估带来了额外挑战。

常用场景

经典使用场景

SMMILE数据集作为首个专家驱动的多模态医学上下文学习基准，其经典使用场景主要集中在评估多模态大语言模型（MLLMs）在医学任务中的上下文学习能力。通过提供多模态查询和上下文示例，该数据集能够模拟临床医生在实际工作中基于有限案例进行诊断和决策的过程。例如，模型需要根据提供的医学图像和相关问题，结合上下文示例进行推理，从而生成准确的诊断结果或回答。

实际应用

在实际应用中，SMMILE数据集可用于开发和优化医学诊断辅助系统。例如，通过评估模型在开放性和封闭性任务中的表现，可以筛选出适合临床应用的模型。此外，该数据集还可用于培训医学AI系统，使其能够根据有限的临床案例进行快速适应和学习，从而提高诊断效率和准确性。

衍生相关工作

SMMILE数据集衍生了一系列相关研究，特别是在多模态医学上下文学习领域。例如，基于该数据集的评估结果，研究者提出了改进模型对无关示例鲁棒性的方法，以及优化示例顺序的策略。此外，该数据集还启发了更多针对医学多模态任务的基准测试开发，如扩展至时间序列信号和基因组学等新模态的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集