SMMILE

github2025-07-01 更新2025-07-02 收录

下载链接：

https://github.com/eth-medical-ai-lab/smmile

下载链接

链接失效反馈

官方服务：

资源简介：

SMMILE（斯坦福多模态医学上下文学习评估）是第一个多模态医学上下文学习基准测试。一组临床专家策划了ICL问题，以详细检查MLLM在推理时从上下文中学习多模态任务的能力。

SMMILE (Stanford Multimodal Medical In-Context Learning Evaluation) is the first multimodal medical in-context learning benchmark. A panel of clinical experts curated ICL problems to thoroughly examine the ability of multimodal large language models (MLLMs) to learn multimodal tasks from context during inference.

创建时间：

2025-06-30

原始信息汇总

SMMILE数据集概述

数据集简介

名称：SMMILE (Stanford Multimodal Medical In-context Learning Evaluation)
类型：多模态医学上下文学习基准测试
目的：评估多模态大语言模型(MLLM)在医学领域中从上下文学习多模态任务的能力
特点：
- 首个多模态医学上下文学习基准
- 由临床专家精心设计的上下文学习问题

数据集内容

版本：
- SMMILE标准版
- SMMILE++增强版
任务类型：
- 开放式问题(open-ended)
- 多项选择题(multiple-choice)

数据集获取

访问方式：通过HuggingFace数据集库获取 python load_dataset(smmile/SMMILE, token=YOUR_HF_TOKEN) load_dataset(smmile/SMMILE-plusplus, token=YOUR_HF_TOKEN)
访问要求：需要设置HuggingFace访问令牌

评估方法

评估指标：
- 精确匹配(Exact Match)
- LLM-as-a-Judge评估
分析工具：
- 分层分析(stratified analysis)
- 统计方差分析(variance analysis)

支持模型

本地运行模型：
- Qwen系列(3B/7B/32B/72B)
- Llama 3.2 Vision 90B
- MedVLM-R1
- MedGemma
- LLaVA系列(含LLaVA-Med)
API模型：
- Claude系列
- OpenAI GPT-4o
基线模型：
- Llama 3.3纯文本基线
- 随机/多数投票基线

运行要求

Python版本：3.10
关键依赖：
- transformers==4.51.0
- accelerate==1.6.0
- flash_attn
GPU支持：需要NVIDIA GPU和CUDA驱动

许可信息

许可证：Creative Commons Attribution 4.0 International License

参考文献

Rieff, M., et al. (2025). SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning. arXiv preprint arXiv:2506.21355.

搜集汇总

数据集介绍

构建方式

在医学多模态学习领域，SMMILE数据集的构建体现了严谨的专家驱动方法论。由斯坦福大学临床专家团队精心设计，该基准测试通过系统收集临床场景中的多模态上下文学习任务，形成结构化评估框架。构建过程采用医学专业标注范式，整合影像学数据与临床文本描述，确保每个ICL问题都能准确反映真实诊疗场景中的认知推理过程。数据集通过HuggingFace平台实现标准化分发，采用分版本管理策略（SMMILE与SMMILE++），满足不同研究场景的需求。

特点

作为首个医学多模态上下文学习基准，SMMILE展现出鲜明的领域特异性。数据集包含丰富的模态组合，涵盖放射影像、病理切片与临床文本的协同分析任务。其问题设计采用开放式问答与多选题并行的双轨模式，支持零样本学习和上下文学习的对比研究。特别设计的SMMILE++增强版本引入数据扩充机制，通过变量控制实验可系统评估模型在数据稀缺场景下的泛化能力。标注体系包含细粒度的问题特征标签，支持后续的层次化性能分析。

使用方法

该数据集通过模块化设计实现灵活应用，研究者可通过HuggingFace接口快速加载标准数据集。配套提供的Python工具链支持主流多模态大模型的端到端评估，包含Qwen、LLaVA等12种预置模型的推理脚本。使用流程遵循标准化范式：首先配置GPU环境并安装指定版本的依赖库，随后选择inference_mode（ICL/0-shot）和task_format（open/mcqa）参数启动评估。评估体系提供精确匹配、LLM裁判和分层分析三种方法论，支持生成LaTeX格式的统计结果报告。对于缺失图像数据的情况，系统会输出下载链接供研究者手动补全。

背景与挑战

背景概述

SMMILE（Stanford Multimodal Medical In-context Learning Evaluation）是斯坦福大学研究团队于2025年推出的首个多模态医学上下文学习基准测试。该数据集由临床专家精心设计，旨在评估多模态大语言模型（MLLM）在推理时从上下文中学习多模态任务的能力。医学领域存在大量长尾任务，临床医生通常需要从少量示例中学习解决，如参考少量相关病例或鉴别诊断。尽管MLLM在医学视觉问答（VQA）和多轮对话方面取得了显著进展，但其在多模态上下文学习方面的能力尚未得到充分探索。SMMILE的建立填补了这一空白，为医学人工智能领域提供了重要的评估工具。

当前挑战

SMMILE数据集面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，医学多模态上下文学习涉及复杂的临床场景，需要模型同时理解医学图像和文本信息，并从中提取关键特征进行推理，这对模型的跨模态理解和推理能力提出了极高要求。在构建过程中，临床专家需要精心设计具有代表性的上下文学习问题，确保数据集既能覆盖多样化的医学任务，又能反映真实的临床决策过程。此外，医学数据的隐私性和敏感性也为数据收集和处理带来了额外的合规性挑战。

常用场景

经典使用场景

在医学多模态学习领域，SMMILE数据集为研究者提供了一个标准化的评估平台，专门用于测试多模态大语言模型在上下文学习中的表现。通过模拟临床医生在实际工作中遇到的多样化任务，如基于少量案例进行诊断推理，该数据集能够全面评估模型从多模态上下文中提取和学习信息的能力。其典型应用包括医学视觉问答、多轮对话系统以及基于上下文的诊断辅助工具的开发与验证。

解决学术问题

SMMILE数据集有效解决了医学人工智能领域中的关键挑战，即如何让模型在缺乏大量标注数据的情况下，通过少量示例快速适应新的临床任务。该数据集填补了多模态上下文学习评估标准的空白，为研究者提供了量化模型在复杂医学场景中泛化能力的工具。其意义在于推动了医学人工智能从静态任务解决向动态学习能力的转变，为开发更具适应性的临床辅助系统奠定了理论基础。

衍生相关工作

围绕SMMILE数据集，学术界已衍生出多项重要研究工作。其中包括基于Qwen、Llama等架构的医学多模态模型优化，以及针对医学上下文学习的特定评估方法创新。该数据集还促进了医学视觉问答系统、多模态临床决策支持工具等应用的开发。相关成果发表在顶级医学人工智能会议和期刊上，推动了整个领域向更贴近实际临床需求的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集