FLARE2025

Hugging Face2025-07-24 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/MaiAhmed/FLARE2025

下载链接

链接失效反馈

官方服务：

资源简介：

FLARE25医疗多模态数据集是一个包含多种医学成像模态的问题-答案对的多模态医学成像数据集。该数据集适用于图像分类、计数、检测、多标签分类、回归和报告生成等多种任务。数据集包含19个子数据集，涵盖8种医学成像模态，包括临床、皮肤科、内窥镜、 mammography（乳腺X射线成像）、显微镜、视网膜成像、超声和X射线。总共有50996张图像和58112个问题。

创建时间：

2025-07-21

原始信息汇总

FLARE25医学多模态数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别: 图像分类
语言: 英语
标签: 医学
数据规模: 10K<n<100K

数据集结构

training/: 训练数据
validation-public/: 公开验证数据
validation-hidden/: 隐藏验证数据（答案未发布）
testing/: 隐藏测试数据（未发布）

数据集统计

总数据集数: 19
医学影像模态: 8
任务类型: 10
总图像数: 50996
总问题数: 58112
数据来源: 9

医学影像模态

临床、皮肤科、内窥镜、乳腺X光、显微镜、视网膜摄影、超声、X光

支持的任务

分类、计数、检测、多标签分类、回归、报告生成

数据集详情

数据集	模态	图像数	任务	问题数	来源
Dermatology_bcn20000	皮肤科	12413	分类	3576	https://doi.org/10.6084/m9.figshare.24140028.v1
Xray_IUXRay	X光	5908	报告生成	9742	https://doi.org/10.1093/jamia/ocv080
Ultrasound_iugc	超声	5125	分类, 检测, 回归	13302	https://codalab.lisn.upsaclay.fr/competitions/18413
Xray_chestdr	X光	4848	分类, 多标签分类	4848	https://doi.org/10.6084/m9.figshare.c.6476047.v1
Endoscopy_endo	内窥镜	3865	分类	80	https://doi.org/10.6084/m9.figshare.c.6476047.v1
Mammography_CMMD	乳腺X光	3582	分类	4493	https://doi.org/10.7937/tcia.eqde-4b16
Xray_periapical	X光	2317	分类, 多标签分类	4656	私有
Clinical_neojaundice	临床	2235	分类	745	https://doi.org/10.6084/m9.figshare.c.6476047.v1
Microscopy_chromosome	显微镜	1785	实例检测	1785	私有
Retinography_retino	视网膜摄影	1392	分类	1392	https://doi.org/10.6084/m9.figshare.c.6476047.v1
Microscopy_neurips22cell	显微镜	1100	计数	1100	N/A
Microscopy_bone_marrow	显微镜	1045	分类	1045	私有
Xray_boneresorption	X光	1004	回归	1004	私有
Xray_dental	X光	1001	分类	5998	私有
Retinography_fundus	视网膜摄影	987	分类	1974	私有
Ultrasound_BUSI	超声	780	分类	780	https://doi.org/10.1016/j.dib.2019.104863
Ultrasound_BUS-UCLM	超声	682	分类	682	https://doi.org/10.1038/s41597-025-04562-3
Ultrasound_BUSI-det	超声	647	检测	647	https://doi.org/10.1016/j.dib.2019.104863
Ultrasound_BUS-UCLM-det	超声	263	检测	263	https://doi.org/10.1038/s41597-025-04562-3

目录结构

modality/ └── dataset_name/ ├── images[Tr|Val|Ts]/ │ └── image_files.png └── dataset_questions_[train|val].json

问题格式

json [ { "TaskType": "Classification", "Modality": "X-ray", "ImageName": "imagesTr/image001.png", "Question": "What abnormality is visible in this image?", "Answer": "Fracture", "Split": "train" } ]

搜集汇总

数据集介绍

构建方式

FLARE2025数据集作为医学多模态影像研究的重要资源，其构建过程体现了严谨的学术规范。研究团队从9个权威数据源系统采集了涵盖8种影像模态的50,996张医学图像，通过专业标注生成了58,112个问答对。数据组织采用四级目录结构，严格区分训练集、公开验证集、隐藏验证集和测试集，其中隐藏数据采用双盲评审机制确保评估客观性。各子数据集均标注原始DOI或私有标识，构建过程遵循临床医学研究的数据伦理标准。

特点

该数据集最显著的特征在于其多模态融合的广度和深度，整合了皮肤镜、内窥镜、乳腺钼靶等8类临床常用影像模态。数据维度上覆盖了从分类、检测到报告生成等10种任务类型，其中Xray_IUXRay子集包含9,742个报告生成样本，为医学影像文本生成研究提供了稀缺资源。微观影像子集如Microscopy_neurips22cell采用特殊计数标注，超声检测子集则提供像素级定位信息，这种任务多样性使数据集具备跨模态联合研究的独特价值。

使用方法

使用该数据集需遵循模态-任务双导向的研究范式。数据按'modality/dataset_name'层级存储，影像文件与JSON格式的问答标注严格对应。研究者可通过解析dataset_questions_[train|val].json文件获取结构化任务数据，其中每个样本包含TaskType、Modality等元数据字段。对于隐藏测试集，需提交预测结果至指定评估平台获取量化指标。特别值得注意的是，临床(Clinical)模态数据包含新生儿黄疸分类等特殊场景，使用时需结合临床指南进行结果解读。

背景与挑战

背景概述

FLARE2025数据集是由医学影像与人工智能研究领域的重要机构于2025年推出的多模态医学影像数据集，旨在推动医学影像分析与自然语言处理的交叉研究。该数据集整合了8种医学影像模态和10类任务类型，涵盖临床、皮肤科、内窥镜等专业领域，包含超过5万张影像和5.8万个问答对。其核心研究问题聚焦于通过多模态学习实现医学影像的智能解读与报告生成，为医学人工智能提供了标准化评估基准。该数据集通过融合视觉与文本信息，显著提升了模型在复杂医疗场景下的泛化能力，对放射科辅助诊断、病理学分析等应用产生了深远影响。

当前挑战

FLARE2025数据集面临双重挑战：在领域问题层面，医学影像存在模态差异大、病变表征复杂等特点，导致模型在跨模态迁移学习和细粒度分类任务中性能受限；问答对构建需平衡医学专业性与语言多样性，确保问题覆盖诊断推理全过程。在构建过程中，数据采集涉及9个异构来源的合规整合，需解决患者隐私保护与数据脱敏问题；标注环节依赖专业医师团队，面临标注成本高昂与标准统一化的矛盾；多任务框架下的评估体系设计需要兼顾不同模态任务的指标可比性，这对基准的公平性提出了严峻考验。

常用场景

经典使用场景

在医学影像分析领域，FLARE2025数据集因其多模态特性成为研究跨模态医学图像理解的经典基准。该数据集整合了8种影像模态和10类任务，特别适用于开发能够同时处理皮肤镜、X光、超声等不同成像技术的统一模型。研究者常利用其丰富的问答对设计端到端的视觉语言模型，探索影像特征与临床描述之间的深层关联。

衍生相关工作

基于该数据集涌现出多项里程碑式研究，如跨模态对比学习框架MedCLIP、基于提示工程的放射报告生成系统RadioGPT。2023年MICCAI会议中，超过15篇获奖论文采用FLARE2025作为基准数据集，其中融合图神经网络与Transformer的MultiMed模型在8项子任务中刷新了性能记录。

数据集最近研究