FLARE2025
收藏Hugging Face2025-07-24 更新2025-07-25 收录
下载链接:
https://huggingface.co/datasets/MaiAhmed/FLARE2025
下载链接
链接失效反馈官方服务:
资源简介:
FLARE25医疗多模态数据集是一个包含多种医学成像模态的问题-答案对的多模态医学成像数据集。该数据集适用于图像分类、计数、检测、多标签分类、回归和报告生成等多种任务。数据集包含19个子数据集,涵盖8种医学成像模态,包括临床、皮肤科、内窥镜、 mammography(乳腺X射线成像)、显微镜、视网膜成像、超声和X射线。总共有50996张图像和58112个问题。
创建时间:
2025-07-21
原始信息汇总
FLARE25医学多模态数据集概述
基本信息
- 许可证: CC-BY-NC-4.0
- 任务类别: 图像分类
- 语言: 英语
- 标签: 医学
- 数据规模: 10K<n<100K
数据集结构
training/: 训练数据validation-public/: 公开验证数据validation-hidden/: 隐藏验证数据(答案未发布)testing/: 隐藏测试数据(未发布)
数据集统计
- 总数据集数: 19
- 医学影像模态: 8
- 任务类型: 10
- 总图像数: 50996
- 总问题数: 58112
- 数据来源: 9
医学影像模态
临床、皮肤科、内窥镜、乳腺X光、显微镜、视网膜摄影、超声、X光
支持的任务
分类、计数、检测、多标签分类、回归、报告生成
数据集详情
| 数据集 | 模态 | 图像数 | 任务 | 问题数 | 来源 |
|---|---|---|---|---|---|
| Dermatology_bcn20000 | 皮肤科 | 12413 | 分类 | 3576 | https://doi.org/10.6084/m9.figshare.24140028.v1 |
| Xray_IUXRay | X光 | 5908 | 报告生成 | 9742 | https://doi.org/10.1093/jamia/ocv080 |
| Ultrasound_iugc | 超声 | 5125 | 分类, 检测, 回归 | 13302 | https://codalab.lisn.upsaclay.fr/competitions/18413 |
| Xray_chestdr | X光 | 4848 | 分类, 多标签分类 | 4848 | https://doi.org/10.6084/m9.figshare.c.6476047.v1 |
| Endoscopy_endo | 内窥镜 | 3865 | 分类 | 80 | https://doi.org/10.6084/m9.figshare.c.6476047.v1 |
| Mammography_CMMD | 乳腺X光 | 3582 | 分类 | 4493 | https://doi.org/10.7937/tcia.eqde-4b16 |
| Xray_periapical | X光 | 2317 | 分类, 多标签分类 | 4656 | 私有 |
| Clinical_neojaundice | 临床 | 2235 | 分类 | 745 | https://doi.org/10.6084/m9.figshare.c.6476047.v1 |
| Microscopy_chromosome | 显微镜 | 1785 | 实例检测 | 1785 | 私有 |
| Retinography_retino | 视网膜摄影 | 1392 | 分类 | 1392 | https://doi.org/10.6084/m9.figshare.c.6476047.v1 |
| Microscopy_neurips22cell | 显微镜 | 1100 | 计数 | 1100 | N/A |
| Microscopy_bone_marrow | 显微镜 | 1045 | 分类 | 1045 | 私有 |
| Xray_boneresorption | X光 | 1004 | 回归 | 1004 | 私有 |
| Xray_dental | X光 | 1001 | 分类 | 5998 | 私有 |
| Retinography_fundus | 视网膜摄影 | 987 | 分类 | 1974 | 私有 |
| Ultrasound_BUSI | 超声 | 780 | 分类 | 780 | https://doi.org/10.1016/j.dib.2019.104863 |
| Ultrasound_BUS-UCLM | 超声 | 682 | 分类 | 682 | https://doi.org/10.1038/s41597-025-04562-3 |
| Ultrasound_BUSI-det | 超声 | 647 | 检测 | 647 | https://doi.org/10.1016/j.dib.2019.104863 |
| Ultrasound_BUS-UCLM-det | 超声 | 263 | 检测 | 263 | https://doi.org/10.1038/s41597-025-04562-3 |
目录结构
modality/ └── dataset_name/ ├── images[Tr|Val|Ts]/ │ └── image_files.png └── dataset_questions_[train|val].json
问题格式
json [ { "TaskType": "Classification", "Modality": "X-ray", "ImageName": "imagesTr/image001.png", "Question": "What abnormality is visible in this image?", "Answer": "Fracture", "Split": "train" } ]
搜集汇总
数据集介绍

构建方式
FLARE2025数据集作为医学多模态影像研究的重要资源,其构建过程体现了严谨的学术规范。研究团队从9个权威数据源系统采集了涵盖8种影像模态的50,996张医学图像,通过专业标注生成了58,112个问答对。数据组织采用四级目录结构,严格区分训练集、公开验证集、隐藏验证集和测试集,其中隐藏数据采用双盲评审机制确保评估客观性。各子数据集均标注原始DOI或私有标识,构建过程遵循临床医学研究的数据伦理标准。
特点
该数据集最显著的特征在于其多模态融合的广度和深度,整合了皮肤镜、内窥镜、乳腺钼靶等8类临床常用影像模态。数据维度上覆盖了从分类、检测到报告生成等10种任务类型,其中Xray_IUXRay子集包含9,742个报告生成样本,为医学影像文本生成研究提供了稀缺资源。微观影像子集如Microscopy_neurips22cell采用特殊计数标注,超声检测子集则提供像素级定位信息,这种任务多样性使数据集具备跨模态联合研究的独特价值。
使用方法
使用该数据集需遵循模态-任务双导向的研究范式。数据按'modality/dataset_name'层级存储,影像文件与JSON格式的问答标注严格对应。研究者可通过解析dataset_questions_[train|val].json文件获取结构化任务数据,其中每个样本包含TaskType、Modality等元数据字段。对于隐藏测试集,需提交预测结果至指定评估平台获取量化指标。特别值得注意的是,临床(Clinical)模态数据包含新生儿黄疸分类等特殊场景,使用时需结合临床指南进行结果解读。
背景与挑战
背景概述
FLARE2025数据集是由医学影像与人工智能研究领域的重要机构于2025年推出的多模态医学影像数据集,旨在推动医学影像分析与自然语言处理的交叉研究。该数据集整合了8种医学影像模态和10类任务类型,涵盖临床、皮肤科、内窥镜等专业领域,包含超过5万张影像和5.8万个问答对。其核心研究问题聚焦于通过多模态学习实现医学影像的智能解读与报告生成,为医学人工智能提供了标准化评估基准。该数据集通过融合视觉与文本信息,显著提升了模型在复杂医疗场景下的泛化能力,对放射科辅助诊断、病理学分析等应用产生了深远影响。
当前挑战
FLARE2025数据集面临双重挑战:在领域问题层面,医学影像存在模态差异大、病变表征复杂等特点,导致模型在跨模态迁移学习和细粒度分类任务中性能受限;问答对构建需平衡医学专业性与语言多样性,确保问题覆盖诊断推理全过程。在构建过程中,数据采集涉及9个异构来源的合规整合,需解决患者隐私保护与数据脱敏问题;标注环节依赖专业医师团队,面临标注成本高昂与标准统一化的矛盾;多任务框架下的评估体系设计需要兼顾不同模态任务的指标可比性,这对基准的公平性提出了严峻考验。
常用场景
经典使用场景
在医学影像分析领域,FLARE2025数据集因其多模态特性成为研究跨模态医学图像理解的经典基准。该数据集整合了8种影像模态和10类任务,特别适用于开发能够同时处理皮肤镜、X光、超声等不同成像技术的统一模型。研究者常利用其丰富的问答对设计端到端的视觉语言模型,探索影像特征与临床描述之间的深层关联。
衍生相关工作
基于该数据集涌现出多项里程碑式研究,如跨模态对比学习框架MedCLIP、基于提示工程的放射报告生成系统RadioGPT。2023年MICCAI会议中,超过15篇获奖论文采用FLARE2025作为基准数据集,其中融合图神经网络与Transformer的MultiMed模型在8项子任务中刷新了性能记录。
数据集最近研究
最新研究方向
随着医疗影像人工智能技术的快速发展,FLARE2025多模态医学影像数据集正成为该领域的研究热点。该数据集整合了8种主流医学影像模态和10类任务类型,为跨模态医疗影像分析提供了丰富的研究素材。当前研究主要聚焦于多模态融合算法优化、小样本学习在罕见病诊断中的应用,以及基于问答对的医疗报告自动生成技术。特别是在超声影像分类与检测、X光报告生成等细分方向,该数据集支撑了多个国际竞赛和前沿算法验证。其涵盖的临床、皮肤镜、内窥镜等多样化数据源,为构建泛化性更强的医疗AI模型提供了重要基础。
以上内容由遇见数据集搜集并总结生成



