five

FLARE2025

收藏
Hugging Face2025-07-24 更新2025-07-25 收录
下载链接:
https://huggingface.co/datasets/MaiAhmed/FLARE2025
下载链接
链接失效反馈
官方服务:
资源简介:
FLARE25医疗多模态数据集是一个包含多种医学成像模态的问题-答案对的多模态医学成像数据集。该数据集适用于图像分类、计数、检测、多标签分类、回归和报告生成等多种任务。数据集包含19个子数据集,涵盖8种医学成像模态,包括临床、皮肤科、内窥镜、 mammography(乳腺X射线成像)、显微镜、视网膜成像、超声和X射线。总共有50996张图像和58112个问题。
创建时间:
2025-07-21
原始信息汇总

FLARE25医学多模态数据集概述

基本信息

  • 许可证: CC-BY-NC-4.0
  • 任务类别: 图像分类
  • 语言: 英语
  • 标签: 医学
  • 数据规模: 10K<n<100K

数据集结构

  • training/: 训练数据
  • validation-public/: 公开验证数据
  • validation-hidden/: 隐藏验证数据(答案未发布)
  • testing/: 隐藏测试数据(未发布)

数据集统计

  • 总数据集数: 19
  • 医学影像模态: 8
  • 任务类型: 10
  • 总图像数: 50996
  • 总问题数: 58112
  • 数据来源: 9

医学影像模态

临床、皮肤科、内窥镜、乳腺X光、显微镜、视网膜摄影、超声、X光

支持的任务

分类、计数、检测、多标签分类、回归、报告生成

数据集详情

数据集 模态 图像数 任务 问题数 来源
Dermatology_bcn20000 皮肤科 12413 分类 3576 https://doi.org/10.6084/m9.figshare.24140028.v1
Xray_IUXRay X光 5908 报告生成 9742 https://doi.org/10.1093/jamia/ocv080
Ultrasound_iugc 超声 5125 分类, 检测, 回归 13302 https://codalab.lisn.upsaclay.fr/competitions/18413
Xray_chestdr X光 4848 分类, 多标签分类 4848 https://doi.org/10.6084/m9.figshare.c.6476047.v1
Endoscopy_endo 内窥镜 3865 分类 80 https://doi.org/10.6084/m9.figshare.c.6476047.v1
Mammography_CMMD 乳腺X光 3582 分类 4493 https://doi.org/10.7937/tcia.eqde-4b16
Xray_periapical X光 2317 分类, 多标签分类 4656 私有
Clinical_neojaundice 临床 2235 分类 745 https://doi.org/10.6084/m9.figshare.c.6476047.v1
Microscopy_chromosome 显微镜 1785 实例检测 1785 私有
Retinography_retino 视网膜摄影 1392 分类 1392 https://doi.org/10.6084/m9.figshare.c.6476047.v1
Microscopy_neurips22cell 显微镜 1100 计数 1100 N/A
Microscopy_bone_marrow 显微镜 1045 分类 1045 私有
Xray_boneresorption X光 1004 回归 1004 私有
Xray_dental X光 1001 分类 5998 私有
Retinography_fundus 视网膜摄影 987 分类 1974 私有
Ultrasound_BUSI 超声 780 分类 780 https://doi.org/10.1016/j.dib.2019.104863
Ultrasound_BUS-UCLM 超声 682 分类 682 https://doi.org/10.1038/s41597-025-04562-3
Ultrasound_BUSI-det 超声 647 检测 647 https://doi.org/10.1016/j.dib.2019.104863
Ultrasound_BUS-UCLM-det 超声 263 检测 263 https://doi.org/10.1038/s41597-025-04562-3

目录结构

modality/ └── dataset_name/ ├── images[Tr|Val|Ts]/ │ └── image_files.png └── dataset_questions_[train|val].json

问题格式

json [ { "TaskType": "Classification", "Modality": "X-ray", "ImageName": "imagesTr/image001.png", "Question": "What abnormality is visible in this image?", "Answer": "Fracture", "Split": "train" } ]

搜集汇总
数据集介绍
main_image_url
构建方式
FLARE2025数据集作为医学多模态影像研究的重要资源,其构建过程体现了严谨的学术规范。研究团队从9个权威数据源系统采集了涵盖8种影像模态的50,996张医学图像,通过专业标注生成了58,112个问答对。数据组织采用四级目录结构,严格区分训练集、公开验证集、隐藏验证集和测试集,其中隐藏数据采用双盲评审机制确保评估客观性。各子数据集均标注原始DOI或私有标识,构建过程遵循临床医学研究的数据伦理标准。
特点
该数据集最显著的特征在于其多模态融合的广度和深度,整合了皮肤镜、内窥镜、乳腺钼靶等8类临床常用影像模态。数据维度上覆盖了从分类、检测到报告生成等10种任务类型,其中Xray_IUXRay子集包含9,742个报告生成样本,为医学影像文本生成研究提供了稀缺资源。微观影像子集如Microscopy_neurips22cell采用特殊计数标注,超声检测子集则提供像素级定位信息,这种任务多样性使数据集具备跨模态联合研究的独特价值。
使用方法
使用该数据集需遵循模态-任务双导向的研究范式。数据按'modality/dataset_name'层级存储,影像文件与JSON格式的问答标注严格对应。研究者可通过解析dataset_questions_[train|val].json文件获取结构化任务数据,其中每个样本包含TaskType、Modality等元数据字段。对于隐藏测试集,需提交预测结果至指定评估平台获取量化指标。特别值得注意的是,临床(Clinical)模态数据包含新生儿黄疸分类等特殊场景,使用时需结合临床指南进行结果解读。
背景与挑战
背景概述
FLARE2025数据集是由医学影像与人工智能研究领域的重要机构于2025年推出的多模态医学影像数据集,旨在推动医学影像分析与自然语言处理的交叉研究。该数据集整合了8种医学影像模态和10类任务类型,涵盖临床、皮肤科、内窥镜等专业领域,包含超过5万张影像和5.8万个问答对。其核心研究问题聚焦于通过多模态学习实现医学影像的智能解读与报告生成,为医学人工智能提供了标准化评估基准。该数据集通过融合视觉与文本信息,显著提升了模型在复杂医疗场景下的泛化能力,对放射科辅助诊断、病理学分析等应用产生了深远影响。
当前挑战
FLARE2025数据集面临双重挑战:在领域问题层面,医学影像存在模态差异大、病变表征复杂等特点,导致模型在跨模态迁移学习和细粒度分类任务中性能受限;问答对构建需平衡医学专业性与语言多样性,确保问题覆盖诊断推理全过程。在构建过程中,数据采集涉及9个异构来源的合规整合,需解决患者隐私保护与数据脱敏问题;标注环节依赖专业医师团队,面临标注成本高昂与标准统一化的矛盾;多任务框架下的评估体系设计需要兼顾不同模态任务的指标可比性,这对基准的公平性提出了严峻考验。
常用场景
经典使用场景
在医学影像分析领域,FLARE2025数据集因其多模态特性成为研究跨模态医学图像理解的经典基准。该数据集整合了8种影像模态和10类任务,特别适用于开发能够同时处理皮肤镜、X光、超声等不同成像技术的统一模型。研究者常利用其丰富的问答对设计端到端的视觉语言模型,探索影像特征与临床描述之间的深层关联。
衍生相关工作
基于该数据集涌现出多项里程碑式研究,如跨模态对比学习框架MedCLIP、基于提示工程的放射报告生成系统RadioGPT。2023年MICCAI会议中,超过15篇获奖论文采用FLARE2025作为基准数据集,其中融合图神经网络与Transformer的MultiMed模型在8项子任务中刷新了性能记录。
数据集最近研究
最新研究方向
随着医疗影像人工智能技术的快速发展,FLARE2025多模态医学影像数据集正成为该领域的研究热点。该数据集整合了8种主流医学影像模态和10类任务类型,为跨模态医疗影像分析提供了丰富的研究素材。当前研究主要聚焦于多模态融合算法优化、小样本学习在罕见病诊断中的应用,以及基于问答对的医疗报告自动生成技术。特别是在超声影像分类与检测、X光报告生成等细分方向,该数据集支撑了多个国际竞赛和前沿算法验证。其涵盖的临床、皮肤镜、内窥镜等多样化数据源,为构建泛化性更强的医疗AI模型提供了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作