five

Nova

收藏
Hugging Face2025-05-22 更新2025-05-23 收录
下载链接:
https://huggingface.co/datasets/Ano-2090/Nova
下载链接
链接失效反馈
官方服务:
资源简介:
NOVA是一个针对脑部MRI异常定位和临床推理的开源基准数据集。它包含906个脑部MRI切片,涵盖了281种罕见神经性疾病,具有真实的临床异质性。数据集中的所有病例都是未经处理的2D PNG切片,大小为480×480,且遵循CC BY-NC-SA 4.0版权协议。NOVA通过三个开放世界任务来捕捉临床诊断流程:异常定位、图像描述和诊断推理。

NOVA is an open-source benchmark dataset for brain MRI abnormality localization and clinical reasoning. It contains 906 brain MRI slices, covering 281 rare neurological disorders and featuring authentic clinical heterogeneity. All cases in the dataset are unprocessed 2D PNG slices with a resolution of 480×480, and are licensed under CC BY-NC-SA 4.0. NOVA captures the clinical diagnostic workflow via three open-world tasks: abnormality localization, image captioning, and diagnostic reasoning.
创建时间:
2025-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
在脑部磁共振成像领域,NOVA数据集通过专家标注机制构建了包含906张二维切片的核心资源。所有图像均以480×480像素的PNG格式呈现,并由专业放射科医师团队完成双重盲审的边界框标注与影像描述撰写。数据集涵盖281种罕见神经系统疾病,真实反映了临床实践中未经筛选的长尾分布特性,同时整合了临床病史与诊断信息以支持多模态推理任务。
特点
该数据集最显著的特征在于其开放世界的评估框架,专门针对模型在未知异常检测任务中的泛化能力进行压力测试。其多模态架构融合了影像数据、结构化文本描述及临床上下文信息,构建出零样本分类与异常定位的复合挑战场景。数据分布的异质性体现在跨协议采集的磁共振影像中,有效模拟了真实医疗环境下的分布偏移现象。
使用方法
研究者可通过HuggingFace平台直接加载数据集进行零样本评估,严格禁止任何形式的微调操作以保持基准的公正性。评估体系包含异常定位、影像描述生成和诊断推理三大任务,分别采用mAP系列指标、临床术语F1值及Top-k准确率作为衡量标准。数据集设计初衷是作为验证视觉语言模型在罕见病变识别与临床推理能力的试金石,所有案例均具备独立诊断标签以防止数据泄露。
背景与挑战
背景概述
医学影像分析领域长期面临模型泛化能力不足的困境,尤其在处理罕见病例时表现显著下降。2025年由Cosmin I. Bercea等跨学科团队发布的NOVA基准数据集,聚焦脑部磁共振成像中的异常定位与临床推理,通过包含906个切片样本和281种罕见神经系统疾病,构建了首个专为零样本评估设计的开放世界基准。该数据集突破传统封闭式评估框架,强调模型对未知病理的识别能力,其多模态数据结构融合影像特征与放射科医师标注文本,为推动临床决策系统的发展提供了重要实验平台。
当前挑战
该数据集核心挑战在于解决开放世界中罕见疾病的零样本泛化问题,要求模型在未见过训练数据的情况下准确识别异质化病理特征。构建过程中需克服医学数据标注的高度专业性障碍,每位病例需经放射科医师双重盲审完成边界框标注与描述文本生成,同时需保持临床采集环境下的原始分布特性,包括不同MRI协议与成像参数带来的数据异质性。此外,数据的长尾分布特性对模型的多模态推理能力提出了更高要求,需同步处理图像特征与临床文本的语义关联。
常用场景
经典使用场景
在医学影像分析领域,NOVA数据集作为首个专注于脑部MRI异常定位与临床推理的开放世界基准测试平台,其经典应用场景主要体现在对罕见神经系统疾病的零样本检测与诊断。该数据集通过提供包含281种罕见病症的906个脑部MRI切片,构建了一个真实临床环境下的评估框架,使研究人员能够系统评估模型在面对未见过病理类型时的泛化能力。特别是在多模态医学影像分析中,NOVA为模型在异常区域定位、影像描述生成和诊断推理三个核心任务上的表现提供了标准化测试环境。
衍生相关工作
基于NOVA数据集的开创性设计,已衍生出多个重要的研究方向和相关工作。在模型架构方面,推动了针对医学多模态任务的视觉语言模型优化,如Qwen2.5-VL-72B在异常定位任务中的探索应用。在评估方法上,催生了针对零样本医学影像分析的新评估指标体系,包括mAP@50、临床术语F1等专门化度量标准。同时,该数据集也激发了对于长尾分布下罕见疾病诊断、临床分布偏移鲁棒性以及多模态推理融合机制等关键问题的深入研究,为后续医学人工智能基准测试的建立奠定了重要基础。
数据集最近研究
最新研究方向
在医学影像分析领域,NOVA数据集作为首个专注于脑MRI异常定位与临床推理的开放世界基准,正推动多模态人工智能系统的边界探索。其核心研究方向聚焦于罕见神经系统疾病的零样本泛化能力,通过整合图像、文本与临床病史信息,挑战现有基础模型在真实医疗场景中的诊断鲁棒性。当前热点集中于开发能够适应异构MRI协议、识别长尾分布病理的视觉语言模型,同时强调模型对未知异常的定位精度与跨模态推理能力。这一基准的建立显著提升了医学人工智能在分布偏移下的评估标准,为罕见病诊断与临床决策支持系统的可信赖发展提供了关键实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作