FETAL-GAUGE

github2026-01-29 更新2026-02-03 收录

下载链接：

https://github.com/BioMedIA-MBZUAI/FETAL-GAUGE

下载链接

链接失效反馈

官方服务：

资源简介：

FETAL-GAUGE是首个用于系统评估视觉语言模型在临床相关胎儿超声任务上的大规模基准数据集，包含超过42,000张胎儿超声图像和93,000多个问答对，涵盖平面识别、解剖识别、视觉定位、方向理解和视图一致性等多种临床任务。

FETAL-GAUGE is the first large-scale benchmark dataset for the systematic evaluation of vision-language models on clinically relevant fetal ultrasound tasks. It contains over 42,000 fetal ultrasound images and more than 93,000 question-answer pairs, covering a variety of clinical tasks including plane recognition, anatomy recognition, visual localization, orientation understanding, and view consistency.

创建时间：

2026-01-29

原始信息汇总

FETAL-GAUGE 数据集概述

数据集简介

FETAL-GAUGE 是首个用于系统性评估视觉-语言模型在胎儿超声临床相关任务上性能的大规模基准。

关键特征

首创性：首个用于评估视觉-语言模型在胎儿超声领域性能的基准。
数据规模：包含超过 42,000 张胎儿超声图像和超过 93,000 个问答对。
任务范围：涵盖广泛的临床相关任务。
评估目标：支持标准化和可复现的评估，并揭示当前视觉-语言模型的关键性能差距。

基准任务

所有任务均被构建为视觉问答问题，以实现跨模型的统一评估。

任务类别	描述
切面识别	识别标准解剖切面
解剖结构识别	识别胎儿器官和结构
视觉定位	定位解剖结构
方位理解	推断胎儿方位和位置
视图符合性评估	评估临床采集标准

基准测试发现

使用 FETAL-GAUGE 评估了一系列通用及医学专用的视觉-语言模型。

主要发现：最先进的视觉-语言模型在理解胎儿超声方面存在困难。
性能水平：表现最佳的模型准确率仅约为 55%。
显著弱点：在细粒度解剖推理和超声图像视觉定位方面存在明显不足。
结论：这些结果凸显了领域特定多模态建模的必要性。

数据状态

数据即将发布。

引用

bibtex @article{alasmawi2025fetal, title={FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound}, author={Alasmawi, Hussain and Saeed, Numan and Yaqub, Mohammad}, journal={arXiv preprint arXiv:2512.22278}, year={2025} }

搜集汇总

数据集介绍

构建方式

在胎儿超声影像分析领域，构建一个全面且具有临床意义的评估基准至关重要。FETAL-GAUGE数据集的构建过程严谨而系统，其核心在于整合了超过42,000张胎儿超声图像，并在此基础上生成了超过93,000个高质量的问答对。这些数据被精心组织成视觉问答形式，覆盖了平面识别、解剖结构识别、视觉定位、方向理解和视图符合性等多个关键临床任务类别，从而为模型评估提供了一个统一且标准化的框架。

特点

该数据集作为首个专注于胎儿超声领域的视觉语言模型基准，展现出鲜明的特色。其规模庞大，涵盖的图像与问答对数量显著，确保了评估的广泛性与统计可靠性。数据集设计紧密贴合临床实践，所包含的任务均直接关联产前检查中的核心诊断环节，如标准解剖平面的判定与胎儿器官的精细识别。这种针对性的任务设置，能够有效揭示模型在复杂医学影像理解中的实际能力与局限。

使用方法

研究人员可利用FETAL-GAUGE对各类视觉语言模型进行系统性评估。使用方法主要围绕其预设的视觉问答任务展开，通过输入超声图像及相关问题，评估模型生成答案的准确性。该基准支持对通用模型与医学专用模型的横向比较，尤其擅长暴露模型在细粒度解剖推理和超声影像视觉定位等方面的薄弱环节。遵循其标准化流程，能够实现评估结果的可复现性，从而推动领域内模型性能的客观衡量与后续改进。

背景与挑战

背景概述

胎儿超声影像是产前监护的基石，但其解读高度依赖操作者经验，临床实践面临显著挑战。随着视觉-语言模型在自然图像及部分医学影像领域展现出卓越性能，其在胎儿超声这一复杂模态中的理解能力尚属未知领域。在此背景下，由Hussain Alasmawi、Numan Saeed和Mohammad Yaqub等研究人员于2025年创建的FETAL-GAUGE基准应运而生，旨在系统评估视觉-语言模型在胎儿超声临床任务中的表现。该数据集包含超过42,000幅超声图像及93,000个问答对，覆盖平面识别、解剖结构认知、视觉定位等核心临床问题，为推进多模态人工智能在围产医学中的应用提供了首个大规模、标准化的评估框架，对提升超声诊断的客观性与可及性具有深远意义。

当前挑战

FETAL-GAUGE致力于解决视觉-语言模型在胎儿超声影像理解中的核心挑战，其首要难题在于模型对超声图像特有的声学伪影、低对比度及动态解剖结构的精细推理能力不足，导致在解剖识别、方位理解等任务上准确率受限，当前最优模型仅能达到约55%的精度。在数据集构建过程中，挑战同样显著：胎儿超声影像的标注高度依赖临床专家知识，需确保平面识别、结构定位等任务的医学准确性；同时，构建覆盖多中心、多设备来源的大规模高质量问答对，需克服数据标准化、隐私保护及标注一致性等复杂问题，这些因素共同构成了该领域迈向可靠人工智能应用的关键障碍。

常用场景

经典使用场景

在胎儿超声影像分析领域，FETAL-GAUGE数据集为评估视觉-语言模型（VLMs）的临床理解能力提供了标准化基准。该数据集通过视觉问答（VQA）形式，系统覆盖了平面识别、解剖结构识别、视觉定位、方位理解及视图符合性等核心临床任务，使得研究人员能够统一、可重复地测试模型在复杂超声图像中的多模态推理性能。

衍生相关工作

围绕FETAL-GAUGE数据集，已衍生出一系列专注于胎儿超声多模态理解的研究工作。这些工作主要集中于改进视觉-语言模型在医学影像中的领域适应能力，例如通过结合解剖先验知识、设计超声专用的视觉编码器或引入临床引导的注意力机制，以弥补模型在细粒度推理与定位任务上的不足，进一步推动了智能超声分析技术的发展。

数据集最近研究