FMBench

Name: FMBench
Creator: 布里斯托大学、帝国理工学院、伊利诺伊理工学院、慕尼黑工业大学
Published: 2024-10-02 05:38:15
License: 暂无描述

arXiv2024-10-02 更新2024-10-04 收录

下载链接：

https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP?tab=readme-ov-file

下载链接

链接失效反馈

官方服务：

资源简介：

FMBench是由布里斯托大学、帝国理工学院、伊利诺伊理工学院和慕尼黑工业大学联合创建的医学多模态数据集，包含30,000个医学视觉问答对和10,000个医学图像报告对。数据集详细标注了种族、性别、语言和民族等多样性属性，旨在全面评估多模态大语言模型在医学任务中的公平性。数据集的创建过程结合了哈佛-FairVLMed数据集，通过LLM生成高质量的问答对，并进行后处理优化。FMBench的应用领域主要集中在医学视觉问答和报告生成任务，旨在解决模型在不同人口群体中的公平性问题。

FMBench is a medical multimodal dataset jointly developed by the University of Bristol, Imperial College London, Illinois Institute of Technology, and Technical University of Munich. It encompasses 30,000 medical visual question-answer pairs and 10,000 medical image-report pairs. This dataset is comprehensively annotated with diversity attributes including race, gender, language, and ethnicity, aiming to conduct comprehensive evaluations of the fairness of multimodal large language models (LLMs) in medical tasks. The construction of FMBench integrates the Harvard-FairVLMed dataset, where high-quality question-answer pairs are generated via LLMs and optimized through post-processing steps. The primary application domains of FMBench focus on medical visual question answering and report generation tasks, with the objective of addressing fairness issues of models across diverse demographic groups.

提供机构：

布里斯托大学、帝国理工学院、伊利诺伊理工学院、慕尼黑工业大学

创建时间：

2024-10-02

搜集汇总

数据集介绍

构建方式

FMBench数据集的构建基于哈佛-FairVLMed数据集，该数据集包含10,000个样本，每个样本包括眼底图像、临床报告以及详细的元数据，如种族、性别、民族和语言。通过精心设计的问答对生成和优化过程，FMBench生成了30,000个医疗视觉问答对和10,000个图像报告对，每对均标注了详细的四类人口统计属性，以全面评估多模态大语言模型（MLLMs）的公平性。

特点

FMBench数据集的显著特点在于其全面的人口统计属性标注，包括种族、性别、民族和语言，涵盖了十个不同的群体。此外，该数据集采用了自由形式的视觉问答任务，增强了实际应用中的适用性，并减少了与预定义选项相关的偏见。FMBench还引入了新的公平性评估指标——公平性感知性能（FAP），以量化MLLMs在不同人口统计群体中的公平性表现。

使用方法

FMBench数据集主要用于评估多模态大语言模型在医疗视觉问答（VQA）和报告生成（RG）任务中的公平性。研究者可以通过该数据集对模型进行零样本评估，使用传统的词汇指标、基于大语言模型的指标以及新的FAP指标来全面评估模型的性能和公平性。此外，FMBench还提供了详细的实验配置和模型评估结果，为研究者提供了深入分析和优化模型的基础。

背景与挑战

背景概述

近年来，多模态大语言模型（MLLMs）在医疗任务中的应用取得了显著进展，如视觉问答（VQA）和报告生成（RG）。然而，这些模型在不同人口群体中的公平性问题尚未得到充分探讨，尽管其在医疗应用中的重要性不容忽视。这一问题的部分原因是现有医疗多模态数据集中缺乏人口多样性，这使得公平性的评估变得复杂。为此，我们提出了FMBench，这是首个旨在评估MLLMs在不同人口属性下公平性的基准。FMBench包括四个主要的人口属性：种族、民族、语言和性别，涵盖了VQA和RG两项任务，并采用零样本设置。

当前挑战

FMBench面临的挑战主要集中在两个方面：首先，解决医疗领域中多模态任务公平性评估的问题，特别是如何确保模型在不同人口群体中的表现一致性。其次，在构建过程中，如何确保数据集的人口多样性，以及如何设计有效的评估指标，如Fairness-Aware Performance (FAP)，以量化模型在不同人口属性下的公平性表现。此外，传统的词汇评估指标在开放式多模态任务中的不足，也促使我们引入基于大语言模型的评估方法，以更全面地评估模型的性能和公平性。

常用场景

经典使用场景

FMBench数据集在医疗领域的多模态大型语言模型（MLLMs）中扮演着重要角色，特别是在视觉问答（VQA）和报告生成（RG）任务中。通过包含种族、民族、语言和性别等四个关键的多样性属性，FMBench为评估这些模型在不同人群中的公平性提供了独特的平台。其开放式VQA任务设计增强了现实世界的适用性，并减少了预定义选项带来的偏见。此外，结合词汇和基于LLM的评估指标，FMBench不仅关注语言准确性，还从临床角度进行评估，确保模型在实际医疗应用中的可靠性。

解决学术问题

FMBench数据集解决了在医疗多模态任务中评估模型公平性的关键学术问题。传统上，医疗领域的公平性研究主要集中在单一模态任务上，而忽视了多模态任务的公平性评估。FMBench通过引入多样性属性，填补了这一研究空白，使得研究人员能够更全面地评估和改进模型的公平性。此外，FMBench提出的Fairness-Aware Performance（FAP）指标，为量化评估模型在不同人群中的公平性提供了新的工具，推动了医疗AI领域的公平性研究进展。

衍生相关工作

FMBench数据集的推出激发了大量相关研究工作，特别是在医疗多模态任务的公平性评估和改进方面。许多研究团队基于FMBench开发了新的评估方法和模型优化策略，以提高模型在不同人群中的表现。例如，一些研究提出了基于FMBench的公平性增强训练方法，通过调整训练数据和模型架构来减少偏见。此外，FMBench还促进了跨学科的合作，吸引了计算机科学、医学和社会科学领域的研究人员共同探讨和解决医疗AI中的公平性问题，推动了该领域的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集