five

FMBench|医学多模态数据集|模型公平性数据集

收藏
arXiv2024-10-02 更新2024-10-04 收录
医学多模态
模型公平性
下载链接:
https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP?tab=readme-ov-file
下载链接
链接失效反馈
资源简介:
FMBench是由布里斯托大学、帝国理工学院、伊利诺伊理工学院和慕尼黑工业大学联合创建的医学多模态数据集,包含30,000个医学视觉问答对和10,000个医学图像报告对。数据集详细标注了种族、性别、语言和民族等多样性属性,旨在全面评估多模态大语言模型在医学任务中的公平性。数据集的创建过程结合了哈佛-FairVLMed数据集,通过LLM生成高质量的问答对,并进行后处理优化。FMBench的应用领域主要集中在医学视觉问答和报告生成任务,旨在解决模型在不同人口群体中的公平性问题。
提供机构:
布里斯托大学、帝国理工学院、伊利诺伊理工学院、慕尼黑工业大学
创建时间:
2024-10-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
FMBench数据集的构建基于哈佛-FairVLMed数据集,该数据集包含10,000个样本,每个样本包括眼底图像、临床报告以及详细的元数据,如种族、性别、民族和语言。通过精心设计的问答对生成和优化过程,FMBench生成了30,000个医疗视觉问答对和10,000个图像报告对,每对均标注了详细的四类人口统计属性,以全面评估多模态大语言模型(MLLMs)的公平性。
特点
FMBench数据集的显著特点在于其全面的人口统计属性标注,包括种族、性别、民族和语言,涵盖了十个不同的群体。此外,该数据集采用了自由形式的视觉问答任务,增强了实际应用中的适用性,并减少了与预定义选项相关的偏见。FMBench还引入了新的公平性评估指标——公平性感知性能(FAP),以量化MLLMs在不同人口统计群体中的公平性表现。
使用方法
FMBench数据集主要用于评估多模态大语言模型在医疗视觉问答(VQA)和报告生成(RG)任务中的公平性。研究者可以通过该数据集对模型进行零样本评估,使用传统的词汇指标、基于大语言模型的指标以及新的FAP指标来全面评估模型的性能和公平性。此外,FMBench还提供了详细的实验配置和模型评估结果,为研究者提供了深入分析和优化模型的基础。
背景与挑战
背景概述
近年来,多模态大语言模型(MLLMs)在医疗任务中的应用取得了显著进展,如视觉问答(VQA)和报告生成(RG)。然而,这些模型在不同人口群体中的公平性问题尚未得到充分探讨,尽管其在医疗应用中的重要性不容忽视。这一问题的部分原因是现有医疗多模态数据集中缺乏人口多样性,这使得公平性的评估变得复杂。为此,我们提出了FMBench,这是首个旨在评估MLLMs在不同人口属性下公平性的基准。FMBench包括四个主要的人口属性:种族、民族、语言和性别,涵盖了VQA和RG两项任务,并采用零样本设置。
当前挑战
FMBench面临的挑战主要集中在两个方面:首先,解决医疗领域中多模态任务公平性评估的问题,特别是如何确保模型在不同人口群体中的表现一致性。其次,在构建过程中,如何确保数据集的人口多样性,以及如何设计有效的评估指标,如Fairness-Aware Performance (FAP),以量化模型在不同人口属性下的公平性表现。此外,传统的词汇评估指标在开放式多模态任务中的不足,也促使我们引入基于大语言模型的评估方法,以更全面地评估模型的性能和公平性。
常用场景
经典使用场景
FMBench数据集在医疗领域的多模态大型语言模型(MLLMs)中扮演着重要角色,特别是在视觉问答(VQA)和报告生成(RG)任务中。通过包含种族、民族、语言和性别等四个关键的多样性属性,FMBench为评估这些模型在不同人群中的公平性提供了独特的平台。其开放式VQA任务设计增强了现实世界的适用性,并减少了预定义选项带来的偏见。此外,结合词汇和基于LLM的评估指标,FMBench不仅关注语言准确性,还从临床角度进行评估,确保模型在实际医疗应用中的可靠性。
解决学术问题
FMBench数据集解决了在医疗多模态任务中评估模型公平性的关键学术问题。传统上,医疗领域的公平性研究主要集中在单一模态任务上,而忽视了多模态任务的公平性评估。FMBench通过引入多样性属性,填补了这一研究空白,使得研究人员能够更全面地评估和改进模型的公平性。此外,FMBench提出的Fairness-Aware Performance(FAP)指标,为量化评估模型在不同人群中的公平性提供了新的工具,推动了医疗AI领域的公平性研究进展。
衍生相关工作
FMBench数据集的推出激发了大量相关研究工作,特别是在医疗多模态任务的公平性评估和改进方面。许多研究团队基于FMBench开发了新的评估方法和模型优化策略,以提高模型在不同人群中的表现。例如,一些研究提出了基于FMBench的公平性增强训练方法,通过调整训练数据和模型架构来减少偏见。此外,FMBench还促进了跨学科的合作,吸引了计算机科学、医学和社会科学领域的研究人员共同探讨和解决医疗AI中的公平性问题,推动了该领域的整体发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录