FunBench

Name: FunBench
Creator: 中国人民大学
Published: 2025-03-02 22:00:24
License: 暂无描述

arXiv2025-03-02 更新2025-03-06 收录

下载链接：

https://huggingface.co/datasets/AIMClab-RUC/FunBench

下载链接

链接失效反馈

官方服务：

资源简介：

FunBench是由中国人民大学AIMClab创建的一个视觉问题回答(VQA)基准，旨在全面评估多模态大型语言模型(MLLM)的视网膜阅读技能。该数据集包含16,348个视网膜图像和91,810个视觉问题，涵盖了从低级别的模态感知、解剖感知到高级别的病变分析和疾病诊断四个层次的任务。数据来源于多个公开数据集，包括彩色眼底摄影(CFP)、光学相干断层扫描(OCT)和超广角眼底摄影(UWF)等。FunBench的设计考虑了两个基本问题：问什么和怎么问，以实现对MLLM视网膜阅读技能的全面评估。该数据集应用于评估MLLM在眼科图像分析领域的性能，解决视网膜图像的解读问题。

FunBench is a visual question answering (VQA) benchmark created by the AIMClab of Renmin University of China, aiming to comprehensively evaluate the retinal reading skills of multimodal large language models (MLLMs). The dataset includes 16,348 retinal images and 91,810 visual questions, covering four hierarchical tasks ranging from low-level modality perception and anatomical perception to high-level lesion analysis and disease diagnosis. Its data is sourced from multiple public datasets, including color fundus photography (CFP), optical coherence tomography (OCT), ultra-widefield fundus photography (UWF), and other related modalities. The design of FunBench takes into account two core questions: what to ask and how to ask, enabling a comprehensive assessment of the retinal reading abilities of MLLMs. This dataset is utilized to evaluate the performance of MLLMs in the field of ophthalmic image analysis, addressing the challenge of retinal image interpretation.

提供机构：

中国人民大学

创建时间：

2025-03-02

搜集汇总

数据集介绍

构建方式

FunBench的构建方式是通过整合了14个公开的数据集，包括6个彩色眼底照片数据集、5个光学相干断层扫描数据集、1个超广角眼底照片数据集和2个多模态数据集，共包含了16,348张眼底图像和91,810个视觉问题。数据集被设计为四个层次的任务，从低级的模式感知和解剖结构感知到高级的病变分析和疾病诊断。为了评估模型的表现，数据集提供了三种有针对性的评估模式：基于线性探测的视觉编码器评估、知识提示的大语言模型评估和整体评估。通过这些设计，FunBench旨在提供一个全面和细致的评估框架，用于衡量多模态大语言模型在眼底阅读技能方面的表现。

使用方法

使用FunBench的方法包括准备数据集、选择合适的模型、进行模型训练和评估。首先，用户需要下载FunBench数据集并对其进行预处理。然后，选择合适的多模态大语言模型，例如LLaVA、Qwen等，并使用FunBench提供的评估模式进行训练和评估。在评估过程中，可以分别对视觉编码器和大语言模型进行评估，也可以进行整体评估。通过比较不同模型在FunBench上的表现，可以了解它们在眼底阅读技能方面的优势和不足，为模型的改进和优化提供依据。

背景与挑战

背景概述

在医学图像分析领域，多模态大语言模型（MLLMs）在通用视觉内容理解方面展现出巨大潜力。然而，它们在解读眼底图像方面的能力，这对于眼科来说是一项关键技能，尚未得到充分评估。现有的基准测试缺乏细粒度的任务划分，未能对眼底阅读的两个关键模块——大型语言模型（LLM）和视觉编码器（VE）——进行模块化分析。本文介绍的FunBench是一个新的视觉问答（VQA）基准测试，旨在全面评估MLLMs的眼底阅读技能。FunBench具有四级层次的任务组织（模式感知、解剖感知、病变分析和疾病诊断），并提供三种有针对性的评估模式：基于线性探针的VE评估、基于知识提示的LLM评估和整体评估。对九个开源MLLMs以及GPT-4o的实验揭示了眼底阅读技能的显著缺陷，尤其是在侧向识别等基本任务上。这些结果突出了当前MLLMs的局限性，强调了领域特定训练以及改进LLMs和VEs的必要性。

当前挑战

FunBench数据集面临的挑战包括：1) 解决眼底图像解读的领域问题，即如何准确地进行眼底图像分析；2) 在构建过程中遇到的挑战，例如如何设计细粒度的任务划分，以及如何提供模块化分析LLMs和VEs的能力。此外，如何有效地进行领域特定训练以及改进LLMs和VEs，也是当前MLLMs在眼底阅读方面面临的重要挑战。

常用场景

经典使用场景

FunBench数据集被广泛应用于评估多模态大型语言模型（MLLMs）在解读眼底图像方面的能力。它包含了四个层次的视觉问答任务，包括模式感知、解剖感知、病变分析和疾病诊断。通过这些任务，研究人员可以全面评估MLLMs在眼科诊断方面的技能水平，从而推动眼科人工智能的发展。

解决学术问题

FunBench数据集解决了现有基准在眼底图像解读任务中缺乏细粒度任务划分和模块化分析的问题。通过引入层次化任务组织和针对性的评估模式，FunBench能够更全面地评估MLLMs的阅读能力，并揭示了当前MLLMs在眼底图像解读方面的局限性，强调了领域特定训练和改进LLMs和VEs的必要性。

实际应用

FunBench数据集在实际应用中，可以帮助眼科医生和研究人员评估和改进MLLMs在眼底图像解读方面的能力。通过使用FunBench，可以更好地理解MLLMs在眼科诊断中的性能和局限性，从而推动眼科人工智能的应用和发展。

数据集最近研究