FundusGen

Name: FundusGen
Creator: 上海人工智能实验室, 中国科学技术大学
Published: 2025-07-23 22:19:30
License: 暂无描述

arXiv2025-07-23 更新2025-07-25 收录

下载链接：

https://github.com/MeteorElf/FundusExpert

下载链接

链接失效反馈

官方服务：

资源简介：

FundusGen数据集是上海人工智能实验室与中国科学技术大学合作构建的一个眼科专用多模态大型语言模型（MLLM）数据集，名为FundusExpert。该数据集通过智能Fundus-Engine系统构建，旨在解决眼科领域多模态学习框架中存在的标注粒度碎片化问题。FundusGen数据集整合了全局疾病分类、局部目标检测和细粒度特征分析，并模拟了临床认知链的推理路径。该数据集用于训练FundusExpert模型，在眼科问答任务中取得了最佳性能，并揭示了数据质量和模型能力之间的规模定律。

The FundusGen dataset is an ophthalmology-specialized multimodal large language model (MLLM) dataset named FundusExpert, jointly constructed by the Shanghai AI Laboratory and the University of Science and Technology of China. Developed via the intelligent Fundus-Engine system, this dataset aims to address the fragmented annotation granularity issue in multimodal learning frameworks within the ophthalmology field. The FundusGen dataset integrates global disease classification, local object detection, and fine-grained feature analysis, and simulates the reasoning pathway of the clinical cognitive chain. Used for training the FundusExpert model, this dataset achieved state-of-the-art performance on ophthalmology question answering tasks and revealed the scaling law between data quality and model capabilities.

提供机构：

上海人工智能实验室, 中国科学技术大学

创建时间：

2025-07-23

原始信息汇总

FundusExpert 数据集概述

简介

FundusExpert 是一个眼科专用的多模态大语言模型（MLLM），具备定位-诊断协同推理能力。该项目包含 FundusGen 数据集，该数据集通过智能 Fundus-Engine 系统构建。

数据与模型

模型权重与基准测试：托管在 HuggingFace 平台，需申请访问权限。
- 模型地址：MeteorElf/FundusExpert
- 访问申请：需发送邮件至 liuxinyao@mail.ustc.edu.cn 和 songdiping@pjlab.org.cn，包含 HuggingFace 用户名和简要自我介绍。
- 使用限制：仅限学术研究用途。

快速开始

推理：支持单 GPU 推理。
- 命令：python src/quick_start.py

依赖环境

安装指南：参考 InternVL 安装文档或使用 src/internvl25_requirements.txt 构建环境。

致谢

基础模型：基于 OpenGVLab/InternVL 开发。

搜集汇总

数据集介绍

构建方式

FundusGen数据集的构建采用了智能Fundus-Engine系统，该系统通过自动化定位和基于多模态大语言模型（MLLM）的语义扩展，实现了对单个眼底图像中全局疾病分类、局部对象检测和细粒度特征分析的集成。具体构建过程分为三个阶段：首先，收集具有细粒度标注的20万张眼底图像；其次，利用半监督自训练nnU-Net进行区域分割，并通过空间聚类算法将像素级预测聚合为边界框标注；最后，通过MLLM驱动的语义扩展算法将离散的医学标注转化为临床标准化的描述性文本。此外，该系统还构建了与临床认知对齐的认知链，以指导模型生成可解释的推理路径。

特点

FundusGen数据集的特点在于其多层次语义融合和临床认知对齐的标注体系。该数据集不仅包含全局疾病分类标签和局部结构分割掩码，还通过认知链实现了从局部到全局的诊断推理过程。具体而言，数据集整合了疾病级别、框级别和特征级别的标注，增强了不同粒度级别眼科数据的关联性。此外，数据集通过模拟临床医生的渐进认知过程，建立了明确的认知链，从而提高了模型在复杂场景下的可靠性和可解释性。数据集的另一个显著特点是其高信息密度和低语义噪声，这在模型性能与数据量的缩放定律中得到了验证。

使用方法

FundusGen数据集的使用方法主要包括指令微调和多任务渐进推理。研究人员可以利用该数据集对多模态大语言模型进行指令微调，以增强模型对眼底图像的深度理解。具体任务包括生成标准化诊断报告（General Report）、区域问答（Regional QA）、基于位置的报告（Grounding Report）以及多轮诊断推理（Multi-turn Diagnostic Reasoning）等。此外，数据集还支持多任务渐进推理，即模型在单个眼底图像上同时执行区域识别、临床问答和医学报告生成等任务。数据集的使用还涉及临床一致性评估，通过多粒度语义匹配框架对生成的医学报告进行结构化评估，以确保其临床逻辑的一致性。

背景与挑战

背景概述

FundusGen数据集由上海人工智能实验室和中国科学技术大学的研究团队于2024年提出，旨在解决眼科多模态大语言模型（MLLM）在临床推理中的关键挑战。该数据集通过智能Fundus-Engine系统构建，整合了全局疾病分类、局部目标检测和细粒度特征分析，模拟了临床医生从病灶观察到综合诊断的渐进认知过程。FundusGen的创新性体现在其临床对齐的认知链设计，将区域定位、特征分析和诊断推理有机结合，显著提升了模型在眼科问答任务和零样本报告生成中的表现。该数据集对推动眼科人工智能发展具有重要意义，其构建方法为医学多模态数据标注提供了新范式。

当前挑战

FundusGen面临的核心挑战包括：在领域问题层面，需解决眼科多模态学习中注释粒度碎片化与临床推理逻辑不一致的难题，如如何建立微观层面微动脉瘤分布与宏观层面糖尿病视网膜病变分期之间的跨尺度语义关联；在构建过程层面，需克服眼底图像多维度标注的复杂性，包括通过半监督方法实现病变区域的自动边界框标注，以及利用MLLM驱动的语义扩展算法将离散医学标注转化为符合临床标准的自然语言描述。此外，保持不同标注维度（疾病级别、区域级别和特征级别）间的语义一致性，以及确保生成的认知链符合真实临床推理路径，均是数据集构建中的关键技术挑战。

常用场景

经典使用场景

FundusGen数据集在眼科医学影像分析领域具有广泛的应用，特别是在多模态大语言模型（MLLMs）的训练与优化中。该数据集通过整合眼底图像的全局疾病分类、局部目标检测和细粒度特征分析，为模型提供了丰富的多粒度标注信息。其经典使用场景包括眼底图像的自动诊断、疾病分级以及病灶定位，这些任务在临床实践中对提高诊断效率和准确性具有重要意义。

衍生相关工作

FundusGen数据集衍生了一系列重要的研究工作，包括基于其构建的FundusExpert模型，该模型在眼科问答任务中超越了40B参数的MedRegA模型26.6%的准确率。此外，该数据集揭示的医疗多模态数据缩放规律（L ∝ N0.068）为后续研究提供了数据效率优化的理论依据。相关工作还探索了从商业闭源模型到轻量级领域特定模型的数据生成范式转变，推动了眼科AI领域的迭代发展。

数据集最近研究