MM-Retinal-Reason

Name: MM-Retinal-Reason
Creator: 东南大学计算机科学与工程学院, 南京医科大学第一附属医院眼科, 南京理工大学计算机科学与工程学院, 西北工业大学计算机科学学院
Published: 2025-08-22 14:47:30
License: 暂无描述

arXiv2025-08-22 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/lxirich/MM-Retinal-Reason

下载链接

链接失效反馈

官方服务：

资源简介：

MM-Retinal-Reason 是首个眼科多模态推理数据集，涵盖了从基本推理到复杂推理的完整范围，旨在提升视觉中心的基本推理能力，模拟真实临床思维模式。该数据集由 45 个公共数据集和 PubMed Central (PMC) 收集的实时数据构建，包括 4 种类型的问题，涵盖超过 100 种常见的和罕见的眼科异常。数据集由基本推理视觉问答 (VQA)、思维链 (CoT) 推理轨迹、图像标题对和复杂推理 VQA 四个部分组成，为眼科 MLLMs 的训练和评估提供全面监督。该数据集的创建过程包括数据收集、问题制定、候选选项设计、推理轨迹构建、图像标题对构建和复杂推理 VQA 构建。该数据集的应用领域是眼科诊断，旨在解决真实临床场景中的复杂推理问题。

MM-Retinal-Reason is the first ophthalmic multimodal reasoning dataset covering the full spectrum from basic to complex reasoning. It aims to enhance the fundamental reasoning capabilities of visual-centric systems and simulate real clinical thinking patterns. This dataset is constructed from 45 public datasets and real-world data collected from PubMed Central (PMC), which includes four types of questions covering over 100 common and rare ophthalmic abnormalities. The dataset consists of four components: basic reasoning Visual Question Answering (VQA), Chain-of-Thought (CoT) reasoning traces, image-caption pairs, and complex reasoning VQA, providing comprehensive supervision for the training and evaluation of ophthalmic Multimodal Large Language Models (MLLMs). The construction process of the dataset includes data collection, question formulation, candidate option design, reasoning trace construction, image-caption pair construction, and complex reasoning VQA construction. The dataset is applied in the field of ophthalmic diagnosis, aiming to solve complex reasoning problems in real clinical scenarios.

提供机构：

东南大学计算机科学与工程学院, 南京医科大学第一附属医院眼科, 南京理工大学计算机科学与工程学院, 西北工业大学计算机科学学院

创建时间：

2025-08-22

搜集汇总

数据集介绍

构建方式

在眼科人工智能领域，构建能够模拟真实临床诊断过程的数据集至关重要。MM-Retinal-Reason数据集通过整合45个公共数据集及PubMed Central资源，系统性地构建了涵盖基础与复杂推理任务的多模态内容。其构建流程包含四个核心模块：基础视觉问答部分采用多标签策略设计候选选项，确保疾病覆盖的全面性；思维链轨迹通过大语言模型生成并经过多维度质量验证；图像-描述对集合利用形态学分析与空间规则对齐子图与文本；复杂推理部分则基于真实眼科病例报告，结合自动化评估与冗余信息剔除，形成具有临床深度的多图像多模态问答样本。

特点

该数据集在眼科多模态推理领域具有开创性意义，其核心特点体现在任务层级的完整性与临床贴合度。数据集同时涵盖基础视觉匹配任务与需要整合主诉、病史等异构临床信息的复杂推理场景，覆盖超过100种常见及罕见眼科疾病。其多模态特性延伸至彩色眼底照相、光学相干断层扫描等多种影像模态，并包含真值判断、单选多选及开放式问答等多样化题型。通过显式标注的思维链轨迹与多图像输入机制，该数据集有效弥合了传统视觉问答与真实临床诊断需求之间的鸿沟。

使用方法

该数据集为眼科多模态大模型的训练与评估提供了系统化支持。研究者可采用三阶段训练框架：首先通过图像-描述对实现视觉语言对齐，再利用思维链数据进行监督微调以激活逐步推理能力，最终结合强化学习优化临床决策。针对数据集中难度异构的特点，可引入基于熵值的动态思考机制，使模型能自适应调整不同样本的探索深度。评估时需严格区分训练集与测试集，并在基础视觉理解、跨模态推理及临床情境整合等多个维度进行综合性能验证。

背景与挑战

背景概述

MM-Retinal-Reason数据集由东南大学与南京医科大学第一附属医院等机构于2025年联合构建，旨在填补眼科人工智能领域动态多模态推理的空白。该数据集整合了来自45个公共数据集和PubMed Central的真实临床数据，覆盖彩色眼底摄影、光学相干断层扫描等多种影像模态，并首次将基础推理任务与复杂临床推理任务相结合。其核心研究问题聚焦于模拟真实诊断场景中异构信息的融合推理，推动了眼科多模态大模型从浅层特征匹配向深度临床思维的演进，为眼科AI的可解释性和可靠性设立了新基准。

当前挑战

该数据集致力于解决眼科诊断中动态多模态推理的挑战：其一，传统模型仅支持单一影像模态的浅层推理，无法整合主诉、病史等异构临床信息；其二，构建过程中需克服多源数据标准化、罕见病变标注一致性、以及复杂推理轨迹自动化生成的难题。此外，数据需平衡常见病与罕见病的覆盖范围，确保模型在模糊症状和共病场景下的泛化能力。

常用场景

经典使用场景

在眼科人工智能领域，MM-Retinal-Reason数据集通过整合多模态视网膜影像与异构临床信息，为动态推理任务提供了标准化评估平台。其经典应用场景涵盖从基础视觉匹配到复杂临床思维模拟的全谱系任务，例如在彩色眼底摄影、光学相干断层扫描等影像模态上，同时结合主诉、病史等文本信息，构建起接近真实诊断场景的多轮问答框架。

衍生相关工作

基于该数据集衍生的OphthaReason模型开创了眼科专属多模态推理新范式，其提出的不确定性感知动态思维机制被后续研究广泛借鉴。相关工作进一步拓展到多中心临床验证、跨模态知识蒸馏等方向，推动了RetinalGPT、EyeCareGPT等系列模型在细粒度眼科诊断任务中的迭代升级。

数据集最近研究