MM-Retinal-Reason

github2025-09-05 更新2025-09-11 收录

下载链接：

https://github.com/lxirich/OphthaReason

下载链接

链接失效反馈

官方服务：

资源简介：

首个眼科多模态数据集，包含感知和推理的完整谱系，涵盖基本推理任务和复杂推理任务，旨在增强视觉中心的基础推理能力并模拟真实的临床思维模式

The first ophthalmic multimodal dataset spanning the full spectrum of perception and reasoning encompasses both basic and complex reasoning tasks, aiming to enhance the fundamental reasoning capabilities of visual-centric systems and simulate authentic clinical thinking patterns.

创建时间：

2025-08-22

原始信息汇总

MM-Retinal-Reason 数据集概述

数据集简介

MM-Retinal-Reason 是首个涵盖感知和推理全谱的眼科多模态数据集，包含基本推理任务和复杂推理任务，旨在增强以视觉为中心的基础推理能力并模拟真实的临床思维模式。

数据格式

数据集采用 JSON 格式，包含以下字段：

image: 图像的 base64 编码字符串数组
conversations: 对话记录数组，包含 human 和 gpt 角色的输入输出
reason: 推理轨迹
pmcid: PubMed Central 标识符（仅复杂推理任务）
title: PMC 文章标题（仅复杂推理任务）
caption: 图像标题（仅复杂推理任务）

数据来源

数据集由多个公开数据集组成，分为四个子集：

CFP 子集（彩色眼底照相）

域内数据: PAPILA, PARAGUAY, ARIA, APTOS, HRF, DeepDRID, G1020, AMD, PALM, ORIGA, Drishti-GS1, CHAKSU, Cataract, FUND-OCT
域外数据: MESSIDOR, IDRID, RFMid, STARE, ROC, Retina, SUSTech-SYSU, JICHI, EYEPACS, LAG, FIVES, E-ophta, REFUGE, DR1-2, ScarDat, ACRIMA, OIA-DDR

FFA 子集（荧光素眼底血管造影）

域内数据: Angiographic
域外数据: MPOS

OCT 子集（光学相干断层扫描）

域内数据: GOALS, GAMMA1, STAGE1, STAGE2, OIMHS, OCTA_500, Large_Dataset_of_Labeled_OCT, DUKE_DME, glaucoma_detection, RetinalOCT_C8
域外数据: OCTDL, OCTID

Complex 子集（复杂推理）

来源: PubMed Central（截至 2025 年 6 月 20 日）

相关资源

数据集下载地址: https://huggingface.co/datasets/lxirich/MM-Retinal-Reason
相关模型: OphthaReason 模型（可从 https://huggingface.co/lxirich/OphthaReason 下载）
论文链接: https://arxiv.org/abs/2508.16129

搜集汇总

数据集介绍

构建方式

在眼科人工智能领域，MM-Retinal-Reason数据集通过整合多种公共视网膜图像资源构建而成，涵盖CFP、FFA、OCT等多种成像模态。数据来源于包括PAPILA、ARIA、APTOS等在内的20余个权威数据集，并进一步引入PubMed Central的复杂临床文献作为推理任务支撑。每一条数据均以结构化JSON格式组织，包含Base64编码的图像、多轮对话记录及详细的推理轨迹，确保了数据的多模态性与逻辑完整性。

特点

该数据集作为首个覆盖全谱眼科多模态感知与推理任务的数据资源，其突出特点在于融合了基础视觉问答与复杂临床推理双层次挑战。数据不仅包含跨模态的视网膜图像（如彩色眼底照相、OCT血管成像），还附注了专业医学标注与推理链，模拟真实临床决策流程。其样本设计兼顾领域内与领域外分布，显著提升了模型在多样化临床场景中的泛化能力与鲁棒性。

使用方法

使用者可通过Hugging Face平台获取数据集与预训练模型OphthaReason，并依托配套的Python评估框架进行批量推理或单实例视觉问答。数据以JSON格式提供，支持多图像输入与Base64编码处理。用户可配置系统提示词与采样参数，调用vLLM引擎实现端到端的多轮对话与逐步推理，适用于模型微调、临床辅助诊断验证等多种科研与工程场景。

背景与挑战

背景概述

眼科人工智能领域长期面临多模态数据整合与深度推理能力不足的挑战。MM-Retinal-Reason数据集由研究团队于2025年创建，旨在构建首个涵盖完整感知与推理谱系的眼科多模态数据集。该数据集融合了彩色眼底照相（CFP）、荧光素血管造影（FFA）和光学相干断层扫描（OCT）等多种影像模态，并引入基于PubMed Central文献的复杂临床推理案例。其核心研究问题聚焦于突破传统眼科AI局限于单一图像分类的范式，通过模拟真实临床决策路径，推动视觉中心化基础推理与高阶临床思维模式的协同发展。

当前挑战

该数据集致力于解决眼科多模态动态推理的核心难题：如何实现从基础视觉感知到复杂临床决策的连贯推理链条。构建过程中面临三大挑战：多模态数据对齐与标准化需要统一不同设备来源的视网膜影像数据；临床推理轨迹的标注需医学专家将隐式诊断思维转化为显式推理步骤；样本复杂度平衡要求协调基础问答与文献级复杂案例的分布。此外，动态推理机制需克服模型在处理不确定性问题时探索深度与计算效率间的矛盾。

常用场景

经典使用场景

在眼科人工智能研究中，MM-Retinal-Reason数据集被广泛应用于多模态推理任务的基准测试。该数据集整合了彩色眼底照相、荧光血管造影和光学相干断层扫描等多种视网膜影像模态，支持从基础视觉识别到复杂临床推理的多层次任务。研究者利用其丰富的标注信息和推理轨迹，训练模型进行病变分类、病情分级和诊断决策，显著提升了模型在眼科领域的感知与推理能力。

衍生相关工作

基于MM-Retinal-Reason数据集，研究者开发了OphthaReason这一眼科专用多模态推理模型。该模型采用逐步推理轨迹和动态思维机制，衍生出多种改进版本和应用扩展。相关工作包括多模态预训练技术的优化、不确定性量化方法的创新，以及临床决策支持系统的开发，这些工作共同推动了智能眼科诊断向更高效、更可靠的方向发展。

数据集最近研究