MM-Retinal-Reason

Hugging Face2025-09-16 更新2025-09-17 收录

下载链接：

https://huggingface.co/datasets/lxirich/MM-Retinal-Reason

下载链接

链接失效反馈

官方服务：

资源简介：

MM-Retinal-Reason是一个眼科领域的多模态推理数据集，包含基本和复杂两种推理任务，旨在增强视觉中心的推理能力并模拟现实临床思维模式。

MM-Retinal-Reason is a multimodal reasoning dataset in the field of ophthalmology, which includes two types of reasoning tasks: basic and complex. It aims to enhance visual-centric reasoning capabilities and simulate real-world clinical thinking patterns.

创建时间：

2025-09-05

原始信息汇总

MM-Retinal-Reason 数据集概述

数据集基本信息

任务类别：视觉问答
语言：英文
标签：医学、眼科学
配置：
- 默认配置包含两个数据分割：
  - complex：complex_reasoning.json
  - basic：basic_reasoning.json

数据集介绍

MM-Retinal-Reason 是首个眼科多模态推理数据集，专为专家级诊断任务设计，涵盖基础推理和复杂推理任务，以反映真实临床场景。

关键特点

数据来源：基于45个公共数据集和PubMed Central (PMC)的真实数据构建
问题类型：包含四种问题形式（真假题、单选题、多选题、开放性问题）
疾病覆盖：涵盖100多种常见和罕见眼科异常

数据格式

数据采用JSON格式，包含以下字段：

image：图像base64编码字符串
conversations：对话记录（用户输入和助手输出）
reason：推理轨迹
pmcid：PMC标识（仅复杂推理）
title：PMC文章标题（仅复杂推理）
caption：图像描述（仅复杂推理）

数据来源

CFP（彩色眼底照相）：
- 域内：PAPILA, PARAGUAY, ARIA, APTOS, HRF, DeepDRID, G1020, AMD, PALM, ORIGA, Drishti-GS1, CHAKSU, Cataract, FUND-OCT
- 域外：MESSIDOR, IDRID, RFMid, STARE, ROC, Retina, SUSTech-SYSU, JICHI, EYEPACS, LAG, FIVES, E-ophta, REFUGE, DR1-2, ScarDat, ACRIMA, OIA-DDR
FFA（荧光素眼底血管造影）：
- 域内：Angiographic
- 域外：MPOS
OCT（光学相干断层扫描）：
- 域内：GOALS, GAMMA1, STAGE1, STAGE2, OIMHS, OCTA_500, Large_Dataset_of_Labeled_OCT, DUKE_DME, glaucoma_detection, RetinalOCT_C8
- 域外：OCTDL, OCTID
Complex：PubMed Central（截至2025年6月20日）

使用说明

基础推理数据需从原始来源下载图像（因许可限制未重新分发）
完整训练和评估指南请参考OphthaReason仓库：https://github.com/lxirich/OphthaReason
预训练模型可从以下链接获取：https://huggingface.co/lxirich/OphthaReason

注意事项

当前发布的是数据集的初始子集，完整数据集将在未来更新中公开发布。

搜集汇总

数据集介绍

构建方式

在眼科人工智能领域，MM-Retinal-Reason数据集的构建融合了多源异构数据，涵盖45个公共数据集及PubMed Central的医学文献。基础推理部分源自公开眼科数据集图像与标注的整合，复杂推理部分则基于PMC文献中的临床案例构建。数据以JSON格式组织，包含图像Base64编码、多轮对话记录及推理轨迹，严格遵循医学数据伦理与版权规范。

特点

作为首个眼科多模态推理数据集，MM-Retinal-Reason覆盖超过100种常见与罕见眼底病变，包含真假判断、单选多选及开放问答四类问题。其独特价值在于模拟真实临床推理流程，同时支持基础感知与高阶认知任务，并通过PMC文献关联实现学术研究与临床实践的双重验证。

使用方法

研究者可通过HuggingFace平台获取数据集JSON文件，配合原始图像数据加载使用。建议结合OphthaReason模型框架进行训练，利用其不确定性感知动态推理机制适配不同复杂度任务。评估时需区分基础与复杂推理分支，关注模型在跨域泛化与阶梯式推理轨迹生成方面的表现。

背景与挑战

背景概述

眼科人工智能领域长期面临多模态推理能力不足的挑战，MM-Retinal-Reason数据集应运而生。该数据集由研究团队于2025年创建，整合了45个公共数据集和PubMed Central的医学文献资源，涵盖超过100种常见与罕见眼底疾病。作为首个专攻眼科多模态推理的数据集，其核心在于模拟真实临床诊断中的认知流程，通过基础推理与复杂推理双轨制设计，推动眼科AI从单纯感知向深度推理的范式转变。

当前挑战

该数据集致力于解决眼科多模态诊断中的动态推理难题，其核心挑战在于如何构建兼具医学准确性与逻辑复杂性的问答对。数据构建过程中需克服多源异构数据融合、医学知识表示对齐、以及隐私保护等障碍，特别是从医学文献提取临床推理链时需保持逻辑严谨性。模型层面则需应对不确定性感知与动态推理深度的自适应调节问题，以平衡基础分类任务与复杂诊断推理之间的需求差异。

常用场景

经典使用场景

在眼科人工智能研究中，MM-Retinal-Reason数据集被广泛用于训练和评估多模态推理模型，特别是在结合眼底图像与临床文本进行联合分析的场景中。该数据集通过包含真假判断、单项选择、多项选择及开放式问答四种题型，模拟真实临床诊断中的推理流程，支持模型从基础视觉感知到复杂逻辑推断的全方位能力培养。

解决学术问题

该数据集有效解决了眼科AI领域多模态融合与高阶推理能力缺失的学术难题，填补了从单纯图像分类到动态临床推理的研究空白。其意义在于首次将大规模真实临床数据与文献知识结合，为构建可解释、可追溯的诊断模型提供基准，推动眼科诊断从静态感知向动态认知的范式转变。

衍生相关工作

基于该数据集衍生的经典工作包括首个体眼特异性多模态推理模型OphthaReason，其提出的不确定性感知动态推理机制（UADT）已成为动态计算建模的重要参考。后续研究多围绕其构建的可解释推理轨迹开展，如迭代式诊断决策框架和多模态知识蒸馏方法，持续推动眼科AI向精细化、人性化方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集