AOR-Instruction

Name: AOR-Instruction
Creator: 复旦大学, 西安电子科技大学, 韩国科学技术院, 复旦大学附属儿童医院, 上海人工智能实验室, 香港理工大学
Published: 2025-05-06 01:57:07
License: 暂无描述

arXiv2025-05-06 更新2025-05-07 收录

下载链接：

https://aor-mllm.github.io/aor.html

下载链接

链接失效反馈

官方服务：

资源简介：

AOR-Instruction是一个大型指令数据集，用于训练医学大型多模态模型（MLMMs），旨在提高医学影像分析的准确性和可解释性。该数据集由两部分组成：AOR-VQA用于视觉问答（VQA），包含290k数据对；AOR-RG用于全图像和区域报告生成，包含532k数据对。数据集的构建基于解剖区域及其本体，并通过专家医师的指导，为模型提供丰富的区域级视觉信息，帮助模型更好地理解和推理医学影像内容。

AOR-Instruction is a large-scale instruction dataset developed for training medical large multimodal models (MLMMs), with the objective of enhancing the accuracy and interpretability of medical image analysis. This dataset consists of two components: AOR-VQA for visual question answering (VQA), which contains 290k data pairs; and AOR-RG for full-image and regional report generation, which includes 532k data pairs. Built upon anatomical regions and their ontologies and guided by expert physicians, the dataset provides rich regional-level visual information to help the model better understand and reason about medical image content.

提供机构：

复旦大学, 西安电子科技大学, 韩国科学技术院, 复旦大学附属儿童医院, 上海人工智能实验室, 香港理工大学

创建时间：

2025-05-06

原始信息汇总

AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

作者与机构

Qingqiu Li1, Zihang Cui2, Seongsu Bae3, Jilan Xu1, Runtian Yuan1, Yuejie Zhang1, Rui Feng3, Quanli Shen4, Xiaobo Zhang4, Junjun He5, Shujun Wang6
1Fudan University
2Xidian University
3KAIST
4Childrens Hospital of Fudan University
5Shanghai AI Laboratory
6Hong Kong Polytechnic University

摘要

胸部X光（CXRs）是临床中最常见的影像检查。
大型多模态模型（LMMs）的进展实现了自动化CXR解读，提高了诊断准确性和效率。
当前医学LMMs（MLMMs）面临两大挑战：
- 区域级理解和交互不足。
- 单步推理导致准确性和可解释性有限。
提出解剖学本体引导推理（AOR）框架：
- 以跨模态区域级信息为中心，促进多步推理。
- 开发AOR-Instruction，一个大型指令数据集用于MLMMs训练。
实验证明AOR在VQA和报告生成任务中表现优异。

AOR框架

灵活接受文本和可选视觉提示作为输入。
以区域级信息为中心，实现多模态多步推理。
三阶段训练过程。

AOR-Instruction数据集

AOR-VQA构建：
- 解剖学本体设计 → CoT构建 → 样本扩展。
AOR-RG构建：
- 解剖区域与报告句子的严格对齐。

结果

VQA任务：
- 能够生成正确且逻辑推理的答案。
报告生成任务：
- 由于细粒度解剖区域的引入，对细节（如ET管、NG管、基底肺不张）有更强的把握。
- 能为指定区域生成相应的报告句子。

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，胸部X光片（CXRs）是最常见的临床检查手段之一。AOR-Instruction数据集的构建旨在解决当前医学大型多模态模型（MLMMs）在区域级理解和多步推理方面的不足。该数据集由两个子集组成：AOR-VQA和AOR-RG。AOR-VQA基于MIMIC-CXR-VQA数据集，通过专家医师设计的三种解剖学本体论，为每个样本构建了详细的思维链（CoT）答案，最终扩展为包含图像、问题、区域框和CoT答案的结构。AOR-RG则利用MIMIC-CXR中的图像-报告对，通过严格的区域-句子对齐方法，生成了细粒度的区域报告描述。整个构建过程在专家医师的指导下完成，确保了数据的临床可信度和专业性。

使用方法

AOR-Instruction数据集的使用方法主要分为三个任务：医学视觉问答（VQA）、全图像报告生成和区域报告生成。在VQA任务中，模型通过结合文本和可选视觉提示，围绕解剖学区域进行多步推理生成答案。全图像报告生成任务要求模型基于给定的胸部X光片生成全面的放射学报告。区域报告生成任务则允许用户通过文本或视觉提示指定感兴趣的区域，模型生成针对该区域的详细描述。数据集的使用需结合AOR框架的三阶段训练策略，逐步实现解剖学区域的识别、定位和推理能力，确保模型在实际应用中的准确性和可解释性。

背景与挑战

背景概述

AOR-Instruction数据集由复旦大学、香港理工大学等机构的研究团队于2025年提出，旨在解决医学大型多模态模型（MLMMs）在胸部X光片（CXR）解读中的关键挑战。该数据集基于解剖学本体引导推理（AOR）框架开发，包含29万视觉问答（VQA）样本和53.2万报告生成样本，通过多阶段训练策略强化模型对解剖结构的区域级感知与多步推理能力。其创新性体现在首次将解剖学层级关系、属性因果约束等本体知识融入医学指令数据构建，显著提升了模型在临床决策支持中的可解释性。

当前挑战

该数据集主要应对两大核心挑战：在领域问题层面，传统医学LMMs存在区域级交互不足（如难以检测微小病灶）和单步推理导致的误诊风险（如重叠症状区分困难）；在构建过程中，需克服医学知识专业化带来的标注难题（如精确对齐290k问答对的解剖学思维链），以及多模态数据融合的复杂性（如协调图像区域坐标与文本描述的严格对应）。此外，确保临床可信度要求放射科专家全程参与数据验证，极大增加了构建成本与周期。

常用场景

经典使用场景

AOR-Instruction数据集在医学影像分析领域展现了其独特的价值，尤其在胸部X光片（CXR）的自动化解读中发挥了重要作用。通过结合解剖学本体引导的推理框架，该数据集支持多模态多步推理，使得医学大型多模态模型（MLMMs）能够更精准地识别和分析特定解剖区域的异常情况。例如，在回答“心脏轮廓是否异常？”这类问题时，模型能够逐步分析心脏轮廓的子区域（如右心房和腔房交界处），并结合全局与局部信息进行综合判断。这种基于区域级信息的交互式分析，显著提升了模型在复杂医学问题中的表现。

解决学术问题

AOR-Instruction数据集有效解决了医学大型多模态模型在区域级理解和多步推理方面的两大挑战。传统医学LMMs往往局限于图像级任务，难以捕捉细微的临床病变，且依赖单步推理导致解释性不足。该数据集通过构建基于解剖学本体的链式思维（CoT）模板，为模型提供了精确的推理路径，例如通过分层对象关系和属性因果关联，指导模型从整体到局部逐步分析。实验表明，采用AOR框架的模型在视觉问答（VQA）和报告生成任务中平均性能提升超过6%，显著增强了临床决策的可信度与效率。

实际应用

在实际临床场景中，AOR-Instruction数据集的应用显著优化了放射科工作流程。其支持的区域级报告生成功能允许医生针对特定解剖结构（如肺基底斑片影或纵隔导管位置）获取精细化描述，而无需手动标注。此外，模型对不精确区域提示的鲁棒性（如坐标偏移容忍度达20%）使其能够适应实际诊断中的人为误差。该技术已初步应用于儿童医院等机构的胸部X光筛查，通过生成结构化报告减轻医生负担，同时降低漏诊风险。

数据集最近研究