five

AOR-Instruction|医学影像分析数据集|机器学习数据集

收藏
arXiv2025-05-06 更新2025-05-07 收录
医学影像分析
机器学习
下载链接:
https://aor-mllm.github.io/aor.html
下载链接
链接失效反馈
资源简介:
AOR-Instruction是一个大型指令数据集,用于训练医学大型多模态模型(MLMMs),旨在提高医学影像分析的准确性和可解释性。该数据集由两部分组成:AOR-VQA用于视觉问答(VQA),包含290k数据对;AOR-RG用于全图像和区域报告生成,包含532k数据对。数据集的构建基于解剖区域及其本体,并通过专家医师的指导,为模型提供丰富的区域级视觉信息,帮助模型更好地理解和推理医学影像内容。
提供机构:
复旦大学, 西安电子科技大学, 韩国科学技术院, 复旦大学附属儿童医院, 上海人工智能实验室, 香港理工大学
创建时间:
2025-05-06
原始信息汇总

AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

作者与机构

  • Qingqiu Li1, Zihang Cui2, Seongsu Bae3, Jilan Xu1, Runtian Yuan1, Yuejie Zhang1, Rui Feng3, Quanli Shen4, Xiaobo Zhang4, Junjun He5, Shujun Wang6
  • 1Fudan University
  • 2Xidian University
  • 3KAIST
  • 4Childrens Hospital of Fudan University
  • 5Shanghai AI Laboratory
  • 6Hong Kong Polytechnic University

摘要

  • 胸部X光(CXRs)是临床中最常见的影像检查。
  • 大型多模态模型(LMMs)的进展实现了自动化CXR解读,提高了诊断准确性和效率。
  • 当前医学LMMs(MLMMs)面临两大挑战:
    • 区域级理解和交互不足。
    • 单步推理导致准确性和可解释性有限。
  • 提出解剖学本体引导推理(AOR)框架:
    • 以跨模态区域级信息为中心,促进多步推理。
    • 开发AOR-Instruction,一个大型指令数据集用于MLMMs训练。
  • 实验证明AOR在VQA和报告生成任务中表现优异。

AOR框架

  • 灵活接受文本和可选视觉提示作为输入。
  • 以区域级信息为中心,实现多模态多步推理。
  • 三阶段训练过程。

AOR-Instruction数据集

  • AOR-VQA构建:
    • 解剖学本体设计 → CoT构建 → 样本扩展。
  • AOR-RG构建:
    • 解剖区域与报告句子的严格对齐。

结果

  • VQA任务:
    • 能够生成正确且逻辑推理的答案。
  • 报告生成任务:
    • 由于细粒度解剖区域的引入,对细节(如ET管、NG管、基底肺不张)有更强的把握。
    • 能为指定区域生成相应的报告句子。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,胸部X光片(CXRs)是最常见的临床检查手段之一。AOR-Instruction数据集的构建旨在解决当前医学大型多模态模型(MLMMs)在区域级理解和多步推理方面的不足。该数据集由两个子集组成:AOR-VQA和AOR-RG。AOR-VQA基于MIMIC-CXR-VQA数据集,通过专家医师设计的三种解剖学本体论,为每个样本构建了详细的思维链(CoT)答案,最终扩展为包含图像、问题、区域框和CoT答案的结构。AOR-RG则利用MIMIC-CXR中的图像-报告对,通过严格的区域-句子对齐方法,生成了细粒度的区域报告描述。整个构建过程在专家医师的指导下完成,确保了数据的临床可信度和专业性。
使用方法
AOR-Instruction数据集的使用方法主要分为三个任务:医学视觉问答(VQA)、全图像报告生成和区域报告生成。在VQA任务中,模型通过结合文本和可选视觉提示,围绕解剖学区域进行多步推理生成答案。全图像报告生成任务要求模型基于给定的胸部X光片生成全面的放射学报告。区域报告生成任务则允许用户通过文本或视觉提示指定感兴趣的区域,模型生成针对该区域的详细描述。数据集的使用需结合AOR框架的三阶段训练策略,逐步实现解剖学区域的识别、定位和推理能力,确保模型在实际应用中的准确性和可解释性。
背景与挑战
背景概述
AOR-Instruction数据集由复旦大学、香港理工大学等机构的研究团队于2025年提出,旨在解决医学大型多模态模型(MLMMs)在胸部X光片(CXR)解读中的关键挑战。该数据集基于解剖学本体引导推理(AOR)框架开发,包含29万视觉问答(VQA)样本和53.2万报告生成样本,通过多阶段训练策略强化模型对解剖结构的区域级感知与多步推理能力。其创新性体现在首次将解剖学层级关系、属性因果约束等本体知识融入医学指令数据构建,显著提升了模型在临床决策支持中的可解释性。
当前挑战
该数据集主要应对两大核心挑战:在领域问题层面,传统医学LMMs存在区域级交互不足(如难以检测微小病灶)和单步推理导致的误诊风险(如重叠症状区分困难);在构建过程中,需克服医学知识专业化带来的标注难题(如精确对齐290k问答对的解剖学思维链),以及多模态数据融合的复杂性(如协调图像区域坐标与文本描述的严格对应)。此外,确保临床可信度要求放射科专家全程参与数据验证,极大增加了构建成本与周期。
常用场景
经典使用场景
AOR-Instruction数据集在医学影像分析领域展现了其独特的价值,尤其在胸部X光片(CXR)的自动化解读中发挥了重要作用。通过结合解剖学本体引导的推理框架,该数据集支持多模态多步推理,使得医学大型多模态模型(MLMMs)能够更精准地识别和分析特定解剖区域的异常情况。例如,在回答“心脏轮廓是否异常?”这类问题时,模型能够逐步分析心脏轮廓的子区域(如右心房和腔房交界处),并结合全局与局部信息进行综合判断。这种基于区域级信息的交互式分析,显著提升了模型在复杂医学问题中的表现。
解决学术问题
AOR-Instruction数据集有效解决了医学大型多模态模型在区域级理解和多步推理方面的两大挑战。传统医学LMMs往往局限于图像级任务,难以捕捉细微的临床病变,且依赖单步推理导致解释性不足。该数据集通过构建基于解剖学本体的链式思维(CoT)模板,为模型提供了精确的推理路径,例如通过分层对象关系和属性因果关联,指导模型从整体到局部逐步分析。实验表明,采用AOR框架的模型在视觉问答(VQA)和报告生成任务中平均性能提升超过6%,显著增强了临床决策的可信度与效率。
实际应用
在实际临床场景中,AOR-Instruction数据集的应用显著优化了放射科工作流程。其支持的区域级报告生成功能允许医生针对特定解剖结构(如肺基底斑片影或纵隔导管位置)获取精细化描述,而无需手动标注。此外,模型对不精确区域提示的鲁棒性(如坐标偏移容忍度达20%)使其能够适应实际诊断中的人为误差。该技术已初步应用于儿童医院等机构的胸部X光筛查,通过生成结构化报告减轻医生负担,同时降低漏诊风险。
数据集最近研究
最新研究方向
在医学影像分析领域,AOR-Instruction数据集的推出标志着大型多模态模型(LMMs)在胸部X光(CXR)解释中的重大进展。该数据集通过解剖学本体引导的推理框架(AOR),解决了当前医学LMMs在区域级理解和多步推理方面的不足。AOR-Instruction包含两个子集:AOR-VQA和AOR-RG,分别用于视觉问答和报告生成任务,共包含超过80万条数据对。这一数据集不仅提升了模型在临床决策支持中的准确性和可解释性,还为医学影像分析中的交互式和多步推理提供了新的研究范式。其影响深远,特别是在提升放射科医生与非专业用户之间的沟通效率方面,展现了巨大的潜力。
相关研究论文
  • 1
    AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation复旦大学, 西安电子科技大学, 韩国科学技术院, 复旦大学附属儿童医院, 上海人工智能实验室, 香港理工大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Kwaai/food101

该数据集名为Food-101,主要用于图像分类任务。数据集包含101种食物类别,共计101,000张图像。每个类别包含250张经过人工审核的测试图像和750张训练图像。训练图像未经过清洗,可能包含一些噪声,如颜色过于鲜艳或标签错误。所有图像的最大边长被调整为512像素。数据集分为训练集和验证集,训练集包含75,750张图像,验证集包含25,250张图像。数据集的字段包括图像和标签,图像为PIL.Image.Image对象,标签为整数分类标签。

hugging_face 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Food101

构建Food Vision使用Food101数据集中的所有数据

github 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

OpenStreetMap (OSM)

OpenStreetMap (OSM) 是一个由志愿者创建和维护的全球性地图数据集。它包含了详细的地理信息,如道路、建筑物、水体、公园等。数据集以开放数据的形式提供,允许用户自由使用、修改和分享。

www.openstreetmap.org 收录