AOR-Instruction|医学影像分析数据集|机器学习数据集
收藏AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation
作者与机构
- Qingqiu Li1, Zihang Cui2, Seongsu Bae3, Jilan Xu1, Runtian Yuan1, Yuejie Zhang1, Rui Feng3, Quanli Shen4, Xiaobo Zhang4, Junjun He5, Shujun Wang6
- 1Fudan University
- 2Xidian University
- 3KAIST
- 4Childrens Hospital of Fudan University
- 5Shanghai AI Laboratory
- 6Hong Kong Polytechnic University
摘要
- 胸部X光(CXRs)是临床中最常见的影像检查。
- 大型多模态模型(LMMs)的进展实现了自动化CXR解读,提高了诊断准确性和效率。
- 当前医学LMMs(MLMMs)面临两大挑战:
- 区域级理解和交互不足。
- 单步推理导致准确性和可解释性有限。
- 提出解剖学本体引导推理(AOR)框架:
- 以跨模态区域级信息为中心,促进多步推理。
- 开发AOR-Instruction,一个大型指令数据集用于MLMMs训练。
- 实验证明AOR在VQA和报告生成任务中表现优异。
AOR框架
- 灵活接受文本和可选视觉提示作为输入。
- 以区域级信息为中心,实现多模态多步推理。
- 三阶段训练过程。
AOR-Instruction数据集
- AOR-VQA构建:
- 解剖学本体设计 → CoT构建 → 样本扩展。
- AOR-RG构建:
- 解剖区域与报告句子的严格对齐。
结果
- VQA任务:
- 能够生成正确且逻辑推理的答案。
- 报告生成任务:
- 由于细粒度解剖区域的引入,对细节(如ET管、NG管、基底肺不张)有更强的把握。
- 能为指定区域生成相应的报告句子。

- 1AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation复旦大学, 西安电子科技大学, 韩国科学技术院, 复旦大学附属儿童医院, 上海人工智能实验室, 香港理工大学 · 2025年
Kwaai/food101
该数据集名为Food-101,主要用于图像分类任务。数据集包含101种食物类别,共计101,000张图像。每个类别包含250张经过人工审核的测试图像和750张训练图像。训练图像未经过清洗,可能包含一些噪声,如颜色过于鲜艳或标签错误。所有图像的最大边长被调整为512像素。数据集分为训练集和验证集,训练集包含75,750张图像,验证集包含25,250张图像。数据集的字段包括图像和标签,图像为PIL.Image.Image对象,标签为整数分类标签。
hugging_face 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
Food101
构建Food Vision使用Food101数据集中的所有数据
github 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
OpenStreetMap (OSM)
OpenStreetMap (OSM) 是一个由志愿者创建和维护的全球性地图数据集。它包含了详细的地理信息,如道路、建筑物、水体、公园等。数据集以开放数据的形式提供,允许用户自由使用、修改和分享。
www.openstreetmap.org 收录