OminiAbnorm-CT-14K

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/zzh99/OminiAbnorm-CT-14K

下载链接

链接失效反馈

官方服务：

资源简介：

OminiAbnorm-CT是一个专为多平面全身CT成像的异常定位和描述设计的大型数据集，包含14.5K张经过放射科医师严格审查的CT图像，涵盖轴向、冠状和矢状平面。数据集中包含约19K个由经验丰富的放射科医师手动标注的异常发现，这些标注与报告描述相链接，并按照层次化的分类法分类。

创建时间：

2025-05-29

原始信息汇总

OminiAbnorm-CT-14K 数据集概述

基本信息

许可证: CC-BY-4.0
数据集地址: https://huggingface.co/datasets/zzh99/OminiAbnorm-CT-14K
论文链接: https://www.arxiv.org/abs/2506.03238

数据集内容

规模: 14.5K CT图像
来源: Radiopedia
图像类型: 多平面全身CT图像（轴向、冠状、矢状面）
标注类型: 19K异常发现标注（边界框或分割掩码）
标注链接: 与报告描述对应，并按分层分类法分类

数据配置

轴向平面:
- 训练集: axial/axial_train.csv
- 验证集: axial/axial_valid.csv
冠状平面:
- 训练集: coronal/coronal_train.csv
- 验证集: coronal/coronal_valid.csv
矢状平面:
- 训练集: sagittal/sagittal_train.csv
- 验证集: sagittal/sagittal_valid.csv

标注信息

标注格式: 使用abnormality_group关联空间上不连续的标注
标注ID结构: CaseID_EvenID_ImageID_SliceID（例如："197_1_0_86"）
分类法: 覆盖404种代表性异常发现，涉及40个主要解剖区域和82个子区域

数据使用

获取方式: 需申请权限并支付250美元费用至Radiopaedia
申请链接: https://app.signnow.com/webapp/document/c587eed7ed3146c4903189c3aa2f2c7c9d4970c8?dispatched=true&mobileweb=app_or_mobileweb_choice&redirect_uri=https%253A%252F%252Fapp.signnow.com%252Fhtml%252Fthanks-for-signing%253Fdocument_id%253Dc587eed7ed3146c4903189c3aa2f2c7c9d4970c8%2526access_token%253D5b3f9c726cae58c205eee38f7a6a7b31b0edbc49cc13997c50c5c1ca854294f7&sign=1&source=link
联系方式: Zhao_Ziheng@sjtu.edu.cn

注意事项

数据仅限机器学习使用
需遵守Radiopaedia的许可条款: https://radiopaedia.org/licence

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，OminiAbnorm-CT-14K数据集的构建体现了多学科协作的严谨性。该数据集从Radiopedia平台精选14.5K张涵盖轴位、冠状位和矢状位的全身CT影像，由4位资深放射科医师进行双重校验，并标注约19K处异常发现。采用分层标注体系，通过7位来自不同医疗中心的专家共同制定包含404种异常表现的分类框架，确保每个区域标注都与放射报告描述严格对应，并建立异常群组关联机制处理空间分散的病灶标注。

特点

作为首个多平面全身CT异常定位与描述的大规模数据集，其核心价值在于三维视角的全面覆盖与精细标注。数据集不仅提供边界框和分割掩码两种标注形式，更创新性地构建了包含40个主要解剖区域和82个子区域的分层分类体系。每个异常标注均关联原始放射报告文本，并通过案例ID、事件ID、扫描ID和切片ID的四级编码实现精准溯源，为多模态医学影像研究提供结构化数据支持。

使用方法

研究者需通过官方申请流程获取影像数据使用权后，可结合本仓库提供的标注文件开展研究。标注数据采用CSV格式存储，通过异常群组字段关联同一病例的分散病灶。具体应用时，可根据标注ID中的CaseID在Radiopedia定位原始病例，利用分层分类信息进行特定解剖区域的异常检测模型训练，或结合报告文本开展跨模态学习。需特别注意，所有机器学习应用需遵守Radiopaedia平台的授权协议。

背景与挑战

背景概述

OminiAbnorm-CT-14K数据集作为首个专注于多平面全身CT影像异常定位与描述的大规模数据集，由上海交通大学研究团队于2023年构建。该数据集源自Radiopedia平台的14.5万张涵盖轴位、冠状位和矢状位的CT影像，覆盖40个主要解剖区域和82个子区域，涉及404种典型异常表现。研究团队联合3家医疗中心的7名资深放射科医师，构建了层次化分类体系，并通过4名经验丰富的放射科医师标注了1.9万个异常区域的边界框或分割掩膜。该数据集突破了传统医学影像数据集单一平面、有限解剖范围的局限，为跨模态医学影像分析、自动报告生成等前沿研究提供了重要基准。

当前挑战

在医学影像分析领域，精准定位跨解剖区域的多样性异常始终面临巨大挑战。OminiAbnorm-CT-14K需解决多平面影像中异常区域的空间关联问题，例如同一病例在肺部不同位置出现的感染灶需通过异常组标识建立关联。数据集构建过程中，跨中心医师对复杂病例的标注一致性、404种异常类型的标准化定义、以及原始数据获取需通过Radiopedia平台付费授权等流程，均为实际工作带来显著难度。此外，如何确保边界框与分割掩膜标注在不同解剖平面间的空间对应关系，亦是该数据集特有的技术挑战。

常用场景

经典使用场景

在医学影像分析领域，OminiAbnorm-CT-14K数据集为研究者提供了多平面全身CT图像的异常定位与描述基础。该数据集通过轴向、冠状和矢状三个平面的14.5K图像，结合放射科医师标注的19K异常区域边界框或分割掩膜，成为开发智能辅助诊断系统的关键资源。其层次化标注体系覆盖404种典型异常表现，支持从病灶检测到语义描述的端到端研究。

衍生相关工作

该数据集催生了系列突破性研究，包括基于多视角融合的3D病灶分割框架、放射学报告生成中的注意力机制优化等。其标注体系被扩展应用于MRI多模态研究，启发的层次化分类方法在MICCAI等会议产生多篇最佳论文。相关技术已迁移至乳腺钼靶、超声等模态的智能分析系统开发。

数据集最近研究