five

REAL-Colon|医学影像分析数据集|结肠病变检测数据集

收藏
github2024-03-20 更新2024-05-31 收录
医学影像分析
结肠病变检测
下载链接:
https://github.com/cosmoimd/real-colon-dataset
下载链接
链接失效反馈
资源简介:
REAL-Colon数据集由60个真实世界的结肠镜检查视频组成,来自4个不同的临床研究,每个研究贡献15个视频。每个视频/患者记录了多种临床变量,如内窥镜品牌、肠道清洁度评分、手术切除的结肠病变数量等。每个切除的病变都由训练有素的标注者在其出现的每个视频帧中进行了边界框标注,并由专家胃肠病学家监督。此外,还记录了息肉信息,包括组织学、大小和解剖位置。

The REAL-Colon dataset comprises 60 real-world colonoscopy videos sourced from four distinct clinical studies, with each study contributing 15 videos. For each video/patient, a variety of clinical variables are recorded, such as the endoscope brand, bowel cleanliness score, and the number of colonic lesions surgically removed. Each excised lesion is annotated with bounding boxes in every video frame where it appears by trained annotators, under the supervision of expert gastroenterologists. Additionally, polyp information, including histology, size, and anatomical location, is documented.
创建时间:
2023-02-25
原始信息汇总

REAL-colon 数据集概述

数据集描述

  • 名称: REAL-colon 数据集
  • 类型: 包含60个真实世界结肠镜检查视频的集合
  • 来源: 来自4个不同临床研究(编号001至004),每个研究贡献15个视频
  • 内容: 每个视频包含患者的多项临床变量,如内镜品牌、肠道清洁度评分(BBPS)、手术切除的结肠病变数量等
  • 标注: 每个切除的病变由受过训练的标注者在专家胃肠病学家的监督下,在视频帧中标注了边界框
  • 附加信息: 记录了息肉信息,包括组织学、大小和解剖位置

数据格式

  • 视频文件: 60个压缩文件夹,命名为{SSS}-{VVV}_frames,包含每个视频的帧
  • 标注文件: 60个压缩文件夹,命名为{SSS}-{VVV}_annotation,包含每个视频的标注
  • 元数据文件:
    • video_info.csv: 包含视频的元数据,如视频名称、患者年龄、性别、内镜品牌、帧率、帧数、病变数量、肠道准备评分
    • lesion_info.csv: 包含病变的元数据,如病变ID、所属视频名称、大小、位置、组织学类型

关键统计数据

  • 视频数量: 60个
  • 总帧数: 2757723帧
  • 切除的结直肠息肉数量: 132个
  • 边界框标注数量: 351264个

数据下载

  • 下载方式: 通过运行figshare_dataset.py脚本自动从Figshare下载数据集
  • 存储位置: 默认下载到./dataset文件夹,可通过设置DOWNLOAD_DIR变量更改

数据集版本

  • 版本1.0: 2023/02/28
  • 版本2.0: 2023/03/01
AI搜集汇总
数据集介绍
main_image_url
构建方式
REAL-Colon数据集的构建基于全球六个医疗中心的60例真实世界结肠镜检查视频,这些视频源自四项独立的临床研究,每项研究贡献了15个视频。数据集不仅包含了视频帧,还详细记录了每位患者的临床变量,如内窥镜品牌、肠道清洁评分、切除的结肠病变数量以及患者的年龄和性别。在胃肠病学专家的监督下,训练有素的标注员对每个息肉进行了逐帧的边界框标注,并记录了息肉的组织学、大小和解剖位置等信息。
特点
REAL-Colon数据集以其多样性和详尽的标注信息著称。数据集涵盖了来自不同医疗中心的视频,确保了数据的广泛代表性。每个视频的帧数高达2,757,723帧,共标注了351,264个边界框,涵盖了132个切除的结直肠息肉。此外,数据集还提供了丰富的元数据,包括患者的基本信息、病变的详细描述以及视频的技术参数,为研究者提供了全面的分析基础。
使用方法
REAL-Colon数据集的使用方法灵活多样。研究者可以通过运行`figshare_dataset.py`脚本从Figshare平台下载整个数据集,数据量约为1TB。数据集提供了Jupyter Notebook `explore_data.ipynb`,用于可视化随机样本图像及其临床信息。此外,Python脚本`dataset_stats.py`和`bounding_boxes_plots.py`可用于复现数据集统计信息和绘制边界框图。对于息肉检测任务,数据集支持转换为COCO格式,便于模型训练和验证。
背景与挑战
背景概述
REAL-Colon数据集由全球六个医疗中心共同构建,收录了60段真实世界的结肠镜检查视频,源自四项独立的临床研究。该数据集由Carlo Biffi、Andrea Cherubini等研究人员于2024年发布,旨在为结肠镜检查中的息肉检测提供高质量的真实世界数据支持。数据集不仅包含了丰富的视频帧和息肉边界框标注,还整合了患者的临床信息,如年龄、性别、肠道清洁度评分等,为开发基于人工智能的结肠镜应用提供了全面的数据基础。该数据集的发布显著推动了结肠镜AI技术的研究与应用,尤其在息肉检测和分类领域具有重要的影响力。
当前挑战
REAL-Colon数据集在构建和应用过程中面临多重挑战。首先,数据采集涉及多个医疗中心,不同设备和操作标准导致数据异质性较高,增加了数据标准化和模型泛化的难度。其次,息肉检测任务本身具有复杂性,息肉在形态、大小和位置上存在显著差异,且部分息肉在视频帧中呈现模糊或部分遮挡,增加了标注和检测的难度。此外,数据集的规模庞大,总帧数超过275万,标注工作量巨大,确保标注的一致性和准确性成为关键挑战。最后,数据集的下载和处理对硬件和网络条件提出了较高要求,1TB的数据量使得数据管理和存储成为实际应用中的瓶颈。
常用场景
经典使用场景
REAL-Colon数据集在医学影像分析领域具有重要应用,尤其是在结肠镜检查视频的自动分析中。该数据集通过提供来自全球多个中心的真实世界结肠镜检查视频,为研究人员提供了一个丰富的资源,用于开发和验证基于人工智能的息肉检测算法。这些视频不仅包含了大量的帧数据,还附带了详细的息肉标注信息,使得该数据集成为训练和测试深度学习模型的理想选择。
实际应用
在实际应用中,REAL-Colon数据集被广泛用于开发自动化的结肠镜检查辅助系统。这些系统能够实时检测和分类息肉,帮助医生提高诊断的准确性和效率。通过利用该数据集训练的模型,医疗机构可以减少漏诊和误诊的风险,从而改善患者的治疗效果。此外,该数据集还可以用于培训医学生和年轻医生,提升他们在结肠镜检查中的技能和经验。
衍生相关工作
REAL-Colon数据集已经衍生出多项经典研究工作。例如,基于该数据集的深度学习模型在息肉检测任务中取得了显著进展,相关研究成果发表在多个顶级医学影像和人工智能会议上。此外,该数据集还被用于开发新的数据增强技术和模型优化方法,进一步提升了息肉检测的性能。这些工作不仅推动了结肠镜检查技术的发展,也为其他医学影像分析任务提供了宝贵的经验和参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集