five

REAL-Colon

收藏
arXiv2024-03-05 更新2024-06-21 收录
下载链接:
https://doi.org/10.25452/figshare.plus.22202866.v2
下载链接
链接失效反馈
官方服务:
资源简介:
REAL-Colon数据集是由Cosmo Intelligent Medical Devices等机构联合创建,包含275万帧的高分辨率真实世界结肠镜检查视频,涵盖多个医疗中心。该数据集不仅包含35万个边界框标注,还附带了详细的临床数据和病理信息。创建过程中,专家胃肠病学家监督了标注过程,确保了数据的质量和准确性。REAL-Colon数据集的应用领域主要集中在提升人工智能在结肠镜检查中的辅助检测和诊断能力,旨在通过提供大规模、高质量和多样化的数据,推动相关算法和模型的研发与优化。

The REAL-Colon dataset was jointly created by Cosmo Intelligent Medical Devices and other institutions. It contains 2.75 million frames of high-resolution real-world colonoscopy videos sourced from multiple medical centers. This dataset not only includes 350,000 bounding box annotations, but also features detailed clinical and pathological information. Expert gastroenterologists supervised the annotation process throughout the dataset’s creation to ensure its quality and accuracy. The primary applications of the REAL-Colon dataset focus on improving the auxiliary detection and diagnostic capabilities of artificial intelligence in colonoscopy. It aims to advance the research, development and optimization of relevant algorithms and models by providing large-scale, high-quality and diverse medical data.
提供机构:
Cosmo Intelligent Medical Devices
创建时间:
2024-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
在结直肠癌筛查领域,高质量数据集的构建对于推动人工智能辅助诊断技术至关重要。REAL-Colon数据集通过整合来自日本、奥地利、意大利和美国多个医疗中心的六十例完整结肠镜检查视频,构建了一个涵盖真实临床场景的大规模资源。视频以1920×1080原生分辨率录制,采用专业设备确保色彩与画质无损,并通过严格的两阶段筛选流程,基于惩罚评分系统从368个初始视频中精选出最具代表性且质量最优的样本。所有视频帧均经由专业医学图像标注团队在胃肠病学专家监督下,逐帧标注息肉边界框,最终形成包含275万帧图像及35万标注框的标准化数据集。
特点
该数据集在结肠镜人工智能研究领域展现出显著的独特性和全面性。其核心特征在于完整收录了未经剪辑的真实全流程结肠镜视频,涵盖了约87.6%的无息肉阴性帧,这为模型在真实场景下的稳健性评估提供了关键基础。数据集不仅提供精细的息肉边界框标注,还整合了丰富的临床元数据,包括患者人口统计学信息、肠道清洁度评分、息肉尺寸、解剖位置及组织病理学结果,实现了多维度信息的关联。此外,数据来源于不同地域和医疗实践,确保了样本在操作手法、设备品牌及病变类型上的高度异质性,为开发泛化能力强的算法奠定了坚实基础。
使用方法
研究人员可通过Figshare平台获取该数据集,其遵循CC BY许可协议,支持广泛的学术与教育用途。数据集以视频帧序列及对应的MS COCO格式标注文件形式提供,并附有详细的视频与病灶元数据CSV文件。使用者可利用配套的Python代码库便捷地加载数据、复现分析或进行模型训练。该数据集特别适用于开发与评估面向实时视频流的息肉检测、跟踪及分类算法,支持从帧级分析到全流程视频理解的各类任务。通过纳入高比例阴性帧,研究者能够更准确地优化模型以减少误报,同时利用丰富的临床标签进行亚组分析,从而推动临床可解释且鲁棒的人工智能系统发展。
背景与挑战
背景概述
结直肠癌作为全球性健康威胁,其早期筛查依赖于结肠镜检查中对息肉的精准识别。然而,传统结肠镜检查的质量受限于操作者技能与警觉性的个体差异,导致息肉漏检率居高不下。为应对这一挑战,人工智能辅助检测与诊断系统应运而生,旨在通过计算机视觉技术提升内镜医师的诊疗效能。在此背景下,由Cosmo Intelligent Medical Devices联合多国医疗机构于2023年共同构建的REAL-Colon数据集应运而生。该数据集汇集了来自全球多个中心的60例完整结肠镜视频,包含270万帧高分辨率图像及35万个人工标注的边界框,并整合了详尽的临床与病理信息。其规模与质量在开放数据集中居于领先地位,为开发贴近真实场景的结肠镜AI算法提供了不可或缺的资源,有力推动了结直肠癌筛查技术的标准化与智能化进程。
当前挑战
REAL-Colon数据集致力于解决结肠镜AI辅助系统中息肉检测与诊断的核心挑战。现有公开数据集多由静态图像或降采样视频片段构成,缺乏完整手术流程的时空连续性,导致算法在真实场景中面临泛化能力不足、误报率高等问题。具体而言,模型需在视频流中实现息肉的实时定位、跟踪与分类,同时应对内镜运动模糊、肠道清洁度差异、息肉形态多变以及光照条件复杂等干扰因素。在数据构建层面,挑战主要体现在全流程视频的高质量标注上:需在长达数小时的视频中逐帧标注息肉边界框,并确保与病理结果的精确对应;同时,数据需涵盖多样化的临床场景(包括大量无息肉阴性帧),以反映真实检查中高达80-90%的无目标帧比例,这对标注一致性、计算资源与医学专业知识提出了极高要求。
常用场景
经典使用场景
在结直肠癌筛查领域,结肠镜检查的质量高度依赖于内镜医师的技能与专注度,存在息肉漏检的风险。REAL-Colon数据集以其包含六十例完整、高分辨率真实世界结肠镜视频的规模,为开发与评估计算机辅助检测(CADe)系统提供了经典场景。研究者可利用其长达270万帧的连续视频流与35万个人工标注边界框,训练模型在动态、复杂的临床环境中实时识别息肉,尤其侧重于模拟内镜医师在长达数十分钟的检查流程中对息肉的持续追踪与判断过程。
实际应用
该数据集直接服务于提升结直肠癌早期筛查的临床实践。基于REAL-Colon开发的AI算法,可集成至实时结肠镜系统,形成计算机辅助检测与诊断(CADe/CADx)工具。在实际操作中,此类系统能够辅助内镜医师减少息肉漏检,尤其对于微小、扁平或短暂消失的息肉;同时,结合数据集提供的息肉尺寸、解剖位置与病理信息,算法有望在术中实时提供息肉性质(如腺瘤与非腺瘤)的初步光学诊断,辅助临床决策,优化息肉管理策略,从而提升筛查效率与标准化水平。
衍生相关工作
REAL-Colon的发布为结肠镜AI研究社区设立了新的基准,已催生并将持续启发一系列经典研究方向。例如,基于其完整的视频序列与息肉轨迹标注,衍生出专注于息肉跨帧追踪与重识别(Re-identification)的算法研究,以解决息肉因镜头移动、暂时遮挡而消失再现的难题。同时,其丰富的阴性帧资源促进了针对降低系统误报率(False Positive Rate)的模型鲁棒性优化工作。此外,结合息肉病理与位置信息,催生了面向特定临床亚组(如乙状结肠-直肠区域的增生性息肉)的精准化、可解释AI模型开发,推动了领域向更细致、更可靠的临床应用深化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作