ERS

Name: ERS
Creator: 格但斯克科技大学计算机架构系
Published: 2022-01-21 23:39:45
License: 暂无描述

arXiv2022-01-21 更新2024-06-21 收录

下载链接：

https://cvlab.eti.pg.gda.pl/publications/endoscopy-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ERS数据集是由格但斯克科技大学和格但斯克医科大学合作创建的一个全面的内窥镜图像数据集，旨在支持机器学习在胃肠内镜数据分析中的应用。该数据集包含约6000个精确标注和115,000个近似标注的帧，涵盖了胃肠道的所有可能发现，并额外增加了19个标签以适应机器学习应用。数据来源于1520个视频，涉及1135名患者。ERS数据集不仅支持医学诊断，还为机器学习算法提供了丰富的训练和测试资源，特别是在内镜图像的多标签分类任务中显示出高度的实用性和灵活性。

The ERS dataset is a comprehensive endoscopic image dataset jointly developed by Gdańsk University of Technology and Gdańsk Medical University, aiming to support the application of machine learning in gastrointestinal endoscopic data analysis. This dataset contains approximately 6,000 accurately annotated frames and 115,000 approximately annotated frames, covering all possible findings of the gastrointestinal tract, and adds an additional 19 labels tailored for machine learning applications. The data is sourced from 1,520 videos involving 1,135 patients. The ERS dataset not only supports medical diagnosis but also provides abundant training and testing resources for machine learning algorithms, demonstrating high practicality and flexibility particularly in multi-label classification tasks for endoscopic images.

提供机构：

格但斯克科技大学计算机架构系

创建时间：

2022-01-21

搜集汇总

数据集介绍

构建方式

在消化内镜影像分析领域，构建高质量数据集是推动机器学习算法发展的关键。ERS数据集通过回顾性收集来自1135名患者的1520段内镜视频，涵盖了胃镜、结肠镜和胶囊内镜等多种模态。数据标注严格遵循医学标准术语MST 3.0，包含104个胃肠道发现类别，并额外扩展了19个适用于机器学习应用的标签。标注过程由医学专家执行，生成了约6000帧精确标注和11.5万帧近似标注的图像，同时提供了3600个精确分割掩膜和2.26万个近似掩膜，辅以123万未标注帧，确保了数据的多样性和丰富性。

特点

ERS数据集的显著特点在于其全面性和标准化。作为首个公开且全面遵循MST 3.0规范的内镜影像数据集，它覆盖了胃肠道领域的广泛病理发现与健康组织，标签体系包含五大类别共123个术语。数据集结构设计灵活，将数据按患者目录组织，支持精确与近似标注的分离存储，便于针对不同机器学习任务进行定制化划分。其多模态来源和大量视频序列帧为模型训练提供了真实世界的时序上下文，增强了算法在复杂临床场景中的泛化能力。

使用方法

ERS数据集适用于多种内镜影像分析任务，包括多标签分类、病变检测与语义分割。研究人员可根据具体问题自定义训练、验证和测试集，需注意避免同一患者数据跨集合混合以降低偏差。数据集提供PNG格式的RGB图像和单色掩膜文件，标注信息通过文件命名和CSV文件清晰关联。典型应用涵盖从筛查级十分类到精细二分类问题，支持使用深度神经网络如Inception v3、MobileNet进行端到端训练。数据增强技术可用于平衡类别，而近似标注帧可扩充训练样本，提升模型在视频流分析中的鲁棒性。

背景与挑战

背景概述

在医学影像分析领域，消化内镜图像的自动识别与分类对于提升胃肠道疾病诊断效率具有关键意义。ERS数据集由格但斯克理工大学的研究团队于2021年9月正式发布，旨在构建一个符合MST 3.0标准的多标签内镜图像资源库。该数据集整合了柔性内镜、结肠镜与胶囊内镜等多种模态的图像数据，覆盖了胃肠道领域的104种病理发现，并额外补充了19类适用于机器学习应用的标签。通过纳入来自1135名患者的1520段视频，ERS提供了约6000帧精确标注与115,000帧近似标注的图像，以及大量分割掩膜与未标注帧，为内镜影像的智能化分析奠定了数据基础。其全面性与规模性显著推动了胃肠道疾病计算机辅助诊断研究的发展，成为该领域重要的基准数据集之一。

当前挑战

ERS数据集致力于解决内镜图像多标签分类与病变检测的复杂问题，其核心挑战在于胃肠道疾病的形态多样性与视觉相似性，例如息肉、溃疡与癌症病灶在图像中可能呈现细微差异，导致模型区分困难。在构建过程中，研究团队面临标注一致性与质量控制难题：需依据MST 3.0标准对大量病理类别进行精确标注，而内镜视频帧间相似性高，使得精确标注耗时且易受主观判断影响；同时，数据来源涉及多中心患者，需协调隐私保护与数据可用性之间的平衡，并处理图像中因运动模糊、分泌物遮挡等质量因素导致的噪声干扰。

常用场景

经典使用场景

在消化内镜影像分析领域，ERS数据集为机器学习模型提供了多标签分类任务的标准化训练平台。该数据集严格遵循MST 3.0医学术语规范，涵盖胃肠道104种病理发现及19种辅助标签，其超过6000帧精确标注与11.5万帧近似标注的影像数据，成为开发自动化病灶检测系统的核心资源。研究人员常利用该数据集构建端到端的深度学习模型，通过卷积神经网络对息肉、溃疡、肿瘤等病理特征进行同步识别与定位，显著提升了内镜影像分析的效率与准确性。

解决学术问题

ERS数据集有效解决了消化内镜影像分析中标注数据稀缺与标准不统一的学术难题。传统研究常受限于单病灶标注数据集，难以支撑多病理协同检测模型的开发。该数据集通过全面覆盖MST 3.0标准术语体系，为跨病灶对比研究提供了统一基准，使学者能够系统评估模型在复杂病理共存场景下的泛化能力。其精确与近似标注相结合的创新设计，既保证了关键病理区域标注的医学严谨性，又通过半自动标注扩展了训练数据规模，为小样本病理类别的模型优化提供了可行路径。

衍生相关工作

基于ERS数据集的基准特性，衍生出多项内镜影像分析领域的经典研究。学者们利用其多标签架构开发了层次化分类网络，通过病理类别间的语义关联提升模型效率。在迁移学习方向，该数据集成为预训练模型的重要来源，其涵盖的广泛病理类别增强了模型在新型内镜设备上的适应能力。部分研究进一步扩展了数据集的标注体系，结合病灶分割掩膜开发出像素级病理定位算法。这些工作共同推动了消化内镜AI从单一病灶检测向全消化道智能诊断系统的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集