Sewer-ML

arXiv2021-03-20 更新2024-07-30 收录

下载链接：

https://vap.aau.dk/sewer-ml/

下载链接

链接失效反馈

官方服务：

资源简介：

Sewer-ML数据集包含由专业下水道检查员从三家不同公用事业公司在九年内标注的130万张图像，用于基于图像的下水道缺陷分类。

The Sewer-ML dataset contains 1.3 million manually annotated images collected over nine years from three distinct utility companies by professional sewer inspectors, and is designed for image-based sewer defect classification.

创建时间：

2021-03-20

搜集汇总

数据集介绍

构建方式

在市政基础设施智能检测领域，Sewer-ML 数据集的构建体现了严谨的工程化流程。该数据集源自三家丹麦水务公司历时九年的 75,618 段已标注下水道检测视频。通过专业检查人员依据丹麦标准标注的 18 类缺陷及状态信息，研究者采用基于空间距离的启发式规则，从视频中提取并聚合相邻标注，形成多标签样本。对于无缺陷的正常管道图像，则通过设定速度与距离缓冲区等条件进行采样。最终构建的数据集包含 130 万张图像，并按视频级别划分为训练、验证与测试集，确保管道数据在不同集合间的独立性。

特点

Sewer-ML 的显著特征在于其规模与真实性。作为首个公开的大规模多标签下水道缺陷数据集，它涵盖了 17 类缺陷及正常状态，图像总量达 130 万，其中缺陷图像超过 60 万。数据集高度不平衡，真实反映了实际检查中各类缺陷的出现频率，并引入了基于经济影响的类别重要性权重。所有图像均经过自动化文本擦除处理以保护隐私并避免标注信息泄漏。其多标签特性（平均每张图像约 1.5 个标签）与复杂的类间共现关系，为模型学习真实的缺陷组合模式提供了挑战。

使用方法

该数据集适用于下水道缺陷多标签图像分类任务的模型训练与评估。研究者可采用标准的训练-验证-测试划分，使用加权二元交叉熵损失以应对类别不平衡问题。评估时，除常规多标签指标外，强烈建议采用论文提出的 F2CIW 指标，该指标融合了各类别的经济影响权重，更贴合实际应用需求。同时，F1Normal 分数用于衡量模型识别正常管道的能力。数据集支持端到端训练，也为两阶段方法（如先进行缺陷存在性二分类，再进行多标签分类）提供了天然的数据基础，便于开发贴合实际检查流程的算法。

背景与挑战

背景概述

在市政基础设施维护领域，地下排水管网的健康状况评估长期依赖人工巡检，这一过程不仅耗时费力，且易受检测人员主观经验影响，难以满足现代城市庞大的管网检测需求。为应对这一挑战，奥尔堡大学视觉分析与感知实验室的研究团队于2021年公开推出了Sewer-ML数据集，旨在通过计算机视觉技术实现排水管缺陷的自动化分类。该数据集汇集了来自三家丹麦水务公司长达九年的检测视频，包含130万张由专业检测人员标注的多标签图像，覆盖了裂纹、变形、树根侵入等17类常见管道缺陷及状态信息。Sewer-ML的发布填补了该领域缺乏公开基准数据的空白，为基于深度学习的自动化管道检测研究提供了至关重要的数据基础，显著推动了智慧水务与基础设施运维的智能化进程。

当前挑战

Sewer-ML数据集致力于解决排水管缺陷自动化分类这一核心问题，其面临的首要挑战在于缺陷类别的复杂性与视觉相似性。例如，裂纹与细密树根在图像中特征相近，而障碍物类别则囊括了从易拉罐到残留工具等多种异物，导致模型难以学习具有判别性的特征。此外，数据固有的类别不平衡问题突出，高频缺陷与罕见缺陷的样本量差异悬殊，且各类缺陷的经济影响权重不同，要求评估指标必须融合领域先验知识。在数据集构建过程中，研究团队需应对多标签标注的复杂性，通过空间邻近规则聚合视频中的时序标注以生成图像级多标签，并设计启发式规则从连续视频流中提取“正常管道”样本。同时，为保护商业机密与隐私，所有图像中的叠加文本信息均需通过训练专用检测模型进行自动化模糊处理，这本身构成了一个复杂的辅助计算机视觉任务。

常用场景

经典使用场景

在市政基础设施智能监测领域，Sewer-ML数据集为下水道缺陷自动识别提供了关键的研究平台。该数据集包含130万张由专业检查员标注的多标签图像，覆盖了裂缝、变形、树根侵入等17类常见缺陷，以及正常管道状态。其经典应用场景在于训练和评估基于计算机视觉的自动化下水道巡检算法，特别是多标签分类模型，以替代传统依赖人工判读视频的低效流程。通过提供大规模、真实场景下的标注数据，Sewer-ML使得研究人员能够系统性地开发并比较不同深度学习架构在复杂地下管道环境中的性能。

解决学术问题

Sewer-ML的发布有效解决了下水道缺陷自动识别领域长期存在的若干学术难题。首先，它填补了公共基准数据集的空白，此前该领域研究多依赖私有、非标准化的数据，导致方法间难以公平比较与复现。其次，数据集引入基于经济影响的类别重要性加权F2分数（F2CIW）与正常管道F1分数（F1Normal）作为评估指标，将实际维修成本纳入模型性能考量，推动了领域特定评价体系的发展。此外，其多标签标注机制反映了真实巡检中多种缺陷共存的复杂性，为研究标签相关性建模提供了现实基础。这些贡献显著提升了该领域研究的可重复性与科学性。

衍生相关工作

围绕Sewer-ML数据集，已衍生出一系列重要的后续研究工作。数据集的创建者在基准测试中系统评估了12种前沿算法，包括来自下水道检测领域的Xie等人、Chen等人的方法，以及通用多标签分类领域的ResNet-101、KSSNet、TResNet等模型。这些比较研究揭示了结合两阶段架构与先进多标签分类器的优势，并催生了性能更优的基准算法。此外，该数据集也激发了针对类别不平衡、小样本缺陷检测、以及结合管道材质、水位等多模态信息进行联合建模的新探索，持续推动着智慧水务与基础设施健康监测方向的算法创新与工程实践。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集