Sewer-ML

arXiv2025-09-30 收录

下载链接：

http://vap.aau.dk/sewer-ml

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模的基准数据集，专注于多标签污水缺陷分类任务，其中包含了各种污水缺陷的图像。注释涵盖了17个缺陷类别。需要注意的是，测试集的注释并不公开，实验主要集中在训练集和验证集上。该数据集在九年时间内收集了130万张图像，并分为三个子集：训练集（包含1,040,129个样本）、验证集（包含130,046个样本）以及测试集（包含130,026个样本），其中测试集的注释并未公开。该数据集的任务是进行多标签污水缺陷分类。

This large-scale benchmark dataset is focused on the multi-label sewage defect classification task, and contains images of various sewage defects. Its annotations cover 17 defect categories. Notably, the annotations of the test set are not publicly accessible, and most experiments are conducted on the training and validation subsets. The dataset was compiled over a nine-year period, totaling 1.3 million images, and is divided into three subsets: the training set with 1,040,129 samples, the validation set with 130,046 samples, and the test set with 130,026 samples, where the annotations of the test set remain undisclosed. The task of this dataset is multi-label sewage defect classification.

搜集汇总

数据集介绍

构建方式

在市政基础设施智能检测领域，Sewer-ML 数据集的构建体现了严谨的工程化流程。该数据集源自三家丹麦水务公司历时九年间积累的七万五千余段专业下水道检测视频，由持证检查员依据丹麦通用标准进行标注，涵盖十八种缺陷与状态类别。通过从视频中按标注位置提取单帧，并基于空间邻近性聚合多标签信息，同时运用启发式规则生成无缺陷的正常管道图像，最终整合成包含一百三十万张图像的大规模多标签分类数据集。为确保数据纯净性与隐私安全，所有图像中的叠加文本信息均通过训练专用的 Faster-RCNN 模型进行检测与模糊处理，有效避免了标注信息泄露。

特点

Sewer-ML 数据集在结构与内容上具有显著特点。其规模庞大且来源多样，覆盖不同材质、形状与管径的管道，真实反映了实际检测场景中的视觉变异。数据以多标签形式组织，平均每张图像约含1.5个标签，呈现自然不平衡的类别分布，与真实世界中缺陷出现的频率相符。该数据集特别引入了经济影响权重，为每个缺陷类别赋予基于实际维修成本的重要性分数，使得评估指标能更贴合工程决策需求。此外，数据划分严格遵循视频级别分离，确保训练、验证与测试集之间无管道重叠，保障了模型评估的可靠性。

使用方法

该数据集适用于下水道缺陷自动分类算法的开发与基准测试。研究者可采用端到端的多标签分类框架，或借鉴论文中提出的两阶段范式——即先进行缺陷存在性二分类，再对缺陷类型进行多标签识别。训练时建议使用加权二元交叉熵损失以缓解类别不平衡问题，并采用包含亮度、对比度调整的数据增强策略。评估应结合提出的 F2CIW 指标与正常管道的 F1 分数，前者加权召回率与经济影响，后者衡量模型识别无缺陷管道的能力。数据已公开提供，包含图像与对应多标签注释，支持直接用于模型训练、验证与性能比较。

背景与挑战

背景概述

Sewer-ML数据集由奥尔堡大学视觉分析与感知实验室于2021年发布，旨在解决城市下水道基础设施自动化检测中的核心挑战。该数据集汇集了来自丹麦三家水务公司长达九年的专业检查数据，包含130万张经过多标签标注的图像，覆盖了裂缝、变形、树根侵入等17类常见缺陷以及正常管道状态。其创建不仅填补了该领域缺乏公开基准数据的空白，更为深度学习模型在下水道缺陷分类任务中的性能评估提供了标准化平台，显著推动了计算机视觉在市政工程维护中的应用进展。

当前挑战

Sewer-ML数据集面临的挑战主要体现在两个方面：在领域问题层面，下水道缺陷分类需应对高度复杂的视觉环境，如管道内部光照不均、水渍干扰、材质多样以及缺陷形态的类内差异大，这些因素导致模型难以准确区分相似缺陷类别。在构建过程中，数据采集涉及多源异构视频的整合，标注依赖专业检查人员的多标签注释，且需处理类别不平衡问题；同时，为保护隐私与避免标注信息泄漏，研发团队还需设计自动化文本擦除流程，确保图像中叠加的元数据被有效去除，这些步骤均增加了数据集构建的技术复杂度与质量控制难度。

常用场景

经典使用场景

在市政基础设施智能监测领域，Sewer-ML数据集为多标签缺陷分类任务提供了标准化评估基准。该数据集通过整合九年间由专业巡检人员标注的130万张下水道图像，构建了涵盖17种缺陷类型的多标签分类体系。其经典应用场景集中于训练端到端深度学习模型，实现下水道巡检视频中多种缺陷类别的自动化识别与分类，有效解决了传统人工巡检效率低下、主观性强的问题。

衍生相关工作

该数据集的发布催生了多个方向的研究进展。在模型架构层面，研究者将两阶段分类范式与图卷积网络相结合，提出了融合领域先验知识的混合架构。在缺陷检测领域，衍生出基于时序一致性的视频级缺陷追踪方法，以及结合激光点云的多模态缺陷评估系统。此外，数据集的经济权重标注机制启发了基础设施风险评估研究，促使计算机视觉社区更深入地探索技术指标与工程价值的关联性建模。

数据集最近研究