人行道图像语义分割数据集

github2023-05-21 更新2024-05-31 收录

下载链接：

https://github.com/OnewayLab/U-Net

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含100张图像和35个类别，每张图像分辨率为1080x1920，用于U-Net语义分割模型的训练和评估。

This dataset comprises 100 images and 35 categories, with each image having a resolution of 1080x1920, intended for the training and evaluation of U-Net semantic segmentation models.

创建时间：

2023-05-21

原始信息汇总

数据集概述

数据集名称

人行道图像语义分割数据集

数据集来源

Hugging Face 社区

数据集内容

图像数量：100张
类别数量：35个
图像分辨率：$1080 imes1920$

数据集用途

用于训练和评估 U-Net 语义分割模型

数据集划分

训练集：70%
验证集：10%
测试集：20%

数据集预处理

标准化
数据增强：随机裁剪和水平翻转

评价指标

平均交并比（MIoU）

模型与训练

模型名称

U-Net

模型架构

收缩路径：多次连续卷积和池化压缩特征图
拓展路径：转制卷积放大的特征图与收缩路径裁剪后的特征图拼接，再经过连续卷积融合特征

训练参数

总步数：6000步
Batch size：16
学习率：0.0005
优化器：AdamW
学习率调度策略：OneCycle

推理策略

使用 Overlap-tile 策略将原图填充到适当大小，再切分为若干小块进行推理，最后将预测结果拼接成完整的分割图

实验结果

输入图像大小对分割效果的影响

Input Size	Output Size	Patches	MIoU
572	388	$3 imes5$	0.1546
668	484	$3 imes4$	0.1681
724	540	$2 imes4$	0.1715

最终结果对比

模型	MIoU
segformer-b0 (3-Epoch)	0.1135
U-Net	0.2005
segformer-b3	0.4345
segformer-b4	0.5168

U-Net 模型在 MIoU 指标上表现良好，但与基于 Transformer 的模型相比，性能有差距。

搜集汇总

数据集介绍

构建方式

人行道图像语义分割数据集的构建采用了高分辨率的图像采集技术，共包含100张分辨率为1080×1920的图像，涵盖了35个不同的语义类别。数据集的划分遵循7:1:2的比例，随机分配为训练集、验证集和测试集，确保了模型训练和评估的全面性。预处理步骤包括标准化处理，以及通过随机裁剪和水平翻转进行数据增强，以提高模型的泛化能力。

特点

该数据集的特点在于其高分辨率的图像质量和丰富的语义类别，能够为语义分割任务提供详尽的视觉信息。每张图像都经过精确标注，确保了数据的准确性和可靠性。此外，数据集的多样性体现在不同场景和光照条件下的人行道图像，这有助于模型学习到更加鲁棒的特征表示，提升在实际应用中的表现。

使用方法

使用该数据集时，首先需要通过`prepare_data.ipynb`脚本下载完整数据集，并按照指定的路径进行存储。接着，通过执行`main.py`脚本启动训练过程，其中可以调整输入图像大小、批量大小、总步数等参数以适应不同的硬件条件和实验需求。训练过程中，模型会定期在验证集上进行评估，并保存性能最佳的权重。推理阶段，采用Overlap-tile策略处理大尺寸图像，确保分割结果的连续性和准确性。

背景与挑战

背景概述

人行道图像语义分割数据集由Hugging Face社区发布，旨在推动城市环境中的语义分割研究。该数据集包含100张高分辨率图像，每张图像分辨率为1080×1920，涵盖了35个类别，主要用于训练和评估语义分割模型。数据集的核心研究问题在于如何精确识别和分割城市环境中的复杂场景，如人行道、公路、植物等。该数据集的发布为城市环境感知、自动驾驶和智能交通系统等领域提供了重要的数据支持，推动了相关技术的进步。

当前挑战

该数据集面临的挑战主要包括两个方面。首先，语义分割任务本身具有较高的复杂性，尤其是在城市环境中，不同物体之间的纹理和颜色相似性较高，如人行道与公路的分割，容易导致模型误判。其次，数据集的构建过程中，高分辨率图像的标注工作耗时且复杂，尤其是在多类别场景下，确保标注的准确性和一致性是一个巨大的挑战。此外，数据集的规模相对较小，可能限制了模型的泛化能力，尤其是在面对复杂场景时，模型的表现可能受到限制。

常用场景

经典使用场景

人行道图像语义分割数据集在计算机视觉领域中被广泛应用于语义分割任务，尤其是在城市环境中的行人路径识别和道路安全分析中。该数据集通过提供高分辨率的图像和详细的类别标注，使得研究人员能够训练和验证深度学习模型，如U-Net，以实现对复杂城市场景中不同物体的精确分割。

衍生相关工作

基于该数据集，许多经典的研究工作得以展开，包括改进的U-Net模型和基于Transformer的Segformer系列模型。这些研究不仅提升了语义分割的精度和效率，还推动了深度学习模型在图像处理领域的应用和发展，为后续的研究提供了宝贵的经验和数据支持。

数据集最近研究