Cityscapes

Name: Cityscapes
Creator: 戴姆勒公司、达姆施塔特工业大学、马普信息学研究所、德累斯顿工业大学
Published: 2016-04-07 11:08:51
License: 暂无描述

arXiv2016-04-07 更新2025-02-10 收录

下载链接：

https://www.cityscapes-dataset.com

下载链接

链接失效反馈

官方服务：

资源简介：

Cityscapes数据集由Daimler AG、TU Darmstadt、MPI Informatics和TU Dresden联合创建，旨在推动复杂城市街景的视觉理解研究。该数据集以其规模宏大、标注丰富、场景多变和复杂性高而著称，包含来自50个不同城市街道的立体视频序列，其中5000张图像具有高质量的像素级标注；另有20000张图像进行了粗略标注，以支持利用大量弱标注数据的方法。Cityscapes数据集不仅提供了像素级的语义标注，还包括了实例级的语义标注，同时为了促进3D场景理解的研究，还提供了通过立体视觉获得的深度信息。该数据集以其独特的城市内部交通场景的复杂性，为自动驾驶等领域的研究提供了宝贵的资源。

The Cityscapes Dataset was jointly created by Daimler AG, TU Darmstadt, MPI Informatics and TU Dresden, aiming to advance visual understanding research on complex urban street scenes. This dataset is renowned for its large scale, rich annotations, diverse scenarios and high complexity, containing stereo video sequences from 50 different city streets. Among them, 5000 images are equipped with high-quality pixel-level annotations, while another 20000 images receive coarse annotations to support methods that leverage large-scale weakly labeled data. The Cityscapes Dataset not only provides pixel-level semantic annotations but also instance-level semantic annotations. Furthermore, to promote research on 3D scene understanding, it also offers depth information obtained via stereo vision. Thanks to the unique complexity of intra-city traffic scenarios, this dataset serves as a valuable resource for research in fields such as autonomous driving.

提供机构：

戴姆勒公司、达姆施塔特工业大学、马普信息学研究所、德累斯顿工业大学

创建时间：

2016-04-07

搜集汇总

数据集介绍

构建方式

Cityscapes数据集的构建过程体现了对城市街景语义理解研究的深度考量。研究团队通过车载立体相机系统，在50个不同城市的街道场景中采集了大规模立体视频序列，涵盖了春季、夏季和秋季的多样化光照与天气条件。数据采集采用高动态范围成像技术，并经过去马赛克和立体校正处理，最终生成16位HDR和8位LDR两种格式的图像对。从海量视频帧中，团队精心筛选出5000张图像进行精细像素级标注，每张标注平均耗时超过1.5小时，采用分层多边形标注策略确保标注质量与深度顺序信息。此外，另有20000张图像采用粗标注方式，在保证标注效率的同时为弱监督学习方法提供数据支持。所有标注数据按照城市规模、地理分布和时间维度进行科学划分，形成训练集、验证集和测试集，确保数据分布的均衡性与代表性。

特点

Cityscapes数据集的核心特征在于其前所未有的规模与复杂性。该数据集包含5000张精细标注图像和20000张粗标注图像，标注像素总量达到90亿，远超同期其他城市场景数据集。数据涵盖30个语义类别，涵盖平坦区域、建筑结构、自然景物、交通工具等八大类别，其中19个类别专门用于评估任务。数据集特别注重实例级标注，为行人和车辆提供精确的实例分割掩码，支持像素级和实例级双重语义理解任务。场景复杂度显著提升，平均每张图像包含7个行人和11.8个车辆实例，呈现高度密集的城市场景。数据多样性通过50个城市的地理分布、不同季节记录和多样化场景布局得以保证，同时提供立体视觉深度信息、车辆里程计和GPS轨迹等多模态数据，为三维场景理解研究奠定基础。

使用方法

Cityscapes数据集为语义分割研究提供了标准化的评估框架。研究者可利用训练集（2975张精细标注图像）和额外粗标注图像开发模型，通过验证集（500张图像）进行超参数调优。测试集（1525张图像）的标注保持非公开状态，研究者需通过官方评估服务器提交预测结果以获得客观性能评估。数据集支持像素级语义标注和实例级语义标注两大任务：像素级任务采用交并比（IoU）和实例归一化交并比（iIoU）双重评估指标，分别衡量整体分割精度和小实例分割质量；实例级任务则采用区域级平均精度（AP）评估，通过多阈值重叠度计算确保评估的鲁棒性。数据集兼容现有深度学习框架，研究者可基于FCN、DeepLab等架构进行模型训练，同时支持跨数据集评估，便于与CamVid、KITTI等数据集进行对比研究。

背景与挑战

背景概述

Cityscapes数据集于2016年由戴姆勒公司、达姆施塔特工业大学、马克斯·普朗克信息学研究所等机构的研究团队联合创建，旨在推动复杂城市场景的语义理解研究。该数据集的核心研究问题是解决自动驾驶等应用中像素级和实例级语义分割的挑战，通过涵盖50个不同城市的高质量街景图像，显著提升了场景的多样性和复杂性。Cityscapes以其大规模精细标注和丰富的场景变体，迅速成为自动驾驶视觉感知领域的关键基准，对深度学习模型在真实世界环境中的性能评估产生了深远影响。

当前挑战

Cityscapes数据集主要应对城市场景语义分割中的两大挑战：在领域问题层面，它致力于解决高密度、多尺度交通参与者（如行人、车辆）的精确分割与实例区分，尤其在遮挡严重、光照多变的复杂街景中保持鲁棒性；在构建过程中，团队面临标注质量与规模之间的平衡难题，精细标注单张图像平均耗时超过1.5小时，同时需确保50个城市场景的时空多样性。此外，数据集中小尺度对象的实例分割、深度信息与语义标签的协同利用，以及弱标注数据（2万张粗标注图像）的有效挖掘，均为后续研究提出了持续的技术挑战。

常用场景

经典使用场景

在自动驾驶与计算机视觉领域，Cityscapes数据集已成为城市街景语义理解的基准工具。该数据集通过高分辨率立体图像序列，捕捉了50个不同城市内复杂多变的交通场景，涵盖密集的行人、车辆及多样化的道路结构。其精细的像素级标注与实例级标注，为深度学习模型提供了丰富的监督信息，使得研究者能够训练并评估语义分割、实例分割等核心算法。经典使用场景包括利用全卷积网络（FCN）进行端到端的像素分类，以及结合条件随机场（CRF）优化边界预测，从而在高度动态的城市场景中实现精准的环境感知。

实际应用

Cityscapes数据集在自动驾驶系统的实际开发中具有重要应用价值。其丰富的城市场景数据可用于训练感知模块，使车辆能够准确识别道路、行人、车辆、交通标志等关键元素，从而支持路径规划与决策制定。例如，基于该数据集训练的模型已被集成到先进驾驶辅助系统（ADAS）中，实现实时车道保持、碰撞预警等功能。此外，数据集的跨城市多样性确保了模型的泛化能力，使其能够适应不同地理与气候条件，提升了自动驾驶系统在真实世界中的可靠性与安全性。

衍生相关工作

Cityscapes数据集催生了众多经典研究工作，推动了计算机视觉领域的算法创新。基于该数据集，研究者提出了多种先进的语义分割架构，如DeepLab系列通过空洞卷积扩大感受野，DilatedNet利用多尺度上下文聚合提升分割精度。在实例分割方面，Mask R-CNN等模型借助数据集的实例标注，实现了对交通参与者的精确检测与分割。同时，数据集也促进了弱监督学习方法的探索，例如利用粗糙标注训练深度卷积网络，显著降低了标注成本。这些衍生工作不仅提升了模型在Cityscapes基准上的性能，也为其他视觉任务提供了重要借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集