ROADWork Dataset

github2024-07-03 更新2024-07-04 收录

下载链接：

https://github.com/anuragxel/roadwork-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与道路施工场景相关的各种注释图像和视频。数据被组织成多个压缩文件，可以从CMU Kilthub下载。数据集包括图像、实例分割、标志信息、场景描述和其他标签，以及用于不同任务的多个分割。

This dataset contains various annotated images and videos related to road construction scenarios. The dataset is organized into multiple compressed files, which can be downloaded from CMU Kilthub. It includes images, instance segmentation annotations, signage information, scene descriptions, other labels, as well as multiple splits designed for different tasks.

创建时间：

2024-06-29

原始信息汇总

ROADWork 数据集概述

数据集内容

ROADWork 数据集包含与道路施工场景相关的多种标注图像和视频。数据被组织成多个压缩文件，可以从 CMU Kilthub 下载。

目录结构

建议的目录结构如下：

├── pathways │ ├── annotations │ └── images ├── scene │ ├── annotations │ ├── images │ └── sem_seg │ ├── gtFine │ │ ├── train │ │ └── val │ └── images │ ├── train │ └── val └── videos

数据集文件描述

数据集可以从 CMU Kilthub 下载，并分为多个压缩文件。以下是每个压缩文件的简要描述：

images.zip
- 描述： 包含手动标注的所有 ROADWork 图像。
- 解压位置： /scene/
- 格式：
  - 我们收集的图像格式为 pgh<seq_id>_<frame_id>.jpg
  - 从 Roadbotics 数据挖掘的图像格式为 <city_name>_<sequence_id>_<video_id>_<frame_id>.jpg
annotations.zip
- 描述： 包含 images.zip 中图像的实例分割、标志信息、场景描述和其他标签，采用类似 COCO 的格式。
- 解压位置： /scene/
- 格式：
  - 遵循 COCO 格式的扩展，详细信息请参见 COCO。
  - 图像级别属性存储在 image 结构中，而附加的对象级别属性存储在 annotation 结构中。
- 分割：
  - instances_<train/val>_gps_split.json
  - instances_<train/val>_gps_split_with_signs.json
  - instances_<train/val>_pittsburgh_only.json
  - instances_geographic_da_{pretrain/unsupervised_with_gt/test}.json
sem_seg_labels.zip
- 描述： 包含 images.zip 中图像的语义分割标签，采用 Cityscapes 格式。
- 解压位置： /scene/sem_seg
- 格式：
  - 文件名与图像相同，存储在 scene/gtFine/ 文件夹中。
  - 分割与 gps_split 相同。
  - 每个图像生成三个文件：
    - <image_name>_labelColors.png
    - <image_name>_labelIds.png
    - <image_name>_Ids.png
discovered_images.zip
- 描述： 包含从 BDD100K 和 Mapillary 数据集发现的道路施工场景图像（总数少于 1000 张）。
- 解压位置： /discovered/
- 用途： 仅用于辅助任务，注意这些外部数据集的特定许可信息。
traj_images.zip
- 描述： 包含与路径相关的图像，这些图像经过手动筛选，包含从 COLMAP 获得的地面真实路径。
- 解压位置： /pathways/
- 格式：
  - <city_name>_<sequence_id>_<video_id>_<frame_id>_<relative_frame_id>.jpg
  - 片段以 5 FPS 采样，共采样 150 帧用于 3D 重建。
traj_annotations.zip
- 描述： 包含 traj_images.zip 中图像的路径标注。
- 解压位置： /pathways/
- 用途： 与 traj_images.zip 配对使用。
traj_images_dense.zip
- 描述： 包含密集的路径图像集，类似于 traj_images.zip，但未进行子采样。
- 解压位置： /pathways_dense/
- 用途： 与 traj_images.zip 相同。
traj_annotations_dense.zip
- 描述： 包含 traj_images_dense.zip 中图像的路径标注。
- 解压位置： /pathways_dense/
- 用途： 与 traj_annotations.zip 相同。
videos_compressed.zip
- 描述： 包含用于计算 3D 重建和路径的 Robotics Open Dataset 视频片段。
- 解压位置： /videos/
- 格式：
  - <city_name>_<sequence_id>_<video_id>_<frame_id>.mp4

基线模型

基线模型可以从 Google Drive 下载，解压后放置在 ./models/ 目录中。

脚本和模型

提供了 Jupyter Notebook 示例脚本，展示如何使用数据集、运行模型和可视化结果。环境配置文件 environment.yaml 和 llava_environment.yaml 也已提供。

许可证信息

代码采用 MIT 许可证。ROADWork 数据集采用 Open Data Commons Attribution License v1.0 许可证。discovered_images.zip 文件中的图像来自 BDD100K 和 Mapillary 数据集，使用这些图像时需遵守相应许可证。

引用

如果使用此数据集进行研究，请引用：

@article{ghosh2024roadwork, title={ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones}, author={Ghosh, Anurag and Tamburo, Robert and Zheng, Shen and Alvarez-Padilla, Juan R and Zhu, Hailiang and Cardei, Michael and Dunn, Nicholas and Mertz, Christoph and Narasimhan, Srinivasa G}, journal={arXiv preprint arXiv:2406.07661}, year={2024} }

联系

如有任何问题或支持需求，请联系 Anurag Ghosh。

搜集汇总

数据集介绍

构建方式

ROADWork数据集的构建基于对道路施工场景的深入分析，通过收集和标注大量相关图像和视频数据来实现。数据集的构建过程包括从多个来源（如Roadbotics数据和BDD100K）挖掘图像，并进行手动标注。标注内容涵盖实例分割、标志信息、场景描述等多个方面，采用COCO格式进行存储，确保数据的标准化和易于处理。此外，数据集还提供了多种分割方式，以适应不同的训练和评估需求，如基于地理位置的分割和包含罕见标志信息的分割。

使用方法

使用ROADWork数据集时，用户首先需要从CMU Kilthub下载数据集的压缩文件，并按照提供的目录结构进行解压。数据集提供了详细的Jupyter Notebook示例脚本，展示了如何加载数据、训练模型以及可视化结果。用户可以根据需要选择不同的数据分割方式进行训练和评估。此外，数据集还提供了预训练的基线模型，用户可以直接下载并用于进一步的研究和开发。在使用过程中，请确保遵守数据集的许可证要求，特别是对于包含外部数据的部分。

背景与挑战

背景概述

ROADWork数据集由卡内基梅隆大学（CMU）的智能实验室（ILIM）创建，专注于道路施工场景的图像和视频数据。该数据集的核心研究问题是如何有效识别、分析和导航道路施工区域，这对于自动驾驶和智能交通系统具有重要意义。数据集包含了多种标注信息，如实例分割、标志信息和场景描述，采用COCO格式和Cityscapes格式进行组织。自2024年发布以来，ROADWork数据集已成为道路施工场景分析领域的重要资源，为研究人员提供了丰富的数据支持。

当前挑战

ROADWork数据集在构建过程中面临多项挑战。首先，数据集需要从多个来源收集图像和视频，确保数据的多样性和代表性。其次，标注过程复杂，涉及实例分割、语义分割和场景描述等多种任务，要求高精度和一致性。此外，数据集的组织和存储需高效，以支持大规模训练和评估。最后，数据集的发布和维护需考虑版权和许可问题，确保合规使用。这些挑战共同构成了ROADWork数据集在实际应用中的重要课题。

常用场景

经典使用场景

在智能交通和自动驾驶领域，ROADWork数据集的经典使用场景主要集中在道路施工场景的识别与分析。该数据集通过提供大量标注的道路施工图像和视频，支持研究人员开发和验证用于检测、分割和理解道路施工区域的深度学习模型。这些模型可以应用于自动驾驶车辆，以实时识别道路施工区域，从而提高驾驶安全性和效率。

解决学术问题

ROADWork数据集解决了智能交通和自动驾驶领域中道路施工场景识别的学术研究问题。通过提供丰富的标注数据，该数据集促进了道路施工区域检测、语义分割和场景理解等关键技术的研究。其意义在于推动了自动驾驶系统在复杂道路环境中的适应性和鲁棒性，为实现更安全的自动驾驶技术奠定了基础。

实际应用

在实际应用中，ROADWork数据集为智能交通系统和自动驾驶车辆提供了关键支持。通过训练基于该数据集的模型，自动驾驶车辆能够实时识别和应对道路施工区域，从而避免潜在的交通事故。此外，该数据集还可用于城市交通管理，帮助交通部门优化施工区域的交通流量，提高整体交通效率。

数据集最近研究