ROADWork Dataset|道路施工数据集|图像识别数据集
收藏ROADWork 数据集概述
数据集内容
ROADWork 数据集包含与道路施工场景相关的多种标注图像和视频。数据被组织成多个压缩文件,可以从 CMU Kilthub 下载。
目录结构
建议的目录结构如下:
├── pathways │ ├── annotations │ └── images ├── scene │ ├── annotations │ ├── images │ └── sem_seg │ ├── gtFine │ │ ├── train │ │ └── val │ └── images │ ├── train │ └── val └── videos
数据集文件描述
数据集可以从 CMU Kilthub 下载,并分为多个压缩文件。以下是每个压缩文件的简要描述:
-
images.zip
- 描述: 包含手动标注的所有 ROADWork 图像。
- 解压位置:
/scene/
- 格式:
- 我们收集的图像格式为
pgh<seq_id>_<frame_id>.jpg
- 从 Roadbotics 数据挖掘的图像格式为
<city_name>_<sequence_id>_<video_id>_<frame_id>.jpg
- 我们收集的图像格式为
-
annotations.zip
- 描述: 包含
images.zip
中图像的实例分割、标志信息、场景描述和其他标签,采用类似 COCO 的格式。 - 解压位置:
/scene/
- 格式:
- 遵循 COCO 格式的扩展,详细信息请参见 COCO。
- 图像级别属性存储在
image
结构中,而附加的对象级别属性存储在annotation
结构中。
- 分割:
instances_<train/val>_gps_split.json
instances_<train/val>_gps_split_with_signs.json
instances_<train/val>_pittsburgh_only.json
instances_geographic_da_{pretrain/unsupervised_with_gt/test}.json
- 描述: 包含
-
sem_seg_labels.zip
- 描述: 包含
images.zip
中图像的语义分割标签,采用 Cityscapes 格式。 - 解压位置:
/scene/sem_seg
- 格式:
- 文件名与图像相同,存储在
scene/gtFine/
文件夹中。 - 分割与
gps_split
相同。 - 每个图像生成三个文件:
<image_name>_labelColors.png
<image_name>_labelIds.png
<image_name>_Ids.png
- 文件名与图像相同,存储在
- 描述: 包含
-
discovered_images.zip
- 描述: 包含从 BDD100K 和 Mapillary 数据集发现的道路施工场景图像(总数少于 1000 张)。
- 解压位置:
/discovered/
- 用途: 仅用于辅助任务,注意这些外部数据集的特定许可信息。
-
traj_images.zip
- 描述: 包含与路径相关的图像,这些图像经过手动筛选,包含从 COLMAP 获得的地面真实路径。
- 解压位置:
/pathways/
- 格式:
<city_name>_<sequence_id>_<video_id>_<frame_id>_<relative_frame_id>.jpg
- 片段以 5 FPS 采样,共采样 150 帧用于 3D 重建。
-
traj_annotations.zip
- 描述: 包含
traj_images.zip
中图像的路径标注。 - 解压位置:
/pathways/
- 用途: 与
traj_images.zip
配对使用。
- 描述: 包含
-
traj_images_dense.zip
- 描述: 包含密集的路径图像集,类似于
traj_images.zip
,但未进行子采样。 - 解压位置:
/pathways_dense/
- 用途: 与
traj_images.zip
相同。
- 描述: 包含密集的路径图像集,类似于
-
traj_annotations_dense.zip
- 描述: 包含
traj_images_dense.zip
中图像的路径标注。 - 解压位置:
/pathways_dense/
- 用途: 与
traj_annotations.zip
相同。
- 描述: 包含
-
videos_compressed.zip
- 描述: 包含用于计算 3D 重建和路径的 Robotics Open Dataset 视频片段。
- 解压位置:
/videos/
- 格式:
<city_name>_<sequence_id>_<video_id>_<frame_id>.mp4
基线模型
基线模型可以从 Google Drive 下载,解压后放置在 ./models/
目录中。
脚本和模型
提供了 Jupyter Notebook 示例脚本,展示如何使用数据集、运行模型和可视化结果。环境配置文件 environment.yaml
和 llava_environment.yaml
也已提供。
许可证信息
代码采用 MIT 许可证。ROADWork 数据集采用 Open Data Commons Attribution License v1.0 许可证。discovered_images.zip
文件中的图像来自 BDD100K 和 Mapillary 数据集,使用这些图像时需遵守相应许可证。
引用
如果使用此数据集进行研究,请引用:
@article{ghosh2024roadwork, title={ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones}, author={Ghosh, Anurag and Tamburo, Robert and Zheng, Shen and Alvarez-Padilla, Juan R and Zhu, Hailiang and Cardei, Michael and Dunn, Nicholas and Mertz, Christoph and Narasimhan, Srinivasa G}, journal={arXiv preprint arXiv:2406.07661}, year={2024} }
联系
如有任何问题或支持需求,请联系 Anurag Ghosh。

Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录