驾驶场景识别数据集（DSI）

Name: 驾驶场景识别数据集（DSI）
Creator: 纽约州立大学石溪分校、宾夕法尼亚州立大学
Published: 2025-06-21 00:06:53
License: 暂无描述

arXiv2025-06-21 更新2025-06-24 收录

下载链接：

https://github.com/KELISBU/KAA-CAL

下载链接

链接失效反馈

官方服务：

资源简介：

驾驶场景识别数据集（DSI）是一个包含7个子集的单一标签数据集，每个子集根据一个特定的场景属性进行标注。该数据集共包含31835张场景图片，涵盖了7种不同的场景属性，如分离式基础设施、道路功能、天气、施工区域、天气相关道路状况、一天中的时间以及交叉路口类型。数据集的构建旨在为多标签驾驶场景分类提供全面的标注数据，从而解决现有数据集中标签不平衡和类分布不均的问题。DSI数据集的创建过程涉及从多个公共驾驶视频数据集中抽取样本，并补充了来自YouTube视频的额外图片。该数据集旨在支持自动驾驶车辆更好地理解、推理和与复杂的驾驶环境交互，以提高安全性。数据集的访问地址为https://github.com/KELISBU/KAA-CAL。

The Driving Scene Identification Dataset (DSI) is a single-label dataset consisting of 7 subsets, each annotated based on a specific scene attribute. It contains a total of 31,835 scene images, covering 7 distinct scene attributes including separated infrastructure, road function, weather, construction zones, weather-related road conditions, time of day, and intersection types. The dataset is constructed to provide comprehensive annotated data for multi-label driving scene classification, aiming to address the issues of label imbalance and uneven class distribution prevalent in existing datasets. The development of DSI involved extracting samples from multiple public driving video datasets, with additional images sourced from YouTube videos. This dataset is intended to support autonomous vehicles in better understanding, reasoning, and interacting with complex driving environments to enhance driving safety. The dataset is available at https://github.com/KELISBU/KAA-CAL.

提供机构：

纽约州立大学石溪分校、宾夕法尼亚州立大学

创建时间：

2025-06-21

原始信息汇总

KAA-CAL 数据集概述

数据集简介

KAA：通过单任务学习从多个单标签数据集中获取和积累场景识别知识。
CAL：有效解决单标签和多标签数据之间的知识差距问题。

Driving Scene Identification (DSI) 数据集

数据来源：从公开驾驶视频数据集（BDD100K、HSD、ROADWork Data）和YouTube视频中采样的场景图像。
数据规模：共31,835张场景图像。
标注类别：24个独立类别，涵盖7个场景属性。

场景属性及类别分布

Grade-separated Infrastructure
- 类别：Overhead bridges, Tunnels, Open roads
- 训练集：4,874；验证集：1,866；测试集：1,025
Road Function
- 类别：Local, Arterial, Interstate, Collector
- 训练集：3,891；验证集：1,210；测试集：639
Weather
- 类别：Overcast, Clear, Foggy, Snowing, Raining
- 训练集：2,798；验证集：1,400；测试集：500
Work Zone
- 类别：Work zone, None-work zone
- 训练集：2,121；验证集：1,498；测试集：662
Weather-related Road Condition
- 类别：Snowy, Dry, Wet
- 训练集：2,295；验证集：957；测试集：441
Time of Day
- 类别：Night, Daytime, Dawn/Dusk
- 训练集：1,656；验证集：1,022；测试集：300
Intersection Type
- 类别：None, 4-way, 3-way, Roundabout
- 训练集：1,981；验证集：332；测试集：367

数据集结构

目录结构：

dataset/ ├── train/ │ ├── Grade-separated Infrastructure/ │ ├── Road_Function/ │ ├── Weather/ │ ├── Work Zone/ │ ├── Road_Condition/ │ ├── Time of Day/ │ └── Intersection_Type/ ├── val/ └── test/

下载链接

下载地址：https://drive.google.com/file/d/1yw4EcfGFGjs2OAa4sWfwQaIDkxDIAR46/view?usp=drive_link

引用

bibtex @misc{li2025acquiringaccumulatingknowledgediverse, title = {Acquiring and Accumulating Knowledge from Diverse Datasets for Multi-label Driving Scene Classification}, author = {Ke Li and Chenyu Zhang and Yuxin Ding and Xianbiao Hu and Ruwen Qin}, year = {2025}, eprint = {2506.17101}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2506.17101} }

搜集汇总

数据集介绍

构建方式

驾驶场景识别数据集（DSI）通过整合来自多个公开驾驶视频数据集（如BDD100K、HSD和ROADWork）的31,835张场景图像构建而成，并辅以YouTube视频的补充数据。该数据集包含7个独立标注的单标签子集，每个子集针对一个特定的场景属性（如天气、道路功能、施工区域等）进行标注。数据收集过程强调了多样性和泛化性，以减少潜在的偏差，并通过分层采样策略确保各类别的平衡分布。

特点

DSI数据集的一个显著特点是其多属性标注的全面性，涵盖了7个关键驾驶场景属性和24个互斥类别。每个子集均划分为训练集、验证集和测试集，以支持模型的开发和评估。此外，数据集通过合成图像等技术解决了某些类别（如雾天场景）数据不平衡的问题，增强了模型的鲁棒性。其多样化的数据来源和精细的标注体系使其成为自动驾驶场景理解研究的重要资源。

使用方法

DSI数据集主要用于支持多标签驾驶场景分类任务。研究人员可通过加载数据集中的单标签子集，利用KAA（知识获取与积累）系统进行单任务学习，构建基础模型。随后，通过CAL（基于一致性的主动学习）算法将基础模型适配为多任务模型，以解决属性间联合分布的域偏移问题。数据集还支持与其他公开数据集（如BDD100K和HSD）的对比研究，以验证模型的泛化性能。

背景与挑战

背景概述

驾驶场景识别数据集（DSI）由Ke Li、Chenyu Zhang、Yuxin Ding、Xianbiao Hu和Ruwen Qin等研究人员于2025年提出，旨在解决自动驾驶车辆在复杂驾驶环境中多标签场景分类的挑战。该数据集包含31,835张驾驶场景图像，涵盖7个单标签子集，每个子集针对不同的场景属性（如天气、道路功能、工作区等）进行标注。DSI的创建填补了现有驾驶场景数据集中多标签标注不足的空白，为自动驾驶车辆的上下文感知能力提供了重要支持。该数据集通过知识获取与积累（KAA）和基于一致性的主动学习（CAL）方法，显著提升了多标签分类模型的性能，为自动驾驶领域的研究和应用提供了有力工具。

当前挑战

DSI数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，多标签驾驶场景分类需要处理高维属性空间中的数据不平衡问题，某些场景类别的组合在现实中较为罕见，导致数据收集困难。此外，多任务学习中的梯度竞争问题也增加了模型训练的复杂性。在构建过程中，数据标注的可靠性是一个重要挑战，例如夜间图像的天气条件难以准确标注，部分场景的道路功能识别存在不确定性。同时，如何从多个单标签数据集中有效整合知识，并解决边际分布与联合分布之间的差异，也是数据集构建中的关键挑战。

常用场景

经典使用场景

驾驶场景识别数据集（DSI）在自动驾驶领域具有广泛的应用价值，尤其在多标签驾驶场景分类任务中表现卓越。该数据集通过整合来自不同单标签数据集的知识，为复杂驾驶场景的识别提供了丰富的标注信息。其经典使用场景包括自动驾驶车辆的环境感知、决策支持系统以及复杂场景推理。通过多任务学习，DSI数据集能够同时识别多个非互斥的场景属性，如天气条件、道路功能和交通状况，从而为自动驾驶系统提供全面的上下文感知能力。

实际应用

在实际应用中，DSI数据集为自动驾驶系统的环境感知模块提供了关键支持。例如，通过识别道路表面条件（如干燥、湿滑或积雪），车辆可以动态调整制动距离和转弯速度，显著提升行驶安全性。此外，该数据集还支持复杂场景的实时推理，如识别交叉口类型以预判潜在冲突点，或通过天气条件识别优化动物检测系统的决策阈值。这些应用不仅增强了自动驾驶系统的适应性，也为智能交通管理提供了可靠的数据基础。

衍生相关工作

DSI数据集的研究催生了多项经典工作，包括基于知识蒸馏的多任务学习框架和一致性主动学习算法。相关研究如CF-Net通过单标签分类器增强多标签分类性能，REC-Net则利用高效网络架构实现环境条件的多标签识别。此外，DSI的提出还推动了如BDD100K和HSD等公开数据集的标注标准统一化，为后续研究提供了重要基准。这些衍生工作共同构成了驾驶场景识别领域的方法论体系，持续推动着自动驾驶感知技术的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集