CARScenes

arXiv2025-11-18 更新2025-11-20 收录

下载链接：

https://github.com/Croquembouche/CARScenes

下载链接

链接失效反馈

官方服务：

资源简介：

CARScenes是由多源自动驾驶数据集构建的语义视觉语言模型专用数据集，旨在推动可解释的场景理解研究。该数据集整合了来自Argoverse1、Cityscapes、KITTI和nuScenes的5,192帧图像，通过28个核心类别和350余个叶子属性构建结构化知识体系，涵盖环境状态、道路几何、交通参与者行为等维度。标注过程采用GPT-4o辅助的视觉语言管道与人工验证相结合的方式，确保标注质量的可靠性与一致性。该数据集主要应用于自动驾驶领域视觉语言模型的训练与评估，通过标准化语义schema解决场景级语义理解与安全风险量化等关键问题。

CARScenes is a specialized dataset for semantic vision-language models built upon multi-source autonomous driving datasets, aiming to advance research on interpretable scene understanding. It integrates 5,192 image frames from Argoverse1, Cityscapes, KITTI, and nuScenes, and constructs a structured knowledge framework with 28 core categories and over 350 leaf attributes, covering dimensions such as environmental states, road geometry, and behaviors of traffic participants. The annotation workflow combines GPT-4o-aided vision-language pipelines with manual verification to guarantee the reliability and consistency of annotation quality. This dataset is primarily utilized for training and evaluating vision-language models in the autonomous driving domain, addressing core challenges including scene-level semantic understanding and safety risk quantification via standardized semantic schemas.

提供机构：

未提及

创建时间：

2025-11-13

原始信息汇总

UDriveVLMDataset 数据集概述

数据集用途

将多模态驾驶场景数据打包为训练就绪的JSONL文件
用于微调视觉语言模型（如qwen2-vl-2b-instruct）
通过ms-swift工具包进行模型训练

数据结构

源数据包含分割文件夹（train/images和train/labels）
生成的JSONL输出文件
驾驶图像与结构化场景分析的配对数据
包含自然语言摘要和原始JSON标注的对话监督样本

数据格式

每个JSONL行包含messages和images字段
messages字段包含系统、用户和助理角色的对话内容
images字段包含关联图像路径列表
助理消息结合了场景的自然语言摘要和原始结构化标签JSON

数据来源

Cityscapes：来自Cityscapes作者，禁止重新分发
KITTI：采用CC BY-NC-SA 3.0许可
Argoverse：采用CC BY-NC-SA 4.0许可（含隐私条款）
nuScenes：来自Motional，非商业用途；商业许可需另行获取

许可信息

标注和模式：CC BY 4.0 © 2025 [the CAR Lab @ UD]
代码：MIT © 2025 [the CAR Lab @ UD]
图像：各来源数据集分别遵循其原始许可条款

搜集汇总

数据集介绍

构建方式

在自动驾驶视觉语言理解领域，CARScenes数据集通过整合来自Argoverse1、Cityscapes、KITTI和nuScenes四大权威数据集的5,192帧图像，构建了一套系统化的语义标注体系。其标注流程采用GPT-4o辅助的视觉语言管道，结合人工循环验证机制，通过确定性解码与结构化后处理规则，将图像内容映射到包含28个主类别、350余个叶子属性的知识图谱中。该方法通过模式版本控制与同义词规范化确保标注一致性，并采用分层随机审计策略保障数据质量，最终生成包含离散严重度评分（1-10）的JSONL标准化记录。

特点

该数据集以层级化知识库为核心特征，覆盖环境状态、道路几何、交通参与者行为、传感器状态等七大语义维度，并创新性地引入离散严重度评分体系。其标注结果不仅包含扁平化属性表，更通过属性共现图结构支持语义检索与场景挖掘。数据分布呈现多源异构特性，囊括不同地理环境与气象条件，其中严重度评分遵循长尾分布，为中高风险场景研究提供天然实验场。所有标注均通过机器可读的模式校验，确保跨数据集语义一致性。

使用方法

研究者可通过解析JSONL格式的标注文件，直接获取每帧图像的结构化语义描述与严重度标签。数据集支持基于模式查询的场景筛选与跨源数据统筹，例如通过属性组合检索特定天气条件下的交叉口场景。配套提供的图构建脚本支持语义关系分析，而基准模型Qwen2-VL-2B的微调代码则为视觉语言模型训练提供完整范例。验证集上的评估协议涵盖标量准确率、列表属性微平均F1值及严重度回归误差等多维度指标，为自动驾驶系统的可解释性研究建立标准化评估框架。

背景与挑战

背景概述

自动驾驶领域的发展长期依赖大规模数据集，如KITTI、Cityscapes和nuScenes等，这些数据集主要聚焦于低层次感知任务，包括物体检测与轨迹预测。然而，随着视觉语言模型在自动驾驶中的应用日益广泛，现有数据集缺乏结构化、可解释的场景级语义标注，难以支持高级语义理解任务。CARScenes数据集于2025年由Yuankai He和Weisong Shi等研究人员创建，整合了来自Argoverse1、Cityscapes、KITTI和nuScenes的5,192帧图像，构建了一个包含28个关键类别、超过350个叶属性的知识库，覆盖环境状态、道路几何、交通参与者行为及安全风险等级等维度。该数据集通过GPT-4o辅助的标注流程与人工验证机制，为自动驾驶系统的可解释性分析与多模态学习提供了重要基础。

当前挑战

CARScenes旨在解决自动驾驶场景中高层次语义理解的挑战，包括复杂环境下的多属性联合推理、风险等级评估以及跨数据源的语义一致性建模。构建过程中面临多重困难：一是标注复杂性高，需通过视觉语言模型处理多样化的场景要素，如动态交通参与者行为与静态道路基础设施的交互；二是数据异构性显著，整合来自不同地理分布与采集条件的源数据集时，需确保属性枚举与严重性评分的标准化；三是语义粒度精细，列表型属性的微平均评估与离散严重性标度的回归任务对模型泛化能力提出更高要求。此外，人类验证环节需处理罕见场景组合与跨字段约束冲突，以保障标注的准确性与逻辑一致性。

常用场景

经典使用场景

在自动驾驶视觉语言模型研究领域，CARScenes数据集通过其精心构建的28个关键类别知识库，为场景级语义理解提供了标准化评估基准。该数据集整合了来自Argoverse1、Cityscapes、KITTI和nuScenes的5192帧图像，涵盖环境状态、道路几何、交通参与者行为等350多个细粒度属性，支持研究者对模型在复杂驾驶场景中的语义解析能力进行系统性验证。其独特的离散严重程度评分体系（1-10级）进一步为风险感知的场景理解提供了量化依据。

解决学术问题

CARScenes有效解决了自动驾驶领域长期存在的场景语义标注碎片化问题。传统数据集主要关注低层感知任务，缺乏对高层语义要素的标准化描述。该数据集通过统一的语义知识库，填补了驾驶场景结构化理解的空白，使研究者能够系统评估模型对环境条件、交通控制状态、参与者行为等复合语义要素的联合推理能力。其提供的确定性解码基准模型，更为领域内模型性能的客观比较建立了可靠参照系。

衍生相关工作

基于CARScenes的语义标注范式，衍生出多个重要的研究方向。在可解释性分析方面，研究者利用其属性共现图开发了场景语义结构的可视化工具。在跨数据集迁移学习中，该数据集的统一知识库为不同来源驾驶数据的语义对齐提供了基准框架。部分工作进一步扩展了其严重程度评分机制，开发出基于语义要素的风险预测模型。这些衍生研究共同推动了自动驾驶系统从感知到认知的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集