SVM-City
收藏arXiv2025-07-17 更新2025-07-19 收录
下载链接:
https://sites.google.com/view/cityvlm/
下载链接
链接失效反馈官方服务:
资源简介:
SVM-City是一个多域感知户外场景理解数据集,由多尺度城市级场景的多视角和多模态数据组成。它包含了来自地面车辆、低空无人机、高空飞机和卫星的420,000张图像和4,811M个点云数据,以及567,000个问答对。该数据集旨在通过构建一个联合概率分布空间来融合多模态数据,从而提高场景理解能力。
SVM-City is a multi-domain perception outdoor scene understanding dataset composed of multi-view and multi-modal data from multi-scale urban-level scenes. It encompasses 420,000 images, 4,811 million point cloud data samples, and 567,000 question-answer pairs collected from ground vehicles, low-altitude drones, high-altitude aircraft, and satellites. This dataset aims to fuse multi-modal data by constructing a joint probability distribution space, thereby enhancing the capability of scene understanding.
提供机构:
The Hong Kong University of Science and Technology (Guangzhou)
创建时间:
2025-07-17
原始信息汇总
City-VLM数据集概述
数据集基本信息
- 数据集名称:City-VLM
- 项目名称:Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning
- 相关资源:
- 论文(Paper)
- 代码(Code)
- 数据集(Datasets)
- BibTeX引用格式
数据集特点
- 应用领域:多领域感知场景理解
- 学习方式:多模态不完全学习
相关资源
- 官方页面:https://sites.google.com/view/cityvlm/
搜集汇总
数据集介绍

构建方式
SVM-City数据集作为首个面向多领域感知的户外场景理解数据集,其构建过程融合了多尺度、多视角与多模态数据的系统性采集。研究团队通过车辆摄像头、低空无人机、高空航拍及卫星遥感等多源传感器,收集了42万张图像和48.11亿点云数据,覆盖北美、西欧和东亚三大区域的13个典型城市。数据标注采用自动化流程:首先基于HRNet和B-Seg等预训练模型提取2D/3D对象语义,构建场景图表示空间关系;继而通过ChatGPT根据认知科学中的空间问题分类体系(定位、测量、功能、逻辑性四类模板),自动生成56.7万组问答对,确保了语言多样性和地理覆盖广度。
特点
该数据集的核心特点体现在三维度创新:多模态协同性(同步包含2D图像与3D点云,41.36%纯点云、16.38%纯图像及42.26%混合模态)、跨尺度覆盖性(从地面1公里街景到数千平方公里城市群)以及问题复杂性(26.55%定位问题、16.54%测量问题、24.02%功能推理及32.89%逻辑关系问题)。相较于ScanNet等室内数据集或NuScenes等单一视角户外数据集,SVM-City首次实现了城市级空间语义的立体化表征,其问答对中隐含的跨模态关联为模型提供了细粒度推理基础。
使用方法
使用该数据集需遵循多模态联合学习框架:对于完整数据输入,可直接通过特征拼接进行跨模态对齐;当部分模态缺失时(如仅有卫星图像无点云),需激活其配套City-VLM模型的概率分布融合模块(IMF),通过变分自编码器构建潜在空间映射。典型应用流程包括:1) 基于EVA-CLIP和Uni3D-L分别编码2D/3D特征;2) 通过KL散度约束将异构特征投影至共享概率空间;3) 结合Vicuna-7B等大语言模型进行开放式问答。实验表明,该范式在物体识别、空间推理等任务中平均超越现有LVLM模型18.14%。
背景与挑战
背景概述
SVM-City数据集由香港科技大学(广州)、浙江大学、复旦大学等机构的研究团队于2025年提出,旨在解决户外大规模场景理解中的多域感知问题。该数据集包含来自车辆、低空无人机、高空飞机和卫星的42万张图像、48.11亿点云数据及56.7万问答对,覆盖了陆地、低空和高空多尺度观测视角。作为首个融合多尺度、多视角、多模态数据的城市级户外场景理解数据集,SVM-City突破了传统视觉语言模型在室内场景的局限,为自动驾驶、数字城市等应用提供了关键数据支撑。其创新性的概率分布空间融合方法显著提升了模型在模态缺失情况下的鲁棒性,在三大典型户外任务中平均性能超越现有模型18.14%。
当前挑战
构建SVM-City面临双重挑战:在领域问题层面,户外场景需解决跨尺度语义关联(如卫星影像与街景的协同理解)、多源异构数据对齐(2D图像与3D点云的时空配准)以及复杂环境下的逻辑推理(城市功能区域推断)等核心难题;在技术实现层面,数据采集涉及跨平台传感器同步(无人机与车载激光雷达的时空校准)、超大规模点云标注(处理48亿级点云的语义分割)以及多模态问答对生成(基于空间认知理论设计567K高质量QA对)。特别地,模态缺失问题(如高空仅有2D数据)促使研究者创新性地提出基于变分自编码器的概率融合方法,替代传统的显式特征拼接策略。
常用场景
经典使用场景
SVM-City数据集专为多尺度、多视角、多模态的户外城市场景理解而设计,其经典使用场景包括通过车辆、低空无人机、高空飞机和卫星等多种传感器采集的420k图像和4,811M点云数据,结合567k问答对,进行复杂的场景理解和推理。该数据集特别适用于需要处理大规模、多源数据的视觉-语言模型(LVLM)训练和评估,能够支持从地面到高空的跨域感知任务。
实际应用
在实际应用中,SVM-City可赋能自动驾驶系统对复杂城市场景的语义解析,支持无人机航拍图像的智能分析,并辅助卫星遥感数据的自动化解读。其多模态特性特别适合智慧城市建设中的交通监控、灾害评估等任务,例如通过融合车载LiDAR与高空影像数据实现城市三维建模,或利用跨模态问答系统提升应急响应效率。
衍生相关工作
基于SVM-City衍生的经典工作包括City-VLM模型及其不完整多模态融合模块(IMF Module),该框架通过概率分布建模实现了2D/3D数据的鲁棒对齐。后续研究进一步扩展至多智能体协同感知、动态场景建模等领域,例如结合该数据集开发的LidarLLM和3D-VisTA等模型,推动了户外场景理解与具身智能的交叉创新。
以上内容由遇见数据集搜集并总结生成



