3DCity-LLM-1.2M

Name: 3DCity-LLM-1.2M
Creator: 中山大学·地理科学与工程学院; 国防科技大学·电子科学学院; 挪威科技大学·土木与环境工程系; 中国国家测绘地理信息局
Published: 2026-03-25 01:18:44
License: 暂无描述

arXiv2026-03-25 更新2026-03-26 收录

下载链接：

https://github.com/SYSU-3DSTAILab/3D-City-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

3DCity-LLM-1.2M是由中山大学等机构联合构建的大规模城市级多模态数据集，包含约120万条高质量样本，涵盖对象描述、空间定位、场景规划等7类任务。数据集整合了SensatUrban等来源的显式3D坐标信息，并通过自动化流程生成多样化用户模拟问答，强化了城市场景的语义多样性和空间推理真实性。其构建过程采用严格的质量控制，消除幻觉回答并保护隐私数据，适用于3D城市感知、空间关系计算等前沿研究，为多模态大模型在智慧城市领域的应用提供了基准支持。

3DCity-LLM-1.2M is a large-scale urban multimodal dataset jointly constructed by Sun Yat-sen University and other institutions. It comprises approximately 1.2 million high-quality samples, covering 7 categories of tasks including object description, spatial localization, scene planning and others. The dataset integrates explicit 3D coordinate information from sources such as SensatUrban, and generates diverse simulated user question-answer pairs via automated workflows, enhancing the semantic diversity of urban scenarios and the authenticity of spatial reasoning. Strict quality control is adopted during its construction process to eliminate hallucinatory responses and safeguard private data. This dataset is applicable to cutting-edge research such as 3D urban perception and spatial relationship calculation, providing benchmark support for the application of multimodal large language models in the field of smart cities.

提供机构：

中山大学·地理科学与工程学院; 国防科技大学·电子科学学院; 挪威科技大学·土木与环境工程系; 中国国家测绘地理信息局

创建时间：

2026-03-25

原始信息汇总

3DCity-LLM数据集概述

数据集基本信息

数据集名称：3DCity-LLM-1.2M
数据规模：约120万个高质量样本
任务类别：涵盖7个代表性任务类别，范围从细粒度对象分析到复杂场景规划

数据集内容与特点

内容构成：数据集集成了显式的3D数值信息和多样化的用户导向模拟。
主要特点：
- 严格的质量控制。
- 丰富了问答多样性。
- 确保了城市场景的真实感。
设计目标：旨在支持3D城市尺度的视觉-语言感知与理解。

数据集获取与存储

数据地址：https://drive.google.com/drive/folders/1EMSvh1AYympK5Xqj1FmAH-9isTMHYZvT?usp=drive_link
存储说明：下载文件后需放置于.data目录，并修改.libconfig.py、.utilscityllm_dataset.py和.Test_CityLLM.py中的相应路径。

评估方法

采用基于文本相似度度量和基于LLM的语义评估的多维协议，以确保评估的忠实性和全面性。

预训练模型

模型地址：https://drive.google.com/drive/folders/1XAPTi_bzebFkdCXrobWcQi_icvxrmgmE?usp=sharing
基础模型建议：通常使用xinlai/LISA-7B-v1（推荐）或LLaVA-Lightning-7B-v1-1作为待合并的基础模型（已使用图像-文本对进行预训练）。

相关依赖与致谢

构建基础：3DCity-LLM基于LLaVA、Uni3D、SensatUrban和UrbanBIS构建。

搜集汇总

数据集介绍

构建方式

在三维城市规模视觉语言理解领域，现有数据集往往局限于二维图像或缺乏大规模高质量标注。为填补这一空白，3DCity-LLM-1.2M数据集通过自动化流水线构建，整合了SensatUrban、UrbanBIS与City-BIS等公开城市点云数据。该流程首先提取实例级掩码与地标注释，构建包含对象几何、语义及空间关系的城市场景图；随后将点云投影为鸟瞰图，并生成结构化文本描述。在此基础上，利用先进视觉语言模型，结合多样化提示指令与多角色上下文模拟，自动生成涵盖七类任务的问答对。最终经过严格的质量控制，包括自动化交叉检查与隐私信息过滤，确保了数据的高可靠性与语言多样性。

特点

该数据集的核心特点在于其规模宏大与任务体系完整。其包含约120万高质量样本，覆盖对象描述、定位、分析、关系计算、场景描述、场景分析与场景规划七类代表性任务，形成了从细粒度对象感知到宏观场景决策的层次化体系。数据集深度融合显式三维数值信息，如精确坐标、距离与角度，为空间推理提供了坚实基础。同时，通过模拟游客、政府人员等不同用户角色的语言风格与关注焦点，增强了问答对的语境真实性与实用性。这种多维度、多任务的设计，使得数据集能够全面支持三维城市环境下的复杂感知与理解需求。

使用方法

该数据集主要用于训练与评估面向三维城市规模的多模态大语言模型。研究人员可将其用于模型的指令微调，以提升模型在对象级、关系级及场景级任务上的综合性能。具体而言，数据集中分层的任务定义支持模型进行从特征对齐到高级推理的两阶段训练。在评估阶段，除了传统的文本相似度指标，数据集倡导结合基于大语言模型的逻辑性与可靠性语义评估，以更全面地衡量模型在开放域城市任务中的真实表现。数据集的开源特性也便于社区在此基础上开发新的算法，推动三维场景理解与城市智能领域的进步。

背景与挑战

背景概述

随着多模态大语言模型在物体中心或室内场景中取得显著进展，将其扩展至三维城市尺度环境仍面临严峻挑战。为弥合这一差距，中山大学等机构的研究团队于2026年提出了3DCity-LLM-1.2M数据集，旨在推动城市级三维视觉语言感知与理解研究。该数据集包含约120万高质量样本，覆盖从细粒度物体分析到多层面场景规划的七类代表性任务，其核心研究问题在于如何实现大规模、高质量的三维城市环境多模态理解。通过整合显式三维数值信息与多样化用户导向模拟，该数据集显著丰富了城市场景问答的多样性与真实性，为空间推理与城市智能的发展提供了关键数据支撑。

当前挑战

3DCity-LLM-1.2M数据集致力于解决三维城市尺度视觉语言理解这一复杂领域问题，其核心挑战在于如何对包含数千个异质实体及错综空间关系的城市场景进行统一建模。现有数据集多局限于二维影像或短文本问答，缺乏三维空间信息支撑，难以满足城市级场景的深度理解需求。在构建过程中，研究团队面临多重挑战：需设计自动化流水线从城市点云中提取结构化场景属性，并利用先进视觉语言模型生成基于指令的问答对；同时必须实施严格质量控制以消除幻觉、保护隐私并确保语言清晰度；此外，传统文本相似度指标难以评估长文本答案的语义对等性，需引入基于大语言模型的多维评估协议来全面衡量逻辑性与可靠性。

常用场景

经典使用场景

在三维城市感知与理解领域，3DCity-LLM-1.2M数据集为多模态大语言模型提供了大规模、高质量的监督数据，支撑其从细粒度物体分析到复杂场景规划的七类代表性任务。该数据集通过自动化流水线生成约120万样本，融合了显式三维数值信息与多样化用户导向的上下文模拟，显著增强了城市场景问答的多样性与真实性。其经典使用场景涵盖物体描述、空间定位、关系计算、场景分析与规划等层次化任务，为模型训练与评估建立了系统化的基准体系。

衍生相关工作

围绕该数据集衍生的经典工作主要包括三维视觉语言模型的架构创新与评估方法改进。在模型架构方面，研究者提出了从粗到细的特征编码策略，通过并行分支处理目标物体、对象关系与全局场景，实现了多层次城市信息的有效融合。在评估方法上，引入了基于文本相似度指标与大语言模型语义评估的多维协议，克服了传统指标在长文本答案评估中的局限性。这些工作共同推动了三维城市尺度理解技术的发展，并为后续研究提供了可扩展的框架与可靠的评测基准。

数据集最近研究