3DCity-LLM-1.2M
收藏github2026-04-08 更新2026-03-28 收录
下载链接:
https://github.com/SYSU-3DSTAILab/3D-City-LLM
下载链接
链接失效反馈官方服务:
资源简介:
3DCity-LLM-1.2M数据集包含大约120万个高质量样本,涵盖七个代表性任务类别,从细粒度对象分析到复杂场景规划。该数据集经过严格的质量控制,集成了显式的3D数值信息和多样化的用户导向模拟,以丰富问答多样性并确保城市场景的真实性。
The 3DCity-LLM-1.2M dataset contains approximately 1.2 million high-quality samples, covering seven representative task categories ranging from fine-grained object analysis to complex scene planning. This dataset has undergone strict quality control, integrating explicit 3D numerical information and diverse user-oriented simulations to enrich the diversity of QA pairs and ensure the authenticity of urban scenarios.
创建时间:
2026-03-16
原始信息汇总
3DCity-LLM数据集概述
数据集名称
3DCity-LLM-1.2M
数据集简介
3DCity-LLM-1.2M数据集是一个为3D城市级视觉-语言感知与理解任务构建的大规模、高质量数据集。该数据集旨在解决多模态大语言模型在3D城市尺度环境下的扩展挑战。
核心特点
- 数据规模:包含约120万个高质量样本。
- 任务覆盖:涵盖七个具有代表性的任务类别,范围从细粒度对象分析到复杂场景规划。
- 数据质量控制:经过严格的质量控制,集成了显式的3D数值信息和多样化的用户导向模拟,以丰富问答多样性并确保城市场景的真实性。
数据集内容与结构
数据集整合了对象级几何、对象间关系以及全局场景语义信息,通过一个从粗到细的特征编码策略,将其映射到一个共享的语言嵌入空间。
数据获取与使用
- 数据地址:https://drive.google.com/drive/folders/1EMSvh1AYympK5Xqj1FmAH-9isTMHYZvT?usp=drive_link
- 使用说明:下载文件后,需将其放置在项目的
.data目录中,并修改.libconfig.py、.utilscityllm_dataset.py和.Test_CityLLM.py中的相应路径。
评估方法
采用基于文本相似度指标和基于大语言模型的语义评估的多维协议,以确保评估的忠实性和全面性。
相关资源
- 预训练模型:训练建议使用
xinlai/LISA-7B-v1或LLaVA-Lightning-7B-v1-1作为基础模型。 - 已训练模型:https://drive.google.com/drive/folders/1XAPTi_bzebFkdCXrobWcQi_icvxrmgmE?usp=sharing
基础工作致谢
本数据集构建工作基于LLaVA、Uni3D、SensatUrban和UrbanBIS。
搜集汇总
数据集介绍

构建方式
在三维城市规模环境感知与理解领域,现有多模态大语言模型往往局限于物体中心或室内场景。为突破这一限制,3DCity-LLM-1.2M数据集采用严格的质量控制流程,整合了约120万高质量样本,覆盖从细粒度物体分析到复杂场景规划等七类代表性任务。该数据集通过融合显式三维数值信息与多样化用户导向模拟,丰富了问答多样性,并确保城市场景的真实性,从而为大规模训练提供了坚实基础。
使用方法
使用该数据集时,需从指定云端存储下载元数据与预处理文件,并放置于本地项目的数据目录中。随后,在相关配置文件内更新路径参数,确保数据加载无误。训练阶段建议采用预训练的大语言模型骨干网络,并遵循分阶段训练策略:先在数据集中的描述任务上进行预训练,再于全量数据上进行微调。评估时则通过指定脚本加载检查点模型,执行标准化测试流程以验证模型性能。
背景与挑战
背景概述
随着多模态大语言模型在物体中心或室内场景中展现出卓越性能,其在三维城市场景下的感知与理解仍面临显著瓶颈。为突破这一局限,研究团队于近期提出了3DCity-LLM框架,并配套构建了3DCity-LLM-1.2M数据集。该数据集由约120万高质量样本组成,涵盖从细粒度物体分析到复杂场景规划等七类代表性任务,旨在通过融合显式三维数值信息与多样化用户导向模拟,推动空间推理与城市智能的发展。其创建标志着三维视觉与自然语言处理交叉领域向大规模、精细化城市环境理解迈出了关键一步,为后续研究提供了坚实的实验基础。
当前挑战
在三维城市场景理解领域,核心挑战在于如何将分散的物体几何、对象间关系及全局场景语义统一编码至语言嵌入空间,以实现精准的空间感知与推理。3DCity-LLM-1.2M数据集构建过程中,需克服多源数据融合、高质量样本筛选以及场景真实性保障等难题。通过严格的质控流程与多维评估协议,数据集致力于平衡样本多样性与现实性,从而为模型训练提供可靠支撑,但如何进一步提升数据覆盖的全面性与任务复杂性,仍是未来亟待探索的方向。
常用场景
经典使用场景
在三维城市尺度环境的多模态感知与理解研究中,3DCity-LLM-1.2M数据集为多模态大语言模型提供了从细粒度物体分析到复杂场景规划的七类代表性任务样本。该数据集通过整合对象级几何特征、对象间关系及全局场景语义,支持模型在城市场景中进行空间推理与视觉语言对齐,典型应用于训练模型理解城市布局、交通流线、建筑分布等宏观与微观要素,推动三维场景理解从室内小尺度向室外大尺度的拓展。
解决学术问题
该数据集旨在解决多模态大语言模型在三维城市场景中感知与理解能力不足的学术难题。传统模型往往局限于物体中心或室内环境,难以处理城市尺度下复杂的空间关系和语义信息。3DCity-LLM-1.2M通过提供120万高质量样本,融合显式三维数值信息与多样化用户导向模拟,增强了模型对城市动态的建模能力,促进了三维视觉语言模型在空间推理、场景解析与跨模态对齐等核心问题上的突破,为城市智能研究奠定了数据基础。
实际应用
在实际应用层面,3DCity-LLM-1.2M数据集可赋能智慧城市管理系统、自动驾驶环境感知以及城市数字孪生构建。通过训练模型理解城市基础设施、人流车流模式及环境变化,该数据集支持开发智能监控、路径规划、应急响应等系统,提升城市运营效率与安全性。其高质量仿真数据还能用于测试机器人导航算法或增强现实应用,为城市智能化转型提供可靠的技术支撑。
数据集最近研究
最新研究方向
在三维城市规模环境感知与理解领域,多模态大语言模型(MLLMs)的应用正从对象中心或室内场景向更复杂的城市场景拓展。3DCity-LLM-1.2M数据集的推出,标志着研究焦点转向整合对象级几何特征、对象间关系及全局场景语义的粗到细编码策略,以构建统一的视觉-语言嵌入空间。该数据集涵盖约120万高质量样本,覆盖从细粒度对象分析到复杂场景规划的七类任务,通过融合显式三维数值信息与多样化用户导向模拟,增强了问答多样性并提升了城市场景的真实感。前沿研究致力于利用基于文本相似度度量与大语言模型的语义评估协议,推动模型在空间推理与城市智能方面的性能突破,为自动驾驶、智慧城市等热点应用提供关键支撑。
以上内容由遇见数据集搜集并总结生成



