CityRefer, SensatUrban

github2025-02-21 更新2025-02-14 收录

下载链接：

https://github.com/WHU-USI3DV/CityAnchor

下载链接

链接失效反馈

官方服务：

资源简介：

README内容中提到了CityRefer和SensatUrban两个数据集，但没有提供具体的中文描述。因此，这里只提供英文描述的翻译： CityRefer: 用于定位城市规模点云中的城市对象的三维视觉定位方法。 SensatUrban: 用于城市规模三维点云的三维视觉定位的数据集。

The README documents two datasets, CityRefer and SensatUrban, but no specific Chinese descriptions are provided for them. Hence, only the translated English descriptions of the two datasets are given below: CityRefer: A 3D visual localization method for locating urban objects within city-scale point clouds. SensatUrban: A dataset dedicated to 3D visual localization tasks for city-scale 3D point clouds.

创建时间：

2025-02-11

原始信息汇总

数据集概述

数据集名称

CityAnchor

数据集简介

CityAnchor 是一种针对城市规模点云进行三维视觉定位的方法。该方法通过多模态LLM（大型语言模型）实现，分为粗略定位和细粒度匹配两个阶段，能够在城市规模的三维点云中进行准确的视觉定位。

数据集构成

CityRefer 数据集：用于训练和验证的数据集。
合成数据集：由研究者标注的新合成数据集。

数据集特点

支持在城市规模点云中进行三维视觉定位。
包含预训练的CityAnchor模型权重。
提供了训练和评估脚本。

数据准备

数据下载：提供在Google Drive上的数据下载链接，包括预处理的训练数据和评估数据。
数据结构：详细描述了CityRefer和SensatUrban数据集的结构。
数据预处理：包括数据预处理和增强（可选）。

系统要求

操作系统：Ubuntu 20.04
CUDA版本：12.2
Python版本：3.10
Pytorch版本：2.1.0
GPU：NVIDIA A100 GPU (40G)

使用说明

提供了conda环境创建和激活的指令。
提供了必要的pip包安装指令。
提供了模型演示、训练和评估的详细步骤和指令。

训练时间

训练时间约为12小时，适用于超过500m*500m的城市场景和400个对象。

评估

支持在CityRefer数据集上评估模型的定位性能。

依赖项目

依赖于LISA、Uni3D、CityRefer和DeepSpeed等开源项目。

联系方式

提供了联系邮箱lijp57@whu.edu.cn，以便于提问和交流。

搜集汇总

数据集介绍

构建方式

CityAnchor数据集的构建依托于城市规模的三维点云，通过多模态大规模语言模型（LLM）分两阶段进行，第一阶段是粗略定位，在点云的二维投影地图上定位可能的区域；第二阶段是细粒度匹配，在这些可能的区域内准确确定匹配的对象。数据集的构建涉及城市环境中的物体描述、点云数据、二维地图、三维属性特征、地标特征等多个维度的信息整合和预处理。

特点

该数据集的特点在于其覆盖城市规模的点云数据，提供了丰富的三维空间信息，适用于三维视觉定位任务。它包含了多种类型的数据，如文本描述、点云、二维地图、属性特征等，为研究提供了全面的数据支持。此外，数据集还提供了预训练模型和易于使用的演示，降低了使用门槛。

使用方法

使用CityAnchor数据集首先需要下载并组织数据结构，包括CityRefer和SensatUrban两个子数据集的数据文件。数据预处理和增强是可选步骤，但推荐执行以提升模型性能。数据集的使用包括训练和评估模型，其中训练过程可以利用预训练的LLM模型作为骨架，而评估则可通过在CityRefer数据集上进行测试来完成。

背景与挑战

背景概述

CityAnchor 是一种针对城市规模点云的3D视觉定位方法，旨在解决机器人、增强现实/虚拟现实和自动驾驶等领域的重大挑战。该方法通过多模态语言模型，将粗略定位与细粒度匹配相结合，实现在城市规模点云中的物体定位。CityAnchor 的研究背景源于对大规模城市点云进行视觉定位的迫切需求，其研究工作由多个机构和研究人员共同推进，包括但不限于LISA、Uni3D、CityRefer和DeepSpeed等。该数据集在计算机视觉领域具有重要影响力，特别是在3D视觉定位任务上，为相关研究提供了新的视角和数据支撑。

当前挑战

CityAnchor 面临的挑战主要包括：1) 在大规模城市点云上进行视觉定位的准确性挑战；2) 构建过程中，如何有效整合多源数据并进行预处理、数据增强的挑战；3) 如何在大规模数据集上训练并优化模型，以达到高效、准确的目标。这些挑战不仅涉及到算法的改进，还包括数据处理、模型训练等多个方面，需要综合运用计算机视觉、机器学习和数据科学的知识和技术。

常用场景

经典使用场景

在计算机视觉领域中，3D视觉定位技术对于机器人、增强现实（AR）/虚拟现实（VR）及自动驾驶等应用至关重要。CityAnchor作为一种面向城市规模点云的3D视觉定位方法，其经典使用场景在于精确定位城市环境中的目标物体。通过 coarse localization 阶段在点云的二维投影地图上定位可能区域，再由 fine-grained matching 阶段在这些区域内准确识别目标物体，从而实现了在城市规模点云上的精确3D视觉定位。

衍生相关工作

基于CityAnchor的研究成果，衍生出了一系列相关工作，如针对不同类型城市环境的视觉定位方法、结合深度学习的点云处理技术等。这些工作进一步推动了3D视觉定位技术的实用化和普及化，对于智能城市和自动驾驶技术的发展具有重要影响。

数据集最近研究