five

CityRefer, SensatUrban

收藏
github2025-02-21 更新2025-02-14 收录
下载链接:
https://github.com/WHU-USI3DV/CityAnchor
下载链接
链接失效反馈
官方服务:
资源简介:
README内容中提到了CityRefer和SensatUrban两个数据集,但没有提供具体的中文描述。因此,这里只提供英文描述的翻译: CityRefer: 用于定位城市规模点云中的城市对象的三维视觉定位方法。 SensatUrban: 用于城市规模三维点云的三维视觉定位的数据集。

The README documents two datasets, CityRefer and SensatUrban, but no specific Chinese descriptions are provided for them. Hence, only the translated English descriptions of the two datasets are given below: CityRefer: A 3D visual localization method for locating urban objects within city-scale point clouds. SensatUrban: A dataset dedicated to 3D visual localization tasks for city-scale 3D point clouds.
创建时间:
2025-02-11
原始信息汇总

数据集概述

数据集名称

CityAnchor

数据集简介

CityAnchor 是一种针对城市规模点云进行三维视觉定位的方法。该方法通过多模态LLM(大型语言模型)实现,分为粗略定位和细粒度匹配两个阶段,能够在城市规模的三维点云中进行准确的视觉定位。

数据集构成

  • CityRefer 数据集:用于训练和验证的数据集。
  • 合成数据集:由研究者标注的新合成数据集。

数据集特点

  • 支持在城市规模点云中进行三维视觉定位。
  • 包含预训练的CityAnchor模型权重。
  • 提供了训练和评估脚本。

数据准备

  • 数据下载:提供在Google Drive上的数据下载链接,包括预处理的训练数据和评估数据。
  • 数据结构:详细描述了CityRefer和SensatUrban数据集的结构。
  • 数据预处理:包括数据预处理和增强(可选)。

系统要求

  • 操作系统:Ubuntu 20.04
  • CUDA版本:12.2
  • Python版本:3.10
  • Pytorch版本:2.1.0
  • GPU:NVIDIA A100 GPU (40G)

使用说明

  • 提供了conda环境创建和激活的指令。
  • 提供了必要的pip包安装指令。
  • 提供了模型演示、训练和评估的详细步骤和指令。

训练时间

  • 训练时间约为12小时,适用于超过500m*500m的城市场景和400个对象。

评估

  • 支持在CityRefer数据集上评估模型的定位性能。

依赖项目

  • 依赖于LISA、Uni3D、CityRefer和DeepSpeed等开源项目。

联系方式

  • 提供了联系邮箱lijp57@whu.edu.cn,以便于提问和交流。
搜集汇总
数据集介绍
main_image_url
构建方式
CityAnchor数据集的构建依托于城市规模的三维点云,通过多模态大规模语言模型(LLM)分两阶段进行,第一阶段是粗略定位,在点云的二维投影地图上定位可能的区域;第二阶段是细粒度匹配,在这些可能的区域内准确确定匹配的对象。数据集的构建涉及城市环境中的物体描述、点云数据、二维地图、三维属性特征、地标特征等多个维度的信息整合和预处理。
特点
该数据集的特点在于其覆盖城市规模的点云数据,提供了丰富的三维空间信息,适用于三维视觉定位任务。它包含了多种类型的数据,如文本描述、点云、二维地图、属性特征等,为研究提供了全面的数据支持。此外,数据集还提供了预训练模型和易于使用的演示,降低了使用门槛。
使用方法
使用CityAnchor数据集首先需要下载并组织数据结构,包括CityRefer和SensatUrban两个子数据集的数据文件。数据预处理和增强是可选步骤,但推荐执行以提升模型性能。数据集的使用包括训练和评估模型,其中训练过程可以利用预训练的LLM模型作为骨架,而评估则可通过在CityRefer数据集上进行测试来完成。
背景与挑战
背景概述
CityAnchor 是一种针对城市规模点云的3D视觉定位方法,旨在解决机器人、增强现实/虚拟现实和自动驾驶等领域的重大挑战。该方法通过多模态语言模型,将粗略定位与细粒度匹配相结合,实现在城市规模点云中的物体定位。CityAnchor 的研究背景源于对大规模城市点云进行视觉定位的迫切需求,其研究工作由多个机构和研究人员共同推进,包括但不限于LISA、Uni3D、CityRefer和DeepSpeed等。该数据集在计算机视觉领域具有重要影响力,特别是在3D视觉定位任务上,为相关研究提供了新的视角和数据支撑。
当前挑战
CityAnchor 面临的挑战主要包括:1) 在大规模城市点云上进行视觉定位的准确性挑战;2) 构建过程中,如何有效整合多源数据并进行预处理、数据增强的挑战;3) 如何在大规模数据集上训练并优化模型,以达到高效、准确的目标。这些挑战不仅涉及到算法的改进,还包括数据处理、模型训练等多个方面,需要综合运用计算机视觉、机器学习和数据科学的知识和技术。
常用场景
经典使用场景
在计算机视觉领域中,3D视觉定位技术对于机器人、增强现实(AR)/虚拟现实(VR)及自动驾驶等应用至关重要。CityAnchor作为一种面向城市规模点云的3D视觉定位方法,其经典使用场景在于精确定位城市环境中的目标物体。通过 coarse localization 阶段在点云的二维投影地图上定位可能区域,再由 fine-grained matching 阶段在这些区域内准确识别目标物体,从而实现了在城市规模点云上的精确3D视觉定位。
衍生相关工作
基于CityAnchor的研究成果,衍生出了一系列相关工作,如针对不同类型城市环境的视觉定位方法、结合深度学习的点云处理技术等。这些工作进一步推动了3D视觉定位技术的实用化和普及化,对于智能城市和自动驾驶技术的发展具有重要影响。
数据集最近研究
最新研究方向
在计算机视觉领域,3D视觉定位任务具有变革性应用,如机器人、增强现实/虚拟现实和自动驾驶等。将3D视觉定位扩展到城市规模点云,开启了令人振奋的新可能性。CityAnchor方法是一种针对城市规模点云的3D视觉定位方法,其通过多模态LLM实现粗略定位和细粒度匹配两阶段来准确确定城市规模点云中的目标物体。该方法在城市规模点云上实现了准确的3D视觉定位,不仅推动了视觉定位技术的发展,而且对于城市管理和规划等领域具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作