AnnoGuide

Name: AnnoGuide
Creator: 浙江大学, 澳门大学, 协同创新研究院
Published: 2025-06-03 22:17:37
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://annoguide.github.io/annoguide3Dbenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

AnnoGuide 是一个基于 nuScenes 数据集的基准数据集，用于评估从专家定义的标注指南自动标注数据的方法。该数据集提供了18个对象类的标注指南，包括一些视觉示例和文本描述，但没有提供3D立方体标注。AnnoGuide旨在解决多模态少样本3D检测问题，通过利用现有的大型语言模型（LLMs）、视觉语言模型（VLMs）和视觉基础模型（VFMs）来实现自动标注。该数据集在自动驾驶研究中具有重要应用价值，可以促进自动驾驶安全性研究。

AnnoGuide is a benchmark dataset based on the nuScenes dataset, which is designed to evaluate methods for automatically annotating data via expert-defined annotation guidelines. This dataset provides annotation guidelines for 18 object classes, including several visual examples and textual descriptions, but does not offer 3D bounding box annotations. AnnoGuide aims to tackle multimodal few-shot 3D detection tasks, enabling automatic annotation by leveraging existing large language models (LLMs), vision-language models (VLMs), and visual foundation models (VFMs). This dataset has significant application value in autonomous driving research and can promote studies on autonomous driving safety.

提供机构：

浙江大学, 澳门大学, 协同创新研究院

创建时间：

2025-06-03

原始信息汇总

数据集概述：AnnoGuide 3D Benchmark

数据集简介

名称: AnnoGuide: Auto-Annotation from Annotation Guidelines
研究领域: 自动驾驶领域的3D LiDAR点云检测
核心目标: 通过专家定义的标注指南实现数据自动标注，消除人工标注需求
基准数据集: 基于nuScenes数据集改造
标注类型: 18个物体类别的3D立方体标注

关键特点

多模态少样本学习:
- 仅包含视觉示例和文本描述
- 无3D标注数据
技术挑战:
- 从2D检测提升到3D立方体生成
- 处理LiDAR点云中的遮挡和背景干扰

方法论

2D检测部分

使用GPT-4o进行类别术语优化
采用GroundingDINO进行基础检测
通过few-shot微调提升性能

3D立方体生成

多假设测试(MHT)方法
结合BEV点覆盖率和图像平面IoU
优于CM3D和CenterPoint等现有方法

性能指标

3D检测mAP从12.1提升至21.9
在远距离和小物体检测方面表现良好

技术增强

类别感知扫描聚合(SA)
3D几何线索整合(S3D)
3D轨迹跟踪优化

资源发布

代码仓库: GitHub

搜集汇总

数据集介绍

构建方式

AnnoGuide数据集的构建基于nuScenes数据集，通过重新利用其标注指南中的视觉示例和文本描述，构建了一个多模态少样本3D检测任务。具体流程包括：(1)利用开源基础模型进行RGB图像中的目标检测和分割，(2)通过已知相机姿态将2D检测结果投影到3D空间，(3)在每个2D检测的视锥体内对LiDAR点进行聚类以生成3D立方体。这一过程无需人工标注3D立方体，实现了从标注指南到自动标注的转变。

使用方法

AnnoGuide数据集的使用方法包括：(1)利用视觉语言模型（VLM）和视觉基础模型（VFM）进行2D检测和分割，(2)通过几何对齐将2D检测结果提升到3D空间，(3)使用多假设测试（MHT）方法生成3D立方体。数据集还提供了代码、数据和基线模型，便于研究人员评估和改进自动标注方法。

背景与挑战

背景概述

AnnoGuide数据集由浙江大学和澳门大学的研究团队于2025年提出，旨在解决机器学习应用中数据标注的高成本问题。该数据集基于自动驾驶领域广泛使用的nuScenes数据集，专注于从专家制定的标注指南中自动生成3D激光雷达检测标注，无需人工标注。AnnoGuide的核心研究问题是如何利用多模态基础模型（FMs）理解标注指南中的视觉示例和文本描述，并自动生成3D标注。这一研究为自动驾驶和计算机视觉领域的自动化标注提供了新的基准，显著降低了标注成本，并推动了多模态Few-Shot学习在3D检测中的应用。

当前挑战

AnnoGuide面临的主要挑战包括：1) 领域问题的挑战：如何从缺乏3D标注的视觉示例和文本描述中生成准确的3D检测标注，这是一个多模态Few-Shot学习问题；2) 构建过程的挑战：缺乏公开的激光雷达基础模型，使得直接应用现有模型进行3D检测变得困难；3) 多模态融合的挑战：需要有效结合视觉和文本信息，以生成高质量的3D标注。此外，标注指南中的视觉示例与目标数据集之间存在领域差距，进一步增加了任务的复杂性。

常用场景

经典使用场景

AnnoGuide数据集在自动驾驶研究领域具有重要价值，其核心应用场景在于通过专家定义的标注指南实现3D LiDAR点云的自动标注。该数据集重新利用了广泛使用的nuScenes数据集，提供了18个物体类别的详细标注指南，包括视觉示例和文本描述，但未包含LiDAR数据中的3D标注框。这种独特的设计使得AnnoGuide成为多模态少样本3D检测任务的理想基准，研究者可以通过结合视觉和文本信息，开发无需3D标注的自动标注方法。

解决学术问题

AnnoGuide数据集解决了机器学习中数据标注成本高昂的核心问题，为自动从标注指南生成标注提供了标准化评估框架。其创新性在于将少样本学习与多模态理解相结合，推动了3D LiDAR检测领域的发展。该数据集特别关注如何利用基础模型（如视觉语言模型和视觉基础模型）理解专家定义的复杂标注规则，并将2D检测结果提升至3D空间，显著降低了人工标注的需求。通过这一基准，研究者可以系统评估不同模型在真实场景标注任务中的表现。

实际应用

在实际应用中，AnnoGuide数据集的方法可直接用于自动驾驶系统的数据标注流水线。其提出的2D到3D提升管道已展示出在真实道路场景中的实用性，能够对车辆、行人等关键物体生成准确的3D边界框。该技术可大幅降低自动驾驶公司标注LiDAR数据的成本，同时保持标注质量。此外，其多模态处理框架也可迁移至其他需要专业标注的领域，如工业检测、医疗影像分析等，为特定领域的标注自动化提供了可行方案。

数据集最近研究