hmxiong/ScanNet-Detection-Instruction

Name: hmxiong/ScanNet-Detection-Instruction
Creator: hmxiong
Published: 2023-10-10 11:11:06
License: 暂无描述

Hugging Face2023-10-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hmxiong/ScanNet-Detection-Instruction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个版本（V0到V5_normalized），每个版本在bbox编码、类别提示、归一化处理、box信息表示等方面有所不同。V0版本直接将所有的bbox编码为一句话送入LLM，V1在V0基础上加入了类别提示，V2/V2_normalized将bbox坐标编码为special token，V3_normalized在V2_normalized基础上添加了类别信息及token映射map，V4基于scannet_detection_train收集的数据，未进行归一化处理，V5_normalized在V4_normalized基础上将box信息表示为close to center和far from center。V4被用作主要实验数据，点运数据用于可视化没有发生偏移的数据。

提供机构：

hmxiong

原始信息汇总

数据集版本概述

V0

描述：将所有的bbox编码为一句话，模型需要根据输入直接回归出所有的数字。

V1

描述：在V0的基础上加入了类别提示。

V2/V2_normalized

描述：使用对应的类别和bbox数据，但未直接变为token，需要在程序内部将bbox坐标编码为special token作为回归对象。

V3_normalized

描述：在V2_normalized数据的基础上，在question中添加了全部的类别信息及对应token的映射map，所有内容相同但进行了乱序处理。

V4

描述：基于scannet_detection_train收集的数据，未经过归一化处理，归一化处理将在程序中进行，并加入local guidance。

V5_normalized

描述：在V4_normalized数据的基础上，将原始的box信息表示为“close to center”和“far from center”。

当前使用情况

主要实验数据：目前主要使用V4作为主要实验数据。
可视化数据：点运数据使用scannet_detection_train为可视化没有发生偏移的数据。

搜集汇总

数据集介绍

构建方式

该数据集基于ScanNet场景理解任务构建，聚焦于三维目标检测中的指令跟随场景。从V0版本开始，数据构建方式经历了多轮迭代优化：初期将全部边界框（bbox）编码为单一文本序列，要求模型直接回归所有数值；随后在V1版本中引入类别提示以增强语义信息。V2及V2_normalized版本则摒弃直接文本化策略，转而将bbox坐标编码为特殊标记（special token），作为回归目标在程序内部处理。V3_normalized在V2基础上，于问题中注入全部类别信息及其对应的标记映射，并执行乱序操作以提升泛化能力。V4版本基于ScanNet检测训练集收集，未做归一化处理，所有归一化操作留待程序内部完成，并引入局部引导（local guidance）机制。V5_normalized则将原始box信息重新表述为“靠近中心”与“远离中心”两种空间关系。当前主要采用V4作为核心实验数据，其点云数据源自ScanNet检测训练集，均为未发生偏移的可视化数据。

特点

该数据集具备鲜明的渐进式演化特征，每一版本均针对前序局限进行定向改进，体现了从简单文本回归到复杂标记化与空间关系建模的递进逻辑。其核心特点在于将三维目标检测任务与自然语言指令紧密结合，通过特殊标记编码边界框坐标，既保留了数值精度，又适配了语言模型的输入范式。V3_normalized的乱序操作和类别映射注入显著增强了模型对语义与空间信息的关联理解能力。V4版本的局部引导机制进一步提升了模型在局部场景中的定位精度。V5_normalized则通过语义化空间关系描述（如“靠近/远离中心”），降低了数值回归的难度，使模型更易于学习几何布局。数据集以点云为视觉基础，确保空间信息的原始性与完整性，为三维场景下的指令跟随检测提供了高质量、多层次的基准资源。

使用方法

该数据集主要用于训练和评估能够理解自然语言指令并进行三维目标检测的多模态模型。使用时，用户需根据具体版本选择对应的数据格式：对于V0和V1，可直接将文本化bbox序列输入大语言模型（LLM）进行数值回归；对于V2及后续版本，需在程序内部实现bbox坐标与特殊标记之间的编码与解码转换。V3_normalized要求模型在输入中解析类别-标记映射表，并处理乱序信息。V4作为主要实验版本，建议用户在其框架内集成局部引导模块，并确保所有归一化操作在数据加载环节动态完成。V5_normalized则需将空间关系描述（如“close to center”）映射为数值边界框。推荐使用ScanNet检测训练集作为点云来源，配合数据集的指令-检测对进行监督学习，最终模型输出应为三维边界框的坐标或对应特殊标记序列。

背景与挑战

背景概述

在三维视觉与自然语言处理的交叉领域中，场景理解任务正逐渐从简单的分类与检测向更复杂的交互式推理迈进。由hmxiong团队创建的ScanNet-Detection-Instruction数据集，诞生于对三维点云数据中目标检测与语言指令对齐的探索之中。该数据集基于ScanNet场景，围绕如何将边界框（bbox）坐标与类别信息编码为可被大语言模型（LLM）直接回归的序列这一核心问题展开。团队从V0版本起步，逐步迭代至V4版本，引入了类别提示、特殊标记编码及局部引导等机制，旨在构建一个能支撑多模态指令跟随任务的基准。该数据集的出现，为三维目标检测与自然语言理解的深度融合提供了关键数据支撑，推动了具身智能与场景感知领域的研究进展。

当前挑战

该数据集所面临的挑战首先体现在领域问题的复杂性上：三维场景中的目标检测需同时解决空间坐标的连续回归与语义类别的离散分类，而将其与语言指令对齐更增加了多模态融合的难度，尤其是边界框的数值表达与大语言模型的离散化输入之间存在天然鸿沟。在构建过程中，团队遭遇了数据归一化与编码一致性的难题，例如V2版本需将坐标编码为特殊标记，而V4版本则需在程序中统一归一化处理以避免偏移。此外，V5版本尝试将边界框表示为‘靠近中心’与‘远离中心’的相对描述，进一步引入了模糊性处理的挑战。不同版本间的迭代也暴露了数据格式不统一、版本管理复杂等问题，使得稳定且可复现的实验基线难以快速确立。

常用场景

经典使用场景

在三维场景理解领域，hmxiong/ScanNet-Detection-Instruction数据集被广泛用于训练大语言模型（LLM）以直接回归三维边界框（bbox）的坐标参数。其经典使用场景是将场景中所有目标物体的空间位置信息编码为序列化指令，模型需根据输入的自然语言描述或类别提示，精准输出对应物体的三维包围框。这种端到端的回归范式，摒弃了传统两阶段检测中区域提议与分类的割裂流程，为三维视觉-语言联合推理提供了高效的数据支撑。

衍生相关工作

基于该数据集衍生出的经典工作包括：将bbox编码为特殊token的V2/V3系列，其引入的类别-令牌映射机制启发了后续的“视觉提示微调”范式；V5版本提出的远近相对位置描述，则催生了空间关系推理的基准任务。此外，融合局部引导（local guidance）的V4版本，为三维检测中噪声抑制与精度提升提供了新思路，相关方法已被应用于ScanNet等主流数据集的评估协议中。

数据集最近研究