five

ScanAlign|3D场景理解数据集|视觉语言模型数据集

收藏
arXiv2025-01-03 更新2025-01-06 收录
3D场景理解
视觉语言模型
下载链接:
https://gpt4scene.github.io
下载链接
链接失效反馈
资源简介:
ScanAlign数据集由上海人工智能实验室和香港大学的研究团队创建,旨在通过视频帧、BEV图像和文本注释来增强视觉语言模型对3D场景的理解。该数据集包含165,000条文本注释,数据来源于室内场景的视频输入,并通过3D重建技术生成BEV图像。数据集的创建过程包括从视频中提取帧、生成BEV图像,并在图像和视频帧中添加空间-时间对象标记(STO标记)。该数据集主要用于3D场景理解任务,如3D问答、密集描述和视觉定位,旨在解决视觉语言模型在3D空间理解中的局限性问题。
提供机构:
香港大学, 上海人工智能实验室
创建时间:
2025-01-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
ScanAlign数据集的构建基于ScanNet数据集,通过从视频中提取帧并生成鸟瞰图(BEV)图像,结合空间-时间对象标记(STO标记)和文本注释。首先,从视频中均匀采样帧,并通过3D重建技术生成点云和BEV图像。接着,使用3D实例分割技术对点云进行分割,并将分割结果投影到视频帧和BEV图像上,形成STO标记。最后,结合视频帧、BEV图像和STO标记,生成包含165K文本注释的数据集。
特点
ScanAlign数据集的特点在于其多模态输入,包括视频帧、BEV图像和STO标记,能够提供全局和局部的空间信息。STO标记确保了视频帧与BEV图像之间的空间和时间一致性,帮助模型更好地理解3D场景中的对象关系。此外,数据集的文本注释多样化,涵盖了3D问答、密集描述和视觉定位等任务,为模型提供了丰富的训练数据。
使用方法
ScanAlign数据集主要用于训练和微调视觉语言模型(VLMs),以提升其在3D场景理解任务中的表现。在训练过程中,模型输入包括视频帧、BEV图像和STO标记,输出为文本注释。在推理阶段,模型可以根据视频帧和BEV图像进行3D问答、密集描述和视觉定位等任务。通过微调,模型能够在仅输入原始视频帧的情况下,依然表现出色,展示了其内在的3D场景理解能力。
背景与挑战
背景概述
ScanAlign数据集由香港大学和上海人工智能实验室的研究团队于2025年提出,旨在通过纯视觉输入增强视觉-语言模型(VLMs)对三维场景的理解能力。该数据集的核心研究问题是如何通过视频输入实现三维场景的全局-局部关系建模,从而提升模型在三维问答、密集描述和视觉定位等任务中的表现。ScanAlign的构建基于ScanNet数据集,包含165K条文本注释,结合了视频帧、鸟瞰图(BEV)和时空对象标记(STO markers),为三维场景理解提供了丰富的多模态数据支持。该数据集的提出对推动具身智能和三维视觉-语言模型的发展具有重要意义。
当前挑战
ScanAlign数据集面临的挑战主要包括两个方面。首先,在领域问题方面,现有的视觉-语言模型在三维空间理解上存在局限性,尤其是在全局-局部信息对齐和三维空间关系的建模上表现不足。ScanAlign通过引入BEV图像和STO标记来解决这一问题,但仍需克服模型在复杂场景中的泛化能力不足的挑战。其次,在数据集构建过程中,如何从视频中准确地重建三维场景并生成BEV图像,以及如何确保STO标记在时空上的一致性,都是技术上的难点。此外,数据集的多样性和标注质量也对模型的训练效果产生了直接影响。
常用场景
经典使用场景
ScanAlign数据集在3D场景理解任务中具有广泛的应用,尤其是在基于视觉语言模型(VLMs)的3D问答、密集描述和视觉定位任务中表现突出。通过结合视频帧、鸟瞰图(BEV)和空间-时间对象标记(STO标记),ScanAlign能够帮助模型更好地理解室内场景的全局布局和局部细节。该数据集的使用场景主要集中在智能家居、工业检测和机器人导航等领域,为模型提供了丰富的视觉和文本标注数据,使其能够在复杂的3D环境中进行精确的推理和交互。
解决学术问题
ScanAlign数据集解决了3D场景理解中的多个关键学术问题。首先,它通过提供全局的BEV图像和局部的视频帧,弥补了传统视觉语言模型在全局-局部信息对齐上的不足。其次,STO标记的使用使得模型能够在时空维度上保持对象的一致性,从而提升了3D问答、密集描述和视觉定位任务的准确性。此外,ScanAlign还通过大规模的文本标注数据,显著提升了模型在3D场景理解任务中的泛化能力,为未来的3D视觉语言研究提供了坚实的基础。
衍生相关工作
ScanAlign数据集衍生了许多经典的研究工作。例如,基于该数据集的GPT4Scene框架在3D视觉语言任务中取得了显著的进展,尤其是在3D问答和密集描述任务中表现优异。此外,ScanAlign还推动了3D点云语言模型(3D Point LLMs)的发展,如Chat-Scene和Robin3D等模型,这些模型通过结合ScanAlign的标注数据,进一步提升了3D场景理解的性能。ScanAlign的出现也为未来的3D视觉语言研究提供了新的方向,推动了该领域的快速发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录