five

MMScan|3D视觉数据集|多模态数据数据集

收藏
github2024-10-24 更新2024-10-25 收录
3D视觉
多模态数据
下载链接:
https://github.com/rbler1234/MMScan
下载链接
链接失效反馈
资源简介:
MMScan是一个多模态3D场景数据集,包含层次化的接地语言注释。它基于自上而下的逻辑构建,从区域到对象级别,从单一目标到目标间关系,涵盖了空间和属性理解的各个方面。数据集包含1.4M个元注释的描述,涉及109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉接地和问答基准测试。
创建时间:
2024-10-24
原始信息汇总

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

概述

MMScan是一个多模态3D场景数据集,具有分层接地语言注释。该数据集基于自上而下的逻辑构建,从区域到对象级别,从单个目标到目标间关系,涵盖了空间和属性理解的各个方面。数据集包含1.4M个元注释的描述,涉及109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉接地和问答基准测试。

数据集特点

  • 多模态3D场景:结合了3D扫描数据和语言注释。
  • 分层接地语言注释:从区域到对象级别,涵盖空间和属性理解。
  • 大规模数据:包含1.4M个描述,涉及109k个对象和7.7k个区域。
  • 多样化的样本:超过3.04M个样本用于3D视觉接地和问答基准测试。

数据准备

  1. 下载Embodiedscan和MMScan注释数据。
  2. 解压文件并放置在MMScan_data/目录下。
  3. 准备点云文件,参考指南

数据加载与评估

数据加载

  • 使用MMScan DataLoader工具获取模型所需数据。
  • 支持通过__get_item__访问数据,每个条目包含3D、语言和2D模态信息。

评估工具

  • 视觉接地评估:计算AP、AR、multi-topk等指标。
  • 问答评估:计算Bleu-X、Metor、CiDer、Spice、Simcse、Sbert、EM、Refine EM等指标。

未来计划

  • 提供更便捷的安装和调用方式。
  • 更新视觉接地和描述基准。
  • 完整发布和进一步更新。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMScan数据集的构建基于一种自上而下的逻辑,从区域到对象级别,从单一目标到目标间的关系,涵盖了空间和属性理解的全面方面。该数据集利用强大的视觉语言模型(VLMs)通过精心设计的提示进行初始化,并结合人工校正以确保标注的自然性、正确性和全面性。基于现有的3D扫描数据,MMScan数据集包含了1.4M个元标注的描述,覆盖了109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉定位和问答基准测试。
特点
MMScan数据集的主要特点在于其多模态的3D场景数据,结合了层次化的接地语言标注,使得数据集在理解和描述3D场景中的对象及其关系方面具有高度的复杂性和准确性。此外,数据集还包含了大量的视觉和语言模态信息,支持多种任务如视觉定位、问答和语言生成等。其多样化的样本和详细的标注使其成为研究多模态3D感知和语言模型的理想资源。
使用方法
使用MMScan数据集,首先需要克隆GitHub仓库并安装相关依赖。接着,用户需下载并解压数据集文件,并按照指南准备点云文件。数据集API提供了便捷的接口,用户可以通过导入MMScan API来获取所需的数据,并使用内置的评估工具对模型输出进行评估。具体使用方法包括加载数据集、访问数据项以及利用评估器计算模型性能指标,如AP、AR等。
背景与挑战
背景概述
随着大型语言模型(LLMs)与其他数据模态的整合,多模态3D感知因其与物理世界的连接而受到越来越多的关注,并取得了显著进展。然而,现有数据集的局限性使得先前的研究主要集中在理解3D场景中的对象属性或对象间空间关系上。为了解决这一问题,本研究构建了首个最大规模的多模态3D场景数据集MMScan,该数据集具有层次化的接地语言注释。MMScan基于自上而下的逻辑构建,从区域到对象级别,从单一目标到目标间关系,涵盖了空间和属性理解的全面方面。通过精心设计的提示,结合强大的视觉语言模型(VLMs)进行初始注释,并进一步引入人工校正,确保注释的自然性、正确性和全面性。该数据集基于现有的3D扫描数据,包含了1.4M个元注释的描述,涉及109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉接地和问答基准测试。
当前挑战
MMScan数据集在构建过程中面临多项挑战。首先,如何高效地整合多模态数据,包括3D点云、语言描述和2D图像,是一个复杂的技术难题。其次,层次化接地语言注释的生成需要精确的算法和人工校正,以确保注释的准确性和自然性。此外,数据集的规模和多样性要求高效的存储和处理技术,以支持大规模的模型训练和评估。最后,如何设计有效的评估基准和指标,以全面衡量模型在多模态3D场景理解中的表现,也是一个重要的研究方向。这些挑战不仅推动了数据集构建技术的发展,也为未来的多模态3D感知研究提供了丰富的资源和方向。
常用场景
经典使用场景
MMScan数据集在多模态3D场景理解领域中具有经典应用,主要用于视觉定位(Visual Grounding)和问答(Question Answering)任务。通过结合3D点云、语言和2D图像数据,该数据集能够训练模型理解复杂的三维空间关系和对象属性,从而实现精确的视觉定位和智能问答系统。
实际应用
在实际应用中,MMScan数据集可用于增强机器人导航、智能家居和增强现实等领域的智能系统。通过精确的3D视觉定位和问答能力,这些系统能够更好地理解和响应用户需求,提升用户体验和操作效率。
衍生相关工作
基于MMScan数据集,研究者们开发了多种先进的3D视觉定位和问答模型,显著提升了现有基准测试的性能。此外,该数据集还激发了多模态学习领域的进一步研究,推动了跨模态信息融合和场景理解技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题