five

MMScan|3D视觉数据集|多模态数据数据集

收藏
github2024-10-24 更新2024-10-25 收录
3D视觉
多模态数据
下载链接:
https://github.com/rbler1234/MMScan
下载链接
链接失效反馈
资源简介:
MMScan是一个多模态3D场景数据集,包含层次化的接地语言注释。它基于自上而下的逻辑构建,从区域到对象级别,从单一目标到目标间关系,涵盖了空间和属性理解的各个方面。数据集包含1.4M个元注释的描述,涉及109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉接地和问答基准测试。
创建时间:
2024-10-24
原始信息汇总

MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

概述

MMScan是一个多模态3D场景数据集,具有分层接地语言注释。该数据集基于自上而下的逻辑构建,从区域到对象级别,从单个目标到目标间关系,涵盖了空间和属性理解的各个方面。数据集包含1.4M个元注释的描述,涉及109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉接地和问答基准测试。

数据集特点

  • 多模态3D场景:结合了3D扫描数据和语言注释。
  • 分层接地语言注释:从区域到对象级别,涵盖空间和属性理解。
  • 大规模数据:包含1.4M个描述,涉及109k个对象和7.7k个区域。
  • 多样化的样本:超过3.04M个样本用于3D视觉接地和问答基准测试。

数据准备

  1. 下载Embodiedscan和MMScan注释数据。
  2. 解压文件并放置在MMScan_data/目录下。
  3. 准备点云文件,参考指南

数据加载与评估

数据加载

  • 使用MMScan DataLoader工具获取模型所需数据。
  • 支持通过__get_item__访问数据,每个条目包含3D、语言和2D模态信息。

评估工具

  • 视觉接地评估:计算AP、AR、multi-topk等指标。
  • 问答评估:计算Bleu-X、Metor、CiDer、Spice、Simcse、Sbert、EM、Refine EM等指标。

未来计划

  • 提供更便捷的安装和调用方式。
  • 更新视觉接地和描述基准。
  • 完整发布和进一步更新。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MMScan数据集的构建基于一种自上而下的逻辑,从区域到对象级别,从单一目标到目标间的关系,涵盖了空间和属性理解的全面方面。该数据集利用强大的视觉语言模型(VLMs)通过精心设计的提示进行初始化,并结合人工校正以确保标注的自然性、正确性和全面性。基于现有的3D扫描数据,MMScan数据集包含了1.4M个元标注的描述,覆盖了109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉定位和问答基准测试。
特点
MMScan数据集的主要特点在于其多模态的3D场景数据,结合了层次化的接地语言标注,使得数据集在理解和描述3D场景中的对象及其关系方面具有高度的复杂性和准确性。此外,数据集还包含了大量的视觉和语言模态信息,支持多种任务如视觉定位、问答和语言生成等。其多样化的样本和详细的标注使其成为研究多模态3D感知和语言模型的理想资源。
使用方法
使用MMScan数据集,首先需要克隆GitHub仓库并安装相关依赖。接着,用户需下载并解压数据集文件,并按照指南准备点云文件。数据集API提供了便捷的接口,用户可以通过导入MMScan API来获取所需的数据,并使用内置的评估工具对模型输出进行评估。具体使用方法包括加载数据集、访问数据项以及利用评估器计算模型性能指标,如AP、AR等。
背景与挑战
背景概述
随着大型语言模型(LLMs)与其他数据模态的整合,多模态3D感知因其与物理世界的连接而受到越来越多的关注,并取得了显著进展。然而,现有数据集的局限性使得先前的研究主要集中在理解3D场景中的对象属性或对象间空间关系上。为了解决这一问题,本研究构建了首个最大规模的多模态3D场景数据集MMScan,该数据集具有层次化的接地语言注释。MMScan基于自上而下的逻辑构建,从区域到对象级别,从单一目标到目标间关系,涵盖了空间和属性理解的全面方面。通过精心设计的提示,结合强大的视觉语言模型(VLMs)进行初始注释,并进一步引入人工校正,确保注释的自然性、正确性和全面性。该数据集基于现有的3D扫描数据,包含了1.4M个元注释的描述,涉及109k个对象和7.7k个区域,以及超过3.04M个多样化的样本用于3D视觉接地和问答基准测试。
当前挑战
MMScan数据集在构建过程中面临多项挑战。首先,如何高效地整合多模态数据,包括3D点云、语言描述和2D图像,是一个复杂的技术难题。其次,层次化接地语言注释的生成需要精确的算法和人工校正,以确保注释的准确性和自然性。此外,数据集的规模和多样性要求高效的存储和处理技术,以支持大规模的模型训练和评估。最后,如何设计有效的评估基准和指标,以全面衡量模型在多模态3D场景理解中的表现,也是一个重要的研究方向。这些挑战不仅推动了数据集构建技术的发展,也为未来的多模态3D感知研究提供了丰富的资源和方向。
常用场景
经典使用场景
MMScan数据集在多模态3D场景理解领域中具有经典应用,主要用于视觉定位(Visual Grounding)和问答(Question Answering)任务。通过结合3D点云、语言和2D图像数据,该数据集能够训练模型理解复杂的三维空间关系和对象属性,从而实现精确的视觉定位和智能问答系统。
实际应用
在实际应用中,MMScan数据集可用于增强机器人导航、智能家居和增强现实等领域的智能系统。通过精确的3D视觉定位和问答能力,这些系统能够更好地理解和响应用户需求,提升用户体验和操作效率。
衍生相关工作
基于MMScan数据集,研究者们开发了多种先进的3D视觉定位和问答模型,显著提升了现有基准测试的性能。此外,该数据集还激发了多模态学习领域的进一步研究,推动了跨模态信息融合和场景理解技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录