ScanNet|计算机视觉数据集|3D语义分割数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

计算机视觉

3D语义分割

下载链接：

https://opendatalab.org.cn/OpenDataLab/ScanNet

下载链接

链接失效反馈

资源简介：

ScanNet 是一个包含 2D 和 3D 数据的实例级室内 RGB-D 数据集。它是标记体素的集合，而不是点或对象。截至目前，ScanNet v2 是 ScanNet 的最新版本，已经收集了 1513 个带注释的扫描，表面覆盖率约为 90%。在语义分割任务中，该数据集被标记为 20 类带注释的 3D 体素化对象。

提供机构：

OpenDataLab

创建时间：

2022-09-01

AI搜集汇总

数据集介绍

构建方式

ScanNet数据集的构建基于深度传感器和RGB-D相机，通过在室内环境中进行密集的3D扫描来获取数据。研究团队在多个室内场景中进行了广泛的扫描，包括办公室、住宅和公共空间，以确保数据的多样性和代表性。这些扫描数据经过精细的预处理，包括点云配准、语义分割和实例分割，最终形成了包含丰富几何和语义信息的3D模型。

特点

ScanNet数据集以其高精度的3D重建和丰富的语义标注而著称。该数据集不仅提供了详细的3D几何信息，还包含了物体级别的语义标签，使得其在计算机视觉和机器人学领域具有广泛的应用价值。此外，ScanNet还支持多种任务，如场景理解、物体识别和姿态估计，为研究人员提供了多维度的研究平台。

使用方法

ScanNet数据集适用于多种计算机视觉任务，包括但不限于3D场景重建、语义分割和物体检测。研究人员可以通过下载数据集并使用提供的API进行数据访问和处理。常见的使用方法包括加载3D点云数据进行模型训练，利用语义标签进行监督学习，以及通过实例分割数据进行物体识别和姿态估计。此外，ScanNet还支持与其他深度学习框架的集成，便于研究人员进行定制化的实验和应用开发。

背景与挑战

背景概述

ScanNet数据集由美国麻省理工学院（MIT）的计算机科学与人工智能实验室（CSAIL）于2017年推出，旨在推动三维场景理解的研究。该数据集包含了超过1500个室内场景的密集三维扫描，涵盖了多种室内环境，如办公室、客厅和厨房。ScanNet的发布极大地促进了计算机视觉和机器人技术领域的发展，为研究人员提供了丰富的三维数据资源，从而推动了三维物体识别、场景分割和语义理解等关键技术的进步。

当前挑战

ScanNet数据集在构建过程中面临了多项挑战。首先，三维数据的获取和处理需要高精度的扫描设备和复杂的算法，以确保数据的准确性和完整性。其次，室内环境的多样性和复杂性使得数据标注变得尤为困难，需要大量的人力和时间进行手动标注。此外，数据集的规模庞大，如何高效地存储和处理这些数据也是一个重要的技术难题。最后，三维场景理解的算法复杂度高，需要不断优化和改进，以适应不同场景和应用需求。

发展历史

创建时间与更新

ScanNet数据集由Angela Dai等人于2017年创建，旨在为3D场景理解提供丰富的多视图RGB-D扫描数据。该数据集自创建以来，经历了多次更新，以不断扩充和优化其内容，确保其与最新的研究需求保持同步。

重要里程碑

ScanNet数据集的一个重要里程碑是其在2017年CVPR会议上首次公开发布，这一发布标志着3D计算机视觉领域的一个重要转折点。随后，ScanNet在2018年进行了首次大规模更新，增加了更多的室内场景和详细的语义标注，极大地丰富了数据集的多样性和实用性。此外，2020年的更新引入了更高质量的3D重建和更精细的物体分割，进一步提升了数据集在深度学习模型训练中的应用价值。

当前发展情况

当前，ScanNet数据集已成为3D场景理解和室内环境建模领域的标杆资源。其丰富的多视图RGB-D数据和详细的语义标注，为研究人员提供了宝贵的训练和测试数据，推动了从物体识别到场景理解的多种应用。ScanNet的持续更新和扩展，确保了其在不断发展的计算机视觉研究中的前沿地位，为新一代算法的开发和验证提供了坚实的基础。

发展历程

ScanNet数据集首次发表，由Angela Dai等人在CVPR会议上提出，旨在为室内场景提供高质量的三维重建数据。
2017年
ScanNet数据集首次应用于三维语义分割任务，显著提升了相关算法在室内场景中的表现。
2018年
ScanNet数据集被广泛用于多个计算机视觉研究项目，包括物体检测、场景理解等，成为室内场景研究的重要基准。
2019年
ScanNet数据集的扩展版本发布，增加了更多的场景和物体类别，进一步丰富了数据集的内容和多样性。
2020年
ScanNet数据集在多个国际竞赛中被用作基准数据集，推动了三维计算机视觉领域的技术进步。
2021年

常用场景

经典使用场景

在计算机视觉领域，ScanNet数据集以其丰富的三维室内场景数据而著称。该数据集广泛应用于三维物体识别、场景理解以及语义分割等经典任务。通过提供高精度的三维点云和相应的二维图像，ScanNet为研究人员提供了一个全面的实验平台，以探索和验证各种三维视觉算法。

实际应用

ScanNet数据集的实际应用场景广泛，涵盖了从智能家居到增强现实等多个领域。例如，在智能家居系统中，ScanNet提供的数据和算法可以用于自动识别和定位家具，从而实现更智能的空间管理和交互。在增强现实应用中，ScanNet的高精度三维数据为虚拟对象的精确放置和交互提供了基础。

衍生相关工作

ScanNet数据集的发布催生了大量相关研究工作。许多研究者基于ScanNet数据集开发了新的三维物体识别和场景理解算法，这些算法在多个国际竞赛中取得了优异成绩。此外，ScanNet还激发了对三维数据处理和分析方法的研究，推动了三维视觉领域的技术进步和应用扩展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

hoskinson-center/proof-pile

`proof-pile`是一个13GB的数学文本预训练数据集，包含83亿个标记（使用`gpt-neox`分词器）。该数据集由多种非正式和正式数学文本来源组成，包括ArXiv.math（10GB）、开源数学教科书（50MB）、形式数学库（500MB）、Math Overflow和Math Stack Exchange（2.5GB）、Wiki风格来源（50MB）以及MATH数据集（6MB）。数据集构建过程可复现，并提供了详细的预处理步骤和过滤条件。

hugging_face 收录

ct-scans-of-brain

这是一个包含超过70,000个研究案例的脑部CT扫描数据集，旨在帮助研究人员在医学成像领域进行研究，特别是针对大脑病损的检测和分析，包括脑肿瘤、脑出血和脑癌等五种病损类型。数据集包含有协议和无协议的研究案例，适用于计算机视觉任务。

huggingface 收录

Global Flood Database (GFD)

全球洪水数据库（GFD）是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息，包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。

global-flood-database.cloudtostreet.info 收录

HotpotQA

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A 和属性 B？）和比较问题，其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中，QA 模型有 10 个段落，保证能找到黄金段落；在开放域全维基设置中，模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估，其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠，后者关注预测的支持事实句子与人类注释的匹配程度（Supporting Fact EM/F1)。该数据集还报告了一个联合指标，它鼓励系统同时在两项任务上表现良好。来源：通过迭代查询生成回答复杂的开放域问题

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录