OpenLex3D

Name: OpenLex3D
Creator: 牛津大学, 蒙特利尔大学, 弗莱堡大学, Mila - 魁北克人工智能研究所, 加拿大 CIFAR 人工智能主席团
Published: 2025-03-25 23:28:50
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://openlex3d.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

OpenLex3D是一个专为评估3D开放词汇场景表示的新基准。该数据集由Replica、ScanNet++和HM3D三个数据集中的23个场景构成，提供了全新的标签注释，捕捉了现实世界中的语言变异性，引入了同义词物体类别和额外的细微描述。数据集通过引入开放集3D语义分割任务和基于文本查询的对象检索任务，来评估特征精度、分割效果和下游能力。

OpenLex3D is a novel benchmark specifically designed for evaluating 3D open-vocabulary scene representations. It consists of 23 scenes curated from three existing datasets: Replica, ScanNet++, and HM3D. The dataset provides newly developed label annotations that capture real-world linguistic variability, introducing synonymous object categories and additional fine-grained descriptive details. To evaluate feature accuracy, segmentation performance and downstream capabilities, the benchmark incorporates two tasks: open-set 3D semantic segmentation and text-query-based object retrieval.

提供机构：

牛津大学, 蒙特利尔大学, 弗莱堡大学, Mila - 魁北克人工智能研究所, 加拿大 CIFAR 人工智能主席团

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

OpenLex3D数据集通过重新标注来自Replica、ScanNet++和HM3D的23个室内场景构建而成，采用四名人类标注者对每个对象进行多轮标注，确保标签的多样性和准确性。标注过程利用segments.ai平台，结合Segment Anything (SAM)生成的掩码，为标注者提供清晰的视觉指引。标注类别包括同义词、描绘、视觉相似和杂波四类，以全面覆盖对象的语言描述变体。

特点

OpenLex3D数据集的核心特点在于其开放的词汇语义标注体系，每个对象平均包含11个标签，涵盖同义词、视觉相似描述及上下文关联的杂波标注。数据集通过分层标签类别（如将‘沙发’与‘长沙发’归为同义词，将印有图案的枕头标注为‘树’等）量化模型在语义描述上的精确度与错误模式。其标注结果经过拼写校正和类别冲突消解，支持对开放词汇3D场景理解的细粒度评估。

使用方法

该数据集支持两项核心任务：开放集3D语义分割和基于文本查询的对象检索。语义分割任务通过Top-N IoU和集合排序（Set Ranking）指标，评估模型预测标签与四类标注的匹配程度；对象检索任务则生成数百个场景相关的自然语言查询（如‘波点被套’或‘耐克运动鞋’），以平均精度（AP）衡量模型在复杂语言表达下的实例分割能力。评估工具包公开提供，支持主流开放词汇3D表示方法的标准化测试。

背景与挑战

背景概述

OpenLex3D是由牛津大学、蒙特利尔大学、弗莱堡大学等机构的研究团队于2025年推出的开放词汇3D场景理解评估基准。该数据集针对23个来自Replica、ScanNet++和HM3D的场景进行了全新标注，通过引入同义词对象类别和细粒度描述，捕捉真实世界中的语言多样性。作为首个专门评估3D开放词汇场景表示的数据集，OpenLex3D设计了基于四类描述准确度（同义词、描绘、视觉相似和杂波）的评估框架，推动了大语言模型时代下的三维场景理解研究。

当前挑战

OpenLex3D主要解决开放词汇3D语义分割中的评估标准缺失问题。核心挑战包括：1) 传统封闭词汇评估无法处理语言的多义性和同义性（如'sofa'与'couch'的等价性）；2) 真实场景中物体描述的层级性（如'印有花朵图案的枕头'需要同时评估'花朵'和'枕头'标签）。在构建过程中，研究团队面临多标注者一致性控制、跨场景语言多样性建模，以及如何处理视觉相似但语义不同的物体（如'眼镜'与'太阳镜'）等挑战。此外，基于点云的特征融合策略对开放词汇预测质量的影响也是重要研究难点。

常用场景

经典使用场景

OpenLex3D作为开放词汇3D场景理解的评估基准，其经典使用场景主要集中在开放集语义分割和对象检索任务上。通过提供多层次的语义标签，该数据集能够评估3D场景表示方法在捕捉真实世界语言多样性方面的能力。在语义分割任务中，OpenLex3D通过引入同义词、描绘、视觉相似和杂波等标签类别，为模型提供了更细致的评估标准。而在对象检索任务中，数据集通过生成数百个查询，覆盖场景中的所有对象，进一步验证了模型在实际应用中的表现。

解决学术问题

OpenLex3D解决了开放词汇3D场景理解中的多个关键学术问题。首先，它突破了传统封闭词汇评估的限制，通过引入多层次的语义标签，能够更全面地评估模型的开放词汇能力。其次，数据集提供了一种新的评估方法，能够量化模型在特征精度、分割能力和下游任务表现上的性能。此外，OpenLex3D还揭示了现有方法在特征融合和分割策略上的不足，为未来的研究提供了改进方向。

衍生相关工作

OpenLex3D的推出催生了一系列相关研究工作。例如，ConceptGraphs和HOV-SG等对象中心表示方法通过利用OpenLex3D的标签体系，进一步优化了其开放词汇能力。此外，密集表示方法如OpenScene和ConceptFusion也通过该数据集验证了其在点级特征提取上的性能。这些衍生工作不仅在理论上推动了开放词汇3D场景理解的发展，也在实际应用中展现了巨大的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集