Beacon3D

github2025-05-08 更新2025-05-10 收录

下载链接：

https://github.com/beacon-3d/beacon-3d

下载链接

链接失效反馈

官方服务：

资源简介：

Beacon3D是一个新颖的3D视觉语言（3D-VL）模型基准测试和评估协议，涵盖了3D grounding和question answering（QA）任务，具有对象中心评估框架和用于研究任务一致性的链分析。

Beacon3D is a novel benchmark and evaluation protocol for 3D vision-language (3D-VL) models. It covers 3D grounding and question answering (QA) tasks, and features an object-centric evaluation framework alongside chain analysis for investigating task consistency.

创建时间：

2025-05-03

原始信息汇总

Beacon3D数据集概述

数据集简介

名称：Beacon3D
类型：3D视觉-语言理解基准测试
主要任务：3D grounding（基础定位）和question answering（问答）
特点：
- 对象中心评估框架
- 任务连贯性的链式分析

数据集内容

测试数据：位于data/{domain}目录下，包含以下领域：
- scannet
- 3rscan（即将发布）
- multiscan（即将发布）
元数据：记录每个对象的grounding chains和grounding-QA chains

数据格式处理

转换脚本：
- grounding_to_scanrefer_format.py：将元数据转换为ScanRefer格式（用于grounding）
- qa_to_scanqa_format.py：将元数据转换为ScanQA格式（用于QA）
输出文件：转换后的json文件（不带metadata前缀）

评估方法

评估脚本：
- evaluate_grounding.py：评估grounding任务
- evaluate_qa.py：评估QA任务
评估前准备：
- 实现extract_pred函数处理模型原始推理结果
- 设置OpenAI API密钥（用于QA评估）
链式分析：需提供处理后的grounding结果路径

排行榜

ScanNet: QA

模型	Class	App.	Geo.	Spa.	Exi.	Overall (Case)	Overall (Obj.)
SceneVerse	26.4	40.4	40.0	35.0	54.1	40.5	4.7
LEO	16.4	39.8	47.6	52.8	54.3	45.2	7.5

ScanNet: Grounding

模型	Class	App.	Geo.	Spa.	Overall (Case)	Overall (Obj.)
SceneVerse	73.4	65.3	61.6	73.0	73.4	51.4

即将发布

3RScan
MultiScan

引用

bibtex @inproceedings{huang2025unveiling, title={Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis}, author={Huang, Jiangyong and Jia, Baoxiong and Wang, Yan and Zhu, Ziyu and Linghu, Xiongkun and Li, Qing and Zhu, Song-Chun and Huang, Siyuan}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2025} }

搜集汇总

数据集介绍

构建方式

Beacon3D数据集作为三维视觉语言理解领域的前沿基准，其构建过程体现了严谨的学术规范。研究团队采用对象中心化评估框架，通过精心设计的元数据系统记录每个对象的定位链和问答链关系。数据源涵盖ScanNet、3RScan和MultiScan等多模态三维场景数据集，并提供了标准化的格式转换脚本，将原始元数据转换为ScanRefer（用于定位任务）和ScanQA（用于问答任务）兼容格式，确保与现有评估体系的兼容性。

特点

该数据集最显著的特征在于其创新的链式分析评估体系，能够深度解析三维视觉语言模型的任务连贯性。数据集细分为定位和问答两大任务模块，其中问答任务进一步区分为分类、外观、几何、空间和存在性五个维度进行多角度评估。特别设计的元数据结构不仅包含基础标注信息，还完整保留了对象间的语义关联链条，为研究三维场景理解中的认知推理过程提供了独特视角。评估指标采用案例级和对象级双重标准，确保评估结果的全面性和可靠性。

使用方法

使用者可通过GitHub仓库快速获取数据集和评估工具链。数据集按领域分类存储于data目录下，包含原始元数据及预处理后的标准格式文件。评估流程需先实现模型推理结果的提取函数，通过提供的评估脚本分别进行定位任务和问答任务的性能测试。对于需要分析定位-问答链式关系的场景，评估系统支持联合输入定位结果进行综合评估。整个评估过程支持与OpenAI API的集成，并输出包含多维度指标的详细分析报告，便于研究者全面掌握模型性能表现。

背景与挑战

背景概述

Beacon3D数据集由北京大学、加州大学洛杉矶分校等机构的科研团队于CVPR 2025会议上正式发布，标志着三维视觉-语言理解领域的重要突破。该数据集聚焦于三维场景中的物体中心化评估，通过创新的链式分析方法，系统性地解决了三维视觉-语言模型在物体定位与问答任务中的性能评测问题。其核心价值在于建立了首个融合三维空间关系、几何属性与语义推理的多模态评估框架，为三维场景理解、机器人交互等应用提供了标准化测评基准。

当前挑战

在领域问题层面，三维视觉-语言理解面临多模态对齐的固有难题：三维点云的稀疏性与语言描述的稠密语义之间存在表征鸿沟，物体空间关系的动态变化增加了跨模态推理的复杂度。数据集构建过程中，研究团队需攻克三维场景标注的精确性挑战，包括多视角物体实例的语义一致性标注、复杂空间关系的逻辑链条构建等关键技术。此外，评估协议设计需平衡任务难度与模型泛化能力，这对链式分析中的因果推理验证提出了极高要求。

常用场景

经典使用场景

Beacon3D数据集在3D视觉-语言理解领域具有广泛的应用价值，尤其在对象中心评估和任务连贯性分析方面表现突出。该数据集通过整合3D基础任务和问答任务，为研究者提供了一个全面的评估框架。其经典使用场景包括对3D场景中对象的精准定位和语义理解，以及通过链式分析探究任务间的逻辑关联。

解决学术问题

Beacon3D数据集解决了3D视觉-语言模型评估中的关键问题，包括对象中心化评估的缺失和任务连贯性分析的不足。通过引入链式分析框架，该数据集为研究者提供了更细致的性能评估工具，推动了3D视觉-语言理解领域的标准化进程。其意义在于为多模态模型的性能评估提供了新的方法论，促进了该领域的学术进步。

衍生相关工作

Beacon3D数据集已经催生了一系列相关研究工作，包括SceneVerse和LEO等模型的性能评估与改进。这些工作利用该数据集的评估框架，进一步优化了3D视觉-语言模型在对象定位和语义理解方面的表现。同时，该数据集也为后续研究提供了标准化的评估基准，推动了该领域的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集