Beacon3D
收藏github2025-05-08 更新2025-05-10 收录
下载链接:
https://github.com/beacon-3d/beacon-3d
下载链接
链接失效反馈官方服务:
资源简介:
Beacon3D是一个新颖的3D视觉语言(3D-VL)模型基准测试和评估协议,涵盖了3D grounding和question answering(QA)任务,具有对象中心评估框架和用于研究任务一致性的链分析。
Beacon3D is a novel benchmark and evaluation protocol for 3D vision-language (3D-VL) models. It covers 3D grounding and question answering (QA) tasks, and features an object-centric evaluation framework alongside chain analysis for investigating task consistency.
创建时间:
2025-05-03
原始信息汇总
Beacon3D数据集概述
数据集简介
- 名称:Beacon3D
- 类型:3D视觉-语言理解基准测试
- 主要任务:3D grounding(基础定位)和question answering(问答)
- 特点:
- 对象中心评估框架
- 任务连贯性的链式分析
数据集内容
- 测试数据:位于
data/{domain}目录下,包含以下领域:- scannet
- 3rscan(即将发布)
- multiscan(即将发布)
- 元数据:记录每个对象的grounding chains和grounding-QA chains
数据格式处理
- 转换脚本:
grounding_to_scanrefer_format.py:将元数据转换为ScanRefer格式(用于grounding)qa_to_scanqa_format.py:将元数据转换为ScanQA格式(用于QA)
- 输出文件:转换后的json文件(不带
metadata前缀)
评估方法
- 评估脚本:
evaluate_grounding.py:评估grounding任务evaluate_qa.py:评估QA任务
- 评估前准备:
- 实现
extract_pred函数处理模型原始推理结果 - 设置OpenAI API密钥(用于QA评估)
- 实现
- 链式分析:需提供处理后的grounding结果路径
排行榜
ScanNet: QA
| 模型 | Class | App. | Geo. | Spa. | Exi. | Overall (Case) | Overall (Obj.) |
|---|---|---|---|---|---|---|---|
| SceneVerse | 26.4 | 40.4 | 40.0 | 35.0 | 54.1 | 40.5 | 4.7 |
| LEO | 16.4 | 39.8 | 47.6 | 52.8 | 54.3 | 45.2 | 7.5 |
ScanNet: Grounding
| 模型 | Class | App. | Geo. | Spa. | Overall (Case) | Overall (Obj.) |
|---|---|---|---|---|---|---|
| SceneVerse | 73.4 | 65.3 | 61.6 | 73.0 | 73.4 | 51.4 |
即将发布
- 3RScan
- MultiScan
引用
bibtex @inproceedings{huang2025unveiling, title={Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis}, author={Huang, Jiangyong and Jia, Baoxiong and Wang, Yan and Zhu, Ziyu and Linghu, Xiongkun and Li, Qing and Zhu, Song-Chun and Huang, Siyuan}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2025} }
搜集汇总
数据集介绍

构建方式
Beacon3D数据集作为三维视觉语言理解领域的前沿基准,其构建过程体现了严谨的学术规范。研究团队采用对象中心化评估框架,通过精心设计的元数据系统记录每个对象的定位链和问答链关系。数据源涵盖ScanNet、3RScan和MultiScan等多模态三维场景数据集,并提供了标准化的格式转换脚本,将原始元数据转换为ScanRefer(用于定位任务)和ScanQA(用于问答任务)兼容格式,确保与现有评估体系的兼容性。
特点
该数据集最显著的特征在于其创新的链式分析评估体系,能够深度解析三维视觉语言模型的任务连贯性。数据集细分为定位和问答两大任务模块,其中问答任务进一步区分为分类、外观、几何、空间和存在性五个维度进行多角度评估。特别设计的元数据结构不仅包含基础标注信息,还完整保留了对象间的语义关联链条,为研究三维场景理解中的认知推理过程提供了独特视角。评估指标采用案例级和对象级双重标准,确保评估结果的全面性和可靠性。
使用方法
使用者可通过GitHub仓库快速获取数据集和评估工具链。数据集按领域分类存储于data目录下,包含原始元数据及预处理后的标准格式文件。评估流程需先实现模型推理结果的提取函数,通过提供的评估脚本分别进行定位任务和问答任务的性能测试。对于需要分析定位-问答链式关系的场景,评估系统支持联合输入定位结果进行综合评估。整个评估过程支持与OpenAI API的集成,并输出包含多维度指标的详细分析报告,便于研究者全面掌握模型性能表现。
背景与挑战
背景概述
Beacon3D数据集由北京大学、加州大学洛杉矶分校等机构的科研团队于CVPR 2025会议上正式发布,标志着三维视觉-语言理解领域的重要突破。该数据集聚焦于三维场景中的物体中心化评估,通过创新的链式分析方法,系统性地解决了三维视觉-语言模型在物体定位与问答任务中的性能评测问题。其核心价值在于建立了首个融合三维空间关系、几何属性与语义推理的多模态评估框架,为三维场景理解、机器人交互等应用提供了标准化测评基准。
当前挑战
在领域问题层面,三维视觉-语言理解面临多模态对齐的固有难题:三维点云的稀疏性与语言描述的稠密语义之间存在表征鸿沟,物体空间关系的动态变化增加了跨模态推理的复杂度。数据集构建过程中,研究团队需攻克三维场景标注的精确性挑战,包括多视角物体实例的语义一致性标注、复杂空间关系的逻辑链条构建等关键技术。此外,评估协议设计需平衡任务难度与模型泛化能力,这对链式分析中的因果推理验证提出了极高要求。
常用场景
经典使用场景
Beacon3D数据集在3D视觉-语言理解领域具有广泛的应用价值,尤其在对象中心评估和任务连贯性分析方面表现突出。该数据集通过整合3D基础任务和问答任务,为研究者提供了一个全面的评估框架。其经典使用场景包括对3D场景中对象的精准定位和语义理解,以及通过链式分析探究任务间的逻辑关联。
解决学术问题
Beacon3D数据集解决了3D视觉-语言模型评估中的关键问题,包括对象中心化评估的缺失和任务连贯性分析的不足。通过引入链式分析框架,该数据集为研究者提供了更细致的性能评估工具,推动了3D视觉-语言理解领域的标准化进程。其意义在于为多模态模型的性能评估提供了新的方法论,促进了该领域的学术进步。
衍生相关工作
Beacon3D数据集已经催生了一系列相关研究工作,包括SceneVerse和LEO等模型的性能评估与改进。这些工作利用该数据集的评估框架,进一步优化了3D视觉-语言模型在对象定位和语义理解方面的表现。同时,该数据集也为后续研究提供了标准化的评估基准,推动了该领域的持续发展。
以上内容由遇见数据集搜集并总结生成



