five

Beacon3D

收藏
github2025-05-08 更新2025-05-10 收录
下载链接:
https://github.com/beacon-3d/beacon-3d
下载链接
链接失效反馈
官方服务:
资源简介:
Beacon3D是一个新颖的3D视觉语言(3D-VL)模型基准测试和评估协议,涵盖了3D grounding和question answering(QA)任务,具有对象中心评估框架和用于研究任务一致性的链分析。

Beacon3D is a novel benchmark and evaluation protocol for 3D vision-language (3D-VL) models. It covers 3D grounding and question answering (QA) tasks, and features an object-centric evaluation framework alongside chain analysis for investigating task consistency.
创建时间:
2025-05-03
原始信息汇总

Beacon3D数据集概述

数据集简介

  • 名称:Beacon3D
  • 类型:3D视觉-语言理解基准测试
  • 主要任务:3D grounding(基础定位)和question answering(问答)
  • 特点
    • 对象中心评估框架
    • 任务连贯性的链式分析

数据集内容

  • 测试数据:位于data/{domain}目录下,包含以下领域:
    • scannet
    • 3rscan(即将发布)
    • multiscan(即将发布)
  • 元数据:记录每个对象的grounding chains和grounding-QA chains

数据格式处理

  • 转换脚本
    • grounding_to_scanrefer_format.py:将元数据转换为ScanRefer格式(用于grounding)
    • qa_to_scanqa_format.py:将元数据转换为ScanQA格式(用于QA)
  • 输出文件:转换后的json文件(不带metadata前缀)

评估方法

  • 评估脚本
    • evaluate_grounding.py:评估grounding任务
    • evaluate_qa.py:评估QA任务
  • 评估前准备
    • 实现extract_pred函数处理模型原始推理结果
    • 设置OpenAI API密钥(用于QA评估)
  • 链式分析:需提供处理后的grounding结果路径

排行榜

ScanNet: QA

模型 Class App. Geo. Spa. Exi. Overall (Case) Overall (Obj.)
SceneVerse 26.4 40.4 40.0 35.0 54.1 40.5 4.7
LEO 16.4 39.8 47.6 52.8 54.3 45.2 7.5

ScanNet: Grounding

模型 Class App. Geo. Spa. Overall (Case) Overall (Obj.)
SceneVerse 73.4 65.3 61.6 73.0 73.4 51.4

即将发布

  • 3RScan
  • MultiScan

引用

bibtex @inproceedings{huang2025unveiling, title={Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis}, author={Huang, Jiangyong and Jia, Baoxiong and Wang, Yan and Zhu, Ziyu and Linghu, Xiongkun and Li, Qing and Zhu, Song-Chun and Huang, Siyuan}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
Beacon3D数据集作为三维视觉语言理解领域的前沿基准,其构建过程体现了严谨的学术规范。研究团队采用对象中心化评估框架,通过精心设计的元数据系统记录每个对象的定位链和问答链关系。数据源涵盖ScanNet、3RScan和MultiScan等多模态三维场景数据集,并提供了标准化的格式转换脚本,将原始元数据转换为ScanRefer(用于定位任务)和ScanQA(用于问答任务)兼容格式,确保与现有评估体系的兼容性。
特点
该数据集最显著的特征在于其创新的链式分析评估体系,能够深度解析三维视觉语言模型的任务连贯性。数据集细分为定位和问答两大任务模块,其中问答任务进一步区分为分类、外观、几何、空间和存在性五个维度进行多角度评估。特别设计的元数据结构不仅包含基础标注信息,还完整保留了对象间的语义关联链条,为研究三维场景理解中的认知推理过程提供了独特视角。评估指标采用案例级和对象级双重标准,确保评估结果的全面性和可靠性。
使用方法
使用者可通过GitHub仓库快速获取数据集和评估工具链。数据集按领域分类存储于data目录下,包含原始元数据及预处理后的标准格式文件。评估流程需先实现模型推理结果的提取函数,通过提供的评估脚本分别进行定位任务和问答任务的性能测试。对于需要分析定位-问答链式关系的场景,评估系统支持联合输入定位结果进行综合评估。整个评估过程支持与OpenAI API的集成,并输出包含多维度指标的详细分析报告,便于研究者全面掌握模型性能表现。
背景与挑战
背景概述
Beacon3D数据集由北京大学、加州大学洛杉矶分校等机构的科研团队于CVPR 2025会议上正式发布,标志着三维视觉-语言理解领域的重要突破。该数据集聚焦于三维场景中的物体中心化评估,通过创新的链式分析方法,系统性地解决了三维视觉-语言模型在物体定位与问答任务中的性能评测问题。其核心价值在于建立了首个融合三维空间关系、几何属性与语义推理的多模态评估框架,为三维场景理解、机器人交互等应用提供了标准化测评基准。
当前挑战
在领域问题层面,三维视觉-语言理解面临多模态对齐的固有难题:三维点云的稀疏性与语言描述的稠密语义之间存在表征鸿沟,物体空间关系的动态变化增加了跨模态推理的复杂度。数据集构建过程中,研究团队需攻克三维场景标注的精确性挑战,包括多视角物体实例的语义一致性标注、复杂空间关系的逻辑链条构建等关键技术。此外,评估协议设计需平衡任务难度与模型泛化能力,这对链式分析中的因果推理验证提出了极高要求。
常用场景
经典使用场景
Beacon3D数据集在3D视觉-语言理解领域具有广泛的应用价值,尤其在对象中心评估和任务连贯性分析方面表现突出。该数据集通过整合3D基础任务和问答任务,为研究者提供了一个全面的评估框架。其经典使用场景包括对3D场景中对象的精准定位和语义理解,以及通过链式分析探究任务间的逻辑关联。
解决学术问题
Beacon3D数据集解决了3D视觉-语言模型评估中的关键问题,包括对象中心化评估的缺失和任务连贯性分析的不足。通过引入链式分析框架,该数据集为研究者提供了更细致的性能评估工具,推动了3D视觉-语言理解领域的标准化进程。其意义在于为多模态模型的性能评估提供了新的方法论,促进了该领域的学术进步。
衍生相关工作
Beacon3D数据集已经催生了一系列相关研究工作,包括SceneVerse和LEO等模型的性能评估与改进。这些工作利用该数据集的评估框架,进一步优化了3D视觉-语言模型在对象定位和语义理解方面的表现。同时,该数据集也为后续研究提供了标准化的评估基准,推动了该领域的持续发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作