SceneFun3D_Graph
收藏Hugging Face2025-04-16 更新2025-04-17 收录
下载链接:
https://huggingface.co/datasets/OpenFunGraph/SceneFun3D_Graph
下载链接
链接失效反馈官方服务:
资源简介:
修改后的SceneFun3D数据集,用于Open Vocabulary Functional 3D Scene Graphs的评价。这个数据集包含了对象和交互元素分割注释、功能三维场景图注释、所有标签及其嵌入向量、所有关系描述及其嵌入向量等。
Modified SceneFun3D Dataset, which is used for the evaluation of Open Vocabulary Functional 3D Scene Graphs. This dataset includes object and interactive element segmentation annotations, functional 3D scene graph annotations, all labels and their embedding vectors, all relationship descriptions and their embedding vectors, etc.
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
SceneFun3D_Graph数据集基于改进版的SceneFun3D构建,专注于开放词汇功能3D场景图的研究。该数据集通过激光扫描仪获取高精度深度图像,并结合高分辨率RGB相机捕捉场景细节,采样频率为10帧/秒。研究人员额外标注了物体与交互元素的分割信息,以及功能性的3D场景图关系,形成结构化表示。数据注册过程中采用4x4变换矩阵将激光扫描坐标系与ARKit坐标系对齐,确保空间一致性。
特点
该数据集的核心价值在于其丰富的多模态标注体系,包含物体分割、场景图关系、标签嵌入等多层次语义信息。特别提供了CLIP和BERT预训练模型生成的标签嵌入向量,支持开放词汇场景理解任务。数据资产涵盖深度图像、RGB图像、相机位姿轨迹及激光扫描点云,不同模态数据通过严格坐标系转换实现精准对齐,为三维场景分析提供立体化数据支撑。
使用方法
使用该数据集时,建议首先通过OpenFunGraph_split.txt确定标准数据划分方案。深度图像与RGB图像需配合相机内参矩阵进行几何对齐,而激光扫描点云则需应用refined_transform.npy进行坐标系转换。评估开放词汇场景图模型时,可利用预计算的CLIP标签嵌入和BERT关系描述嵌入加速推理过程。各JSON标注文件采用层次化结构组织,需结合对应的npy嵌入文件进行联合解析。
背景与挑战
背景概述
SceneFun3D_Graph数据集作为三维场景理解领域的重要资源,由研究团队基于SceneFun3D原始数据集进行修改和扩展,旨在支持开放词汇功能三维场景图的研究。该数据集的核心研究问题聚焦于如何在复杂的三维环境中实现对象与交互元素的精准分割,以及功能关系的语义解析。通过融合高分辨率深度图像、RGB数据以及激光扫描信息,数据集为场景理解算法提供了多模态的基准测试平台。其标注体系不仅包含对象级语义标签,还创新性地引入了功能关系图结构,推动了三维场景分析从静态识别向动态交互理解的范式转变。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,开放词汇场景图构建需要克服三维空间异构数据对齐、跨模态特征融合以及动态交互关系建模等难题;在构建过程层面,激光扫描与视觉数据的时空配准精度、大规模点云数据的语义标注一致性,以及复杂功能关系的标准化描述成为关键瓶颈。数据集特有的高分辨率多源异构数据虽提升了研究上限,却也带来了存储效率与计算成本的平衡挑战。
常用场景
经典使用场景
在三维场景理解领域,SceneFun3D_Graph数据集通过提供丰富的物体分割和交互元素标注,成为构建功能化三维场景图的基准工具。研究者利用其高分辨率深度图像和RGB数据,结合精确的激光扫描配准信息,能够系统性地分析室内环境中物体间的功能关系,为场景语义解析提供多模态数据支撑。该数据集特别适用于开放词汇场景图生成任务的评测,其标注体系为理解三维空间中的物体功能属性设立了新标准。
解决学术问题
该数据集有效解决了三维场景语义理解中的三大核心问题:开放词汇条件下的物体功能标注难题、三维空间关系的形式化表达困境,以及多模态数据对齐的技术瓶颈。通过提供CLIP和BERT的预计算嵌入,研究者能够绕过传统方法中耗时的特征提取阶段,直接探索跨模态表征在场景理解中的应用。其精细的激光扫描数据与AR相机轨迹的精确配准,为几何重建与语义理解的协同研究提供了理想实验平台。
衍生相关工作
基于该数据集衍生的OpenFunGraph框架开创了开放词汇功能场景图生成的新范式。多项研究利用其多模态特性开发了联合视觉-语言模型,如将CLIP嵌入与三维几何特征融合的FusionNet。在场景图预测任务中,BERT关系嵌入催生了基于注意力机制的关系推理网络。该数据集还推动了三维零样本学习的发展,相关成果在CVPR等顶会中形成系列工作。
以上内容由遇见数据集搜集并总结生成



