XR-Scene

github2025-02-27 更新2025-02-20 收录

下载链接：

https://github.com/Hoyyyaard/LSceneLLM

下载链接

链接失效反馈

官方服务：

资源简介：

XR-Scene数据集是用于跨房间3D大场景理解的基准数据集。

XR-Scene is a benchmark dataset designed for understanding cross-room 3D large-scale scenes.

创建时间：

2025-01-31

原始信息汇总

LSceneLLM数据集概述

基本信息

数据集名称: LSceneLLM
研究领域: 大型3D场景理解
相关论文: LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
模型地址: HuggingFace模型
数据集地址: XR-Scene数据集

数据集特点

数据内容: 跨房间3D大型场景理解基准
技术特点: 通过LLM的注意力图选择感兴趣的标记，有效整合粗粒度和细粒度视觉信息

使用要求

PyTorch: >= 1.7.0
Python: 3.7
CUDA: >= 10.2
GCC: >= 4.9
其他依赖: torchvision, timm, open3d, tensorboardX

数据预处理

步骤:
1. 安装OpenScene要求
2. 从SceneVerse下载HM3D扫描数据
3. 将数据放入指定目录: data/SceneVerse/HM3D/[qa, caption, planning]
4. 运行预处理脚本: bash scripts/preprocess_openscene_fts.sh

评估与训练

评估XR-QA: 运行bash scripts/eval.sh
训练XR-QA: 运行bash scripts/train.sh

许可证

类型: MIT License

引用

bibtex @article{zhi2024lscenellm, title={LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences}, author={Zhi, Hongyan and Chen, Peihao and Li, Junyan and Ma, Shuailei and Sun, Xinyu and Xiang, Tianhang and Lei, Yinjie and Tan, Mingkui and Gan, Chuang}, journal={arXiv preprint arXiv:2412.01292}, year={2024} }

搜集汇总

数据集介绍

构建方式

XR-Scene数据集的构建，是基于对大型三维场景的理解，特别是跨房间和户外场景中视觉信息的复杂性和丰富性。该数据集通过运用LLM的注意力图选择感兴趣的目标标记，有效融合了粗粒度和细粒度的视觉信息，并构建了一个用于跨房间三维大型场景理解的基准测试。

使用方法

使用XR-Scene数据集，首先需要安装相关的依赖库，并对HM3D-OpenScene特征进行预处理。数据集的评估可以通过运行预训练模型上的eval脚本进行。此外，数据集和相关的预训练权重、注释均已公开发布，便于研究者和开发者进行下载和使用。

背景与挑战

背景概述

XR-Scene数据集是在3D场景视觉理解领域的一个重大进展，由Zhi Hongyan等研究人员于2024年提出。该数据集旨在应对大规模三维场景中视觉信息复杂且丰富的问题，特别是在跨房间和室外场景中。XR-Scene的核心研究问题是提升大尺度三维场景的理解能力，通过使用LLM的注意力图选择感兴趣的token，有效融合粗粒度和细粒度的视觉信息。该数据集及其相关研究对三维场景理解领域产生了显著影响，推动了该领域的技术进步。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1) 如何在大规模三维场景中有效地提取和融合不同粒度的视觉信息；2) 如何构建一个适用于跨房间和室外场景的三维场景理解基准。此外，所解决的领域问题，即提升大尺度三维场景的理解能力，面临的挑战是如何在保持详细信息的同时减轻计算负担，以及如何准确评估模型的性能。

常用场景

经典使用场景

在三维场景理解领域，XR-Scene数据集以其独特的跨房间和室外大型场景理解基准，成为研究的热点。该数据集被广泛应用于选择感兴趣的目标令牌，通过结合粗粒度和细粒度的视觉信息，以减轻计算负担的同时保留详细信息，进而提升大型三维场景的理解能力。

解决学术问题

XR-Scene数据集解决了在处理复杂且信息丰富的三维场景时，如何有效整合视觉信息并降低计算负荷的难题。其通过自适应视觉偏好的方法，为大型三维场景的理解提供了新的视角和技术路径，对学术研究具有重要的推动作用。

实际应用

在实际应用中，XR-Scene数据集的应用场景广泛，包括但不限于机器人导航、增强现实（AR）和虚拟现实（VR）环境构建、智能监控系统等，为这些领域提供了高质量的数据支持，加速了技术的研发和落地。

数据集最近研究