XR-Scene
收藏github2025-02-27 更新2025-02-20 收录
下载链接:
https://github.com/Hoyyyaard/LSceneLLM
下载链接
链接失效反馈官方服务:
资源简介:
XR-Scene数据集是用于跨房间3D大场景理解的基准数据集。
XR-Scene is a benchmark dataset designed for understanding cross-room 3D large-scale scenes.
创建时间:
2025-01-31
原始信息汇总
LSceneLLM数据集概述
基本信息
- 数据集名称: LSceneLLM
- 研究领域: 大型3D场景理解
- 相关论文: LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences
- 模型地址: HuggingFace模型
- 数据集地址: XR-Scene数据集
数据集特点
- 数据内容: 跨房间3D大型场景理解基准
- 技术特点: 通过LLM的注意力图选择感兴趣的标记,有效整合粗粒度和细粒度视觉信息
使用要求
- PyTorch: >= 1.7.0
- Python: 3.7
- CUDA: >= 10.2
- GCC: >= 4.9
- 其他依赖: torchvision, timm, open3d, tensorboardX
数据预处理
- 步骤:
- 安装OpenScene要求
- 从SceneVerse下载HM3D扫描数据
- 将数据放入指定目录:
data/SceneVerse/HM3D/[qa, caption, planning] - 运行预处理脚本:
bash scripts/preprocess_openscene_fts.sh
评估与训练
- 评估XR-QA: 运行
bash scripts/eval.sh - 训练XR-QA: 运行
bash scripts/train.sh
许可证
- 类型: MIT License
引用
bibtex @article{zhi2024lscenellm, title={LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences}, author={Zhi, Hongyan and Chen, Peihao and Li, Junyan and Ma, Shuailei and Sun, Xinyu and Xiang, Tianhang and Lei, Yinjie and Tan, Mingkui and Gan, Chuang}, journal={arXiv preprint arXiv:2412.01292}, year={2024} }
搜集汇总
数据集介绍

构建方式
XR-Scene数据集的构建,是基于对大型三维场景的理解,特别是跨房间和户外场景中视觉信息的复杂性和丰富性。该数据集通过运用LLM的注意力图选择感兴趣的目标标记,有效融合了粗粒度和细粒度的视觉信息,并构建了一个用于跨房间三维大型场景理解的基准测试。
使用方法
使用XR-Scene数据集,首先需要安装相关的依赖库,并对HM3D-OpenScene特征进行预处理。数据集的评估可以通过运行预训练模型上的eval脚本进行。此外,数据集和相关的预训练权重、注释均已公开发布,便于研究者和开发者进行下载和使用。
背景与挑战
背景概述
XR-Scene数据集是在3D场景视觉理解领域的一个重大进展,由Zhi Hongyan等研究人员于2024年提出。该数据集旨在应对大规模三维场景中视觉信息复杂且丰富的问题,特别是在跨房间和室外场景中。XR-Scene的核心研究问题是提升大尺度三维场景的理解能力,通过使用LLM的注意力图选择感兴趣的token,有效融合粗粒度和细粒度的视觉信息。该数据集及其相关研究对三维场景理解领域产生了显著影响,推动了该领域的技术进步。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 如何在大规模三维场景中有效地提取和融合不同粒度的视觉信息;2) 如何构建一个适用于跨房间和室外场景的三维场景理解基准。此外,所解决的领域问题,即提升大尺度三维场景的理解能力,面临的挑战是如何在保持详细信息的同时减轻计算负担,以及如何准确评估模型的性能。
常用场景
经典使用场景
在三维场景理解领域,XR-Scene数据集以其独特的跨房间和室外大型场景理解基准,成为研究的热点。该数据集被广泛应用于选择感兴趣的目标令牌,通过结合粗粒度和细粒度的视觉信息,以减轻计算负担的同时保留详细信息,进而提升大型三维场景的理解能力。
解决学术问题
XR-Scene数据集解决了在处理复杂且信息丰富的三维场景时,如何有效整合视觉信息并降低计算负荷的难题。其通过自适应视觉偏好的方法,为大型三维场景的理解提供了新的视角和技术路径,对学术研究具有重要的推动作用。
实际应用
在实际应用中,XR-Scene数据集的应用场景广泛,包括但不限于机器人导航、增强现实(AR)和虚拟现实(VR)环境构建、智能监控系统等,为这些领域提供了高质量的数据支持,加速了技术的研发和落地。
数据集最近研究
最新研究方向
针对三维场景中视觉信息复杂度高的问题,研究者提出了LSceneLLM模型,该模型通过使用LLM的注意力图选择感兴趣的token,有效整合了粗粒度和细粒度的视觉信息,并构建了一个跨房间的三维大型场景理解基准。近期,该研究团队发布了XR-Scene数据集的相关代码、预训练权重和注释,这标志着在3D场景理解领域,利用自适应视觉偏好增强大型场景理解的研究取得了新的进展,为相关任务提供了重要资源和基准。
以上内容由遇见数据集搜集并总结生成



