five

XR-Scene

收藏
github2025-02-27 更新2025-02-20 收录
下载链接:
https://github.com/Hoyyyaard/LSceneLLM
下载链接
链接失效反馈
官方服务:
资源简介:
XR-Scene数据集是用于跨房间3D大场景理解的基准数据集。

XR-Scene is a benchmark dataset designed for understanding cross-room 3D large-scale scenes.
创建时间:
2025-01-31
原始信息汇总

LSceneLLM数据集概述

基本信息

数据集特点

  • 数据内容: 跨房间3D大型场景理解基准
  • 技术特点: 通过LLM的注意力图选择感兴趣的标记,有效整合粗粒度和细粒度视觉信息

使用要求

  • PyTorch: >= 1.7.0
  • Python: 3.7
  • CUDA: >= 10.2
  • GCC: >= 4.9
  • 其他依赖: torchvision, timm, open3d, tensorboardX

数据预处理

  • 步骤:
    1. 安装OpenScene要求
    2. SceneVerse下载HM3D扫描数据
    3. 将数据放入指定目录: data/SceneVerse/HM3D/[qa, caption, planning]
    4. 运行预处理脚本: bash scripts/preprocess_openscene_fts.sh

评估与训练

  • 评估XR-QA: 运行bash scripts/eval.sh
  • 训练XR-QA: 运行bash scripts/train.sh

许可证

  • 类型: MIT License

引用

bibtex @article{zhi2024lscenellm, title={LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences}, author={Zhi, Hongyan and Chen, Peihao and Li, Junyan and Ma, Shuailei and Sun, Xinyu and Xiang, Tianhang and Lei, Yinjie and Tan, Mingkui and Gan, Chuang}, journal={arXiv preprint arXiv:2412.01292}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
XR-Scene数据集的构建,是基于对大型三维场景的理解,特别是跨房间和户外场景中视觉信息的复杂性和丰富性。该数据集通过运用LLM的注意力图选择感兴趣的目标标记,有效融合了粗粒度和细粒度的视觉信息,并构建了一个用于跨房间三维大型场景理解的基准测试。
使用方法
使用XR-Scene数据集,首先需要安装相关的依赖库,并对HM3D-OpenScene特征进行预处理。数据集的评估可以通过运行预训练模型上的eval脚本进行。此外,数据集和相关的预训练权重、注释均已公开发布,便于研究者和开发者进行下载和使用。
背景与挑战
背景概述
XR-Scene数据集是在3D场景视觉理解领域的一个重大进展,由Zhi Hongyan等研究人员于2024年提出。该数据集旨在应对大规模三维场景中视觉信息复杂且丰富的问题,特别是在跨房间和室外场景中。XR-Scene的核心研究问题是提升大尺度三维场景的理解能力,通过使用LLM的注意力图选择感兴趣的token,有效融合粗粒度和细粒度的视觉信息。该数据集及其相关研究对三维场景理解领域产生了显著影响,推动了该领域的技术进步。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:1) 如何在大规模三维场景中有效地提取和融合不同粒度的视觉信息;2) 如何构建一个适用于跨房间和室外场景的三维场景理解基准。此外,所解决的领域问题,即提升大尺度三维场景的理解能力,面临的挑战是如何在保持详细信息的同时减轻计算负担,以及如何准确评估模型的性能。
常用场景
经典使用场景
在三维场景理解领域,XR-Scene数据集以其独特的跨房间和室外大型场景理解基准,成为研究的热点。该数据集被广泛应用于选择感兴趣的目标令牌,通过结合粗粒度和细粒度的视觉信息,以减轻计算负担的同时保留详细信息,进而提升大型三维场景的理解能力。
解决学术问题
XR-Scene数据集解决了在处理复杂且信息丰富的三维场景时,如何有效整合视觉信息并降低计算负荷的难题。其通过自适应视觉偏好的方法,为大型三维场景的理解提供了新的视角和技术路径,对学术研究具有重要的推动作用。
实际应用
在实际应用中,XR-Scene数据集的应用场景广泛,包括但不限于机器人导航、增强现实(AR)和虚拟现实(VR)环境构建、智能监控系统等,为这些领域提供了高质量的数据支持,加速了技术的研发和落地。
数据集最近研究
最新研究方向
针对三维场景中视觉信息复杂度高的问题,研究者提出了LSceneLLM模型,该模型通过使用LLM的注意力图选择感兴趣的token,有效整合了粗粒度和细粒度的视觉信息,并构建了一个跨房间的三维大型场景理解基准。近期,该研究团队发布了XR-Scene数据集的相关代码、预训练权重和注释,这标志着在3D场景理解领域,利用自适应视觉偏好增强大型场景理解的研究取得了新的进展,为相关任务提供了重要资源和基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作