five

METASCENES

收藏
arXiv2025-05-05 更新2025-05-07 收录
下载链接:
https://meta-scenes.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
METASCENES是一个大规模的可模拟3D场景数据集,由来自不同来源的真实世界扫描对象组成,包括831个细粒度类别的15366个对象。该数据集旨在支持技能获取、模拟到现实转移和泛化,通过自动替换现实世界3D扫描中的对象,使用从各种来源检索或重建的真实和高质量的物体资产。数据集创建过程包括数据收集、注释和后期优化,以实现物理上合理和互动的3D场景。METASCENES的应用领域是增强智能体学习的泛化能力和模拟到现实的应用,为增强智能研究引入了新的可能性。

METASCENES is a large-scale simulatable 3D scene dataset composed of real-world scanned objects from diverse sources, with 15,366 objects across 831 fine-grained categories. This dataset is designed to support skill acquisition, sim-to-real transfer and generalization, by automatically replacing objects in real-world 3D scans with high-quality, authentic object assets retrieved or reconstructed from various sources. The dataset creation pipeline includes data collection, annotation and post-optimization to produce physically plausible and interactive 3D scenes. METASCENES targets applications aimed at enhancing the generalization capability of AI agent learning and sim-to-real transfer, bringing new opportunities for augmented intelligence research.
提供机构:
State Key Laboratory of General Artificial Intelligence, BIGAI; Beijing Institute of Technology; Tsinghua University; University of Science and Technology of China
创建时间:
2025-05-05
原始信息汇总

METASCENES数据集概述

基本信息

  • 数据集名称: METASCENES
  • 目标: 实现真实世界3D扫描的自动化副本创建
  • 应用领域: 具身智能(EAI)研究、技能获取、仿真到现实迁移、领域泛化
  • 数据规模:
    • 706个场景
    • 15366个对象
    • 覆盖广泛的对象类型

核心特点

  1. 真实世界扫描基础: 基于真实世界扫描构建
  2. 多模态对齐: 提供SCAN2SIM模型支持自动化高质量资产替换
  3. 物理合理性: 经过全局优化确保物理合理性
  4. 标注信息: 包含基于几何、纹理和功能性的最优替换候选排名

构建流程

  1. 收集阶段: 为扫描中的每个真实世界对象收集多样化的3D资产候选
  2. 标注阶段: 标注者根据视觉相似性和几何适配性对3D资产进行排名和选择
  3. 优化阶段: 对选定资产进行后处理和全局优化

实验验证

  1. 自动副本创建: 展示Scan2Sim在ScanNet++上的应用效果
  2. 微场景合成: 在给定大家具的情况下生成小物体布局
  3. 具身导航: 在Habitat环境中演示目标导向导航

可视化资源

  • 3D场景查看器: 提供交互式3D场景浏览功能
  • Real2Sim比较: 展示真实与仿真场景的对比

引用信息

bibtex @inproceedings{yu2025metascenes, title={METASCENES: Towards Automated Replica Creation for Real-world 3D Scans}, author={Huangyue Yu, Baoxiong Jia, Yixin Chen, Yandan Yang, Puhao Li, Rongpeng Su, Jiaxin Li, Qing Li, Wei Liang, Zhu Song-Chun, Tengyu Liu, Siyuan Huang}, booktitle=Conference on Computer Vision and Pattern Recognition(CVPR), year={2025} }

相关资源

  • 论文: [论文链接]
  • 视频: [视频链接]
  • 代码: [即将推出]
  • 数据: [数据链接]
搜集汇总
数据集介绍
main_image_url
构建方式
METASCENES数据集通过多模态对齐技术,将真实世界3D扫描中的物体替换为高质量仿真资产,构建了一个大规模可交互的3D场景数据集。具体流程包括:首先基于ScanNet数据集获取真实场景点云,利用SAM和GPT-4V生成物体描述;其次通过文本/图像到3D生成(如Shape-E、TripoSR)和检索方法(如Objaverse)创建候选资产;最后通过人工标注对候选资产进行几何相似性和视觉匹配度排序,并采用物理优化确保场景交互合理性。
特点
该数据集包含15,366个物体实例,涵盖831个细粒度类别,每个物体平均提供6个候选资产。其核心特色在于:1)采用多源资产生成策略,结合生成式与检索式方法提升资产多样性;2)首创物理优化流程,通过马尔可夫链蒙特卡洛方法解决物体碰撞和悬浮问题;3)提供丰富的元数据,包括物体物理属性(质量、摩擦系数)和空间关系标注,支持复杂的具身AI任务。
使用方法
METASCENES支持两种主要应用范式:1)微观场景合成任务中,可将大型家具作为基底生成小物体布局,需加载场景GLB文件后通过DiffuScene等模型进行条件生成;2)具身导航任务需将数据集转换为Habitat仿真器兼容格式,利用SPOC等模型进行路径规划训练。跨领域使用时,建议通过SCAN2SIM管道实现真实场景到仿真场景的自动转换,该管道提供预训练的多模态对齐模型用于最优资产选择。
背景与挑战
背景概述
METASCENES是由BIGAI等机构的研究团队于2025年提出的一个大规模可模拟3D场景数据集,旨在解决具身智能研究中高质量3D场景重建的难题。该数据集基于真实世界扫描数据,通过多模态对齐技术将扫描对象替换为可交互的3D资产,包含706个场景中的15366个对象实例,覆盖831个细粒度类别。作为首个实现自动化场景复刻的数据集,METASCENES突破了传统艺术家驱动设计的局限性,为机器人操作、视觉语言导航等具身AI任务提供了物理真实的训练环境。其创新性的SCAN2SIM管线显著提升了资产替换的精度与效率,推动了3D场景理解领域从手工制作向自动化生成的范式转变。
当前挑战
METASCENES面临的核心挑战体现在两个维度:在领域问题层面,需解决小物体布局合成这一长期被忽视的难题,现有方法对微小物品的几何特征捕捉不足,导致机器人操作任务中的物理交互失真;在构建过程层面,资产替换面临多模态对齐的复杂性,包括扫描点云与CAD模型间的几何差异、纹理保真度与物理属性的平衡等问题。特别地,场景的物理合理性优化需要处理数千个物体间的碰撞约束,而跨领域评估表明当前VLN模型在微小物体导航任务上仍有显著性能差距。此外,资产候选生成依赖文本-图像-点云的跨模态匹配,对基础模型的表征能力提出了极高要求。
常用场景
经典使用场景
METASCENES数据集在具身智能(EAI)研究中被广泛用于构建高质量、可交互的3D场景,支持技能获取、仿真到现实的迁移以及泛化能力的研究。通过将真实世界的3D扫描对象替换为多样化的高质量3D资产,该数据集为研究者提供了丰富的场景布局和对象多样性,特别适用于机器人操作学习和视觉语言导航(VLN)任务。
实际应用
在实际应用中,METASCENES被用于机器人导航和操作任务的仿真训练,例如在家庭环境中进行物体抓取和场景理解。其高质量的3D场景和丰富的对象类别使得训练出的智能体能够更好地适应真实世界的复杂环境,提升任务执行的效率和准确性。
衍生相关工作
METASCENES衍生了多项经典工作,包括SCAN2SIM模型,该模型通过多模态对齐技术实现了自动化3D场景复制。此外,基于该数据集的Micro-Scene Synthesis任务和跨领域VLN任务进一步推动了3D场景合成和具身导航的研究,为后续工作提供了重要的基准和参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作