omni-primitive-transforms

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/senngadaisuki/omni-primitive-transforms

下载链接

链接失效反馈

官方服务：

资源简介：

Omni-Primitive-Transforms是一个用于生成受控3D物体原始变换序列的数据集。它基于高质量扫描网格（源自OmniObject3D数据集），并使用Blender进行渲染，旨在支持对单一或组合原始变换（如旋转、平移、缩放）下的3D物体序列进行可控生成。该数据集最初为世界模型和潜在动作模型的研究而创建。它包含5,911个日常物体实例，涵盖216个不同类别，每个实例提供72个渲染视图，对应物体绕垂直轴完整旋转360度（以5度为增量），所有图像分辨率为128×128像素。每个视图都配有对应的物体分割掩码（以NumPy数组格式存储），使得数据集能直接支持真实的3D旋转序列，并可通过2D掩码合成额外变换（如缩放和平移），从而支持可控变换序列生成。数据以分层目录结构组织：按物体类别和实例ID分文件夹存放，每个实例文件夹包含一个`Scan`子目录，存储从`000.png`到`071.png`的72张PNG格式渲染图像和对应的`NNN_mask.npy`分割掩码文件，以及一个`metadata.json`文件用于存储元数据。该数据集适用于需要可控3D物体变换序列的计算机视觉任务，特别是与世界模型、潜在动作建模、物体中心表示和原始变换学习相关的研究。渲染代码已开源，确保可复现性，使用需遵守OmniObject3D的许可条款。

Omni-Primitive-Transforms is a dataset for generating controlled 3D object primitive transformation sequences. It is based on high-quality scanned meshes (from the OmniObject3D dataset) and rendered using Blender, aiming to support controllable generation of 3D object sequences under single or combined primitive transformations (such as rotation, translation, scaling). It was initially created for research on world models and latent action models. The dataset contains 5,911 daily object instances, covering 216 different categories. Each object instance provides 72 rendered views, corresponding to a full 360-degree rotation around the vertical axis (in 5-degree increments), with all images at a resolution of 128×128 pixels. Crucially, each view is paired with a corresponding object segmentation mask (stored as NumPy arrays), enabling the dataset to directly support realistic 3D rotation sequences and allowing synthesis of additional transformations (e.g., scaling and translation) using 2D masks without re-rendering, thereby facilitating controllable transformation sequence generation. Data is organized in a hierarchical directory structure: by object category and instance ID. Each instance folder includes a `Scan` subdirectory containing 72 PNG-format rendered images from `000.png` to `071.png`, along with corresponding `NNN_mask.npy` segmentation mask files, and a `metadata.json` file storing per-object metadata. The dataset is suitable for computer vision tasks requiring controlled 3D object transformation sequences, particularly research related to world models, latent action modeling, object-centric representations, and primitive transformation learning. The full rendering code is open-source, ensuring reproducibility, and usage must comply with the license terms of the source dataset OmniObject3D.

创建时间：

2026-05-15

搜集汇总

数据集介绍

构建方式

Omni-Primitive-Transforms 数据集基于 OmniObject3D 中的高精度三维扫描网格构建，利用 Blender 渲染引擎进行图像生成。原始的 OmniObject3D 扫描数据经过规范化处理后，每个物体被置于虚拟场景中，沿垂直轴以 5° 为步长旋转 360°，从而为每个物体生成 72 个不同视角的 RGB 图像（分辨率为 128×128）。同时，每个视角对应生成一张分割掩码（以 NumPy 数组格式存储），用于后续合成二维空间中的缩放和平移操作。数据集的渲染管线改编自 Objaverse 的官方实现，保证了渲染过程的可复现性和一致性。整个数据集包含 5,911 个物体，涵盖 216 个日常物体类别。

特点

该数据集的核心特点在于其支持可控的单一或组合式基元变换。图像序列直接提供了真实的二维旋转信息，而每张视图的分割掩码则允许用户在不重新渲染的情况下，通过二维图像处理手段任意合成平移和缩放动作。这使得研究人员能够灵活地构建包含旋转、平移、缩放及其组合的变换序列，为世界模型中的潜在动作建模、物体中心表示学习以及结构抽象与泛化研究提供了理想的数据基础。数据集规模适中（10万至100万样本），且每张视图均对应精确的元数据文件，便于后续的数据管理和实验复现。

使用方法

用户可通过 Hugging Face Hub 的 snapshot_download 函数将数据集下载至本地。下载后，数据集以类别-实例-视角的层次化目录结构组织，每个物体的文件夹内包含 72 张 PNG 格式的渲染图像、72 个对应的 NPY 格式掩码文件以及一个 JSON 格式的元数据文件。图像和掩码可通过 PIL 和 NumPy 等常见 Python 库直接加载。此外，该数据集提供了完整的渲染脚本和依赖说明，用户若需扩展或定制数据集，可参照仓库中的 rendering 目录，在安装了 Blender 3.2.2 及 Python 依赖的环境中复现整个渲染流程。

背景与挑战

背景概述

在认知科学与人工智能交叉领域中，世界模型（World Model）的研究致力于赋予智能体对物理世界变化规律的内部表征能力，而原初变换（Primitive Transformation）如旋转、平移和缩放，则是构成这些变化的基本操作。为支撑此类研究，Omni-Primitive-Transforms数据集于2026年由Tianqiu Zhang等研究者在ICML 2026论文中提出，其构建于OmniObject3D的高质量扫描网格之上，依托Blender渲染管线，生成了涵盖216个日常物体类别、总计5,911个物体的多视角图像与分割掩码。该数据集的核心研究问题聚焦于可控单一与组合原初变换下的三维物体序列生成，其引入的“潜动作模型”（Latent Action Model）思路为解耦表征与结构抽象提供了基准数据平台，有力推动了海马-内嗅皮层启发的世界模型在结构泛化能力上的探索。

当前挑战

该数据集面临的挑战主要体现在三个方面。首先，其解决的领域问题是三维世界模型中原初变换的精准建模与泛化，现有模型在处理非欧几里得空间下的连续变换组合时，往往难以区分固有属性与外部干预，导致动作表征的纠缠。其次，在构建过程中，渲染管道的适配与质量控制成为关键难题——从OmniObject3D原始扫描数据到Blender渲染框架的迁移需保证光照、材质与几何保真度的一致性，且72个视角的逐帧渲染对计算资源与渲染引擎（CYCLES）的稳定运行提出了高要求。此外，分割掩码的逐视图生成虽为合成平移与缩放提供了便利，但掩码边界在高频纹理区域易出现伪影，需通过后处理校验以确保变换动作的鲁棒性与可复现性。

常用场景

经典使用场景

Omni-Primitive-Transforms数据集专为研究三维物体的基础变换而设计，在计算机视觉与认知科学交叉领域发挥着核心作用。该数据集提供了5,911个高质量扫描网格物体的多视角渲染图像及其精确分割掩码，每个物体围绕垂直轴以5度为步长旋转360度，生成72个视角。研究者可借此系统性地生成单一或组合的原始变换序列——如旋转、平移和缩放，且平移与缩放可通过二维掩码合成实现，无需重新渲染。这种精细控制能力使其成为探索物体中心表示学习、理解空间变换规律以及构建结构化世界模型的理想平台，尤其适用于需要严格变量控制的三维感知实验。

解决学术问题

该数据集有效解决了认知科学与人工智能领域中一个核心难题：如何让神经网络模型学习并泛化物体的基本空间变换操作。传统数据集往往局限于静态场景或非解耦的变换，难以区分变化由何种操作引起。Omni-Primitive-Transforms通过提供完全可控的变换序列，使研究人员能够系统研究模型对旋转、平移、缩放等基本操作的感知、抽象与重组能力。它推动了潜在动作模型（Latent Action Models）的发展，使模型不仅观察状态变化，更能学习驱动这些变化的底层表征。这一突破为理解海马体-内嗅皮层系统如何编码空间变换提供了计算验证平台，弥合了人工神经网络与生物智能之间的鸿沟。

衍生相关工作

Omni-Primitive-Transforms数据集的出现催生了一系列具有深远影响的研究工作。其中最具代表性的是两项发表于国际机器学习大会（ICML）的研究：一项提出了一种受海马-内嗅皮层启发的世界模型，利用该数据集验证了模型对物体结构进行抽象与泛化的能力，揭示了生物神经系统如何编码与操作空间表征的计算原理；另一项名为DiLA（解耦潜在动作世界模型）的研究，则借助数据集的可控变换特性，成功将物体状态的改变分解为独立的潜在动作因子，实现了对复杂变换序列的因果理解与生成。这些衍生工作不仅推进了具身智能领域对动作表征的认知，也为神经科学与人工智能的深度融合提供了宝贵的实验范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集