PrimitiveAnything

Name: PrimitiveAnything
Creator: 腾讯AI平台部
Published: 2025-05-08 01:59:46
License: 暂无描述

arXiv2025-05-08 更新2025-05-09 收录

下载链接：

https://primitiveanything.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

PrimitiveAnything是一个新颖的框架，旨在将形状抽象重新定义为序列生成任务，从而能够从人类设计的形状分解中学习和复制。该框架包括三个关键组件：一个无歧义的原始参数化方案，一个原始变换器架构和一个自回归生成流程。PrimitiveAnything通过自回归模型预测原始序列，有效地学习形状分解的隐含规则。

PrimitiveAnything is a novel framework that redefines shape abstraction as a sequence generation task, enabling the learning and replication of shapes from human-designed shape decompositions. This framework comprises three core components: an unambiguous primitive parameterization scheme, a primitive Transformer architecture, and an autoregressive generation pipeline. PrimitiveAnything predicts primitive sequences via autoregressive models, effectively learning the implicit rules underlying shape decomposition.

提供机构：

腾讯AI平台部

创建时间：

2025-05-08

原始信息汇总

PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

基本信息

会议: SIGGRAPH 2025
作者:
- Jingwen Ye1*, Yuze He1,2*, Yanning Zhou1†, Yiqin Zhu1, Kaiwen Xiao1, Yong-Jin Liu2†, Wei Yang1, Xiao Han1†
- 1Tencent AIPD, 2Tsinghua University
- *Equal Contributions, †Corresponding Authors

摘要

研究背景: 形状基元抽象在人类视觉认知中起关键作用，并在计算机视觉和图形学中有广泛应用。现有方法存在语义理解有限或泛化能力不足的问题。
方法创新:
- 提出PrimitiveAnything框架，将形状基元抽象重新定义为基元组装生成任务。
- 包含形状条件基元变换器用于自回归生成。
- 提出无歧义参数化方案，统一表示多种基元类型。
优势:
- 直接从大规模人工制作的抽象中学习基元组装过程。
- 生成的基元组装更符合人类感知，同时保持几何保真度。
- 适用于多样形状类别，有益于3D应用和游戏中的基元用户生成内容(UGC)。

方法概述

核心组件:
- 形状条件基元变换器: 通过自回归方式分解复杂形状为3D基元组装。
- 无歧义参数化方案: 将每个基元𝑝参数化为类别标签𝑐、平移𝑡、旋转𝑟和缩放𝑠。
- 基元编码器: 形成基元令牌ℎ。
- 形状编码器: 从采样点云编码3D形状特征𝐶。
- 级联基元解码器𝐷: 顺序预测基元属性。
工作流程: 基元变换器𝑆基于输入条件𝐶和先前生成的基元预测下一个基元。

引用信息

bibtex @misc{ye2025primitiveanything, title={PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer}, author={Jingwen Ye and Yuze He and Yanning Zhou and Yiqin Zhu and Kaiwen Xiao and Yong-Jin Liu and Wei Yang and Xiao Han}, year={2025}, eprint={2505.04622}, archivePrefix={arXiv}, primaryClass={cs.GR} }

搜集汇总

数据集介绍

构建方式

PrimitiveAnything数据集通过大规模人工标注的3D原始几何体组装数据构建而成，采用基于Transformer的自回归生成框架。研究团队开发了无歧义参数化方案，将多种基本几何体统一表示为类别标签、平移、旋转和缩放参数的组合，并通过对称性消除算法解决了几何体参数表示中的多义性问题。数据采集过程使用定制化3D标注工具，由专业标注人员根据几何覆盖度和人类认知一致性原则进行标注，最终形成包含12万样本的大规模数据集，平均每个样本由30.9个基本几何体构成。

特点

该数据集的核心特点体现在三个方面：多类型几何体联合表征能力，支持立方体、椭圆柱和椭球体三种基本几何体的混合表示；人类认知对齐的抽象模式，通过捕捉人工标注的分解逻辑，生成的几何体组装更符合人类对形状结构的理解；跨类别泛化性能，基于大规模数据训练的自回归Transformer模型能够处理不同复杂度的形状，在未见过的物体类别上仍保持良好表现。数据集还提供精确的几何评估指标，包括倒角距离、豪斯多夫距离等定量衡量标准。

使用方法

使用该数据集时，首先通过点云编码器提取输入形状的特征表示，再由自回归Transformer按顺序预测几何体序列。每个几何体的参数通过级联解码器逐步生成，先确定类型和位置，再预测旋转和缩放。实践应用包含两种模式：无条件生成可直接采样获得多样化几何体组装；条件生成则支持从点云、图像或文本等输入引导生成过程。生成的几何体可直接导入主流3D软件进行编辑，其参数化表示相比传统网格节省95%以上的存储空间，特别适合实时交互应用场景。

背景与挑战

背景概述

PrimitiveAnything是由腾讯AIPD与清华大学联合团队于2025年提出的创新性3D形状抽象数据集，其核心目标是通过自回归Transformer模型实现人类认知风格的三维几何基元组装。该数据集建立在认知科学关于人类视觉系统将复杂形状分解为简单几何基元的理论基础之上，针对计算机视觉与图形学领域长期存在的语义结构与几何保真度难以兼顾的问题，提出了基于序列生成的解决方案。数据集包含12万个人工标注的3D基元组装样本，涵盖立方体、椭圆柱和椭球体三种基元类型，平均每个样本包含30.9个基元，最复杂样本达144个基元。该工作首次将形状抽象转化为条件序列生成任务，通过消除参数歧义的统一表征方案和级联解码架构，在ShapeNet和Objaverse等基准测试中展现出超越传统优化方法和类别特定模型的泛化能力。

当前挑战

PrimitiveAnything面临的挑战主要体现在两个维度：在领域问题层面，现有方法难以平衡几何优化与语义理解之间的矛盾——优化方法虽能保证几何精度但易产生过分割，而学习模型受限于小规模类别特定数据导致泛化性不足。在构建过程层面，数据集面临基元参数化歧义（如立方体因对称性存在多组等效的旋转-缩放组合）、变长序列建模（样本基元数量从个位数到上百个不等）以及人类标注一致性（不同标注者对'语义合理'的分解存在主观差异）等核心挑战。此外，基元类型有限（仅三种参数化几何体）对复杂拓扑结构（如环状物体）的表示能力不足，也制约了数据集的适用范围。

常用场景

经典使用场景

在计算机视觉与图形学领域，PrimitiveAnything数据集通过将复杂3D形状解构为几何基元组合，为基于基元的3D内容创作提供了标准化范式。其核心应用场景体现在利用自回归Transformer模型，从点云输入生成符合人类认知习惯的基元装配序列，实现了从低层次几何特征到高层次语义结构的跨尺度建模。该框架特别适用于需要兼顾几何保真度与语义解释性的任务，如三维场景理解中的物体结构解析。

衍生相关工作

该工作催生了多项三维生成领域的延伸研究：MeshGPT将自回归生成范式扩展至三角网格领域；PASTA框架借鉴其序列建模思路实现部件感知的形状生成；腾讯Hunyuan3D则融合其基元表示与扩散模型。在学术层面，其提出的无歧义参数化方案被CLAY等后续工作采用，而形状条件Transformer架构为LRM等大重建模型提供了结构设计参考。

数据集最近研究