five

装配数据集自动标注

收藏
github2026-04-29 更新2026-05-04 收录
下载链接:
https://github.com/David-zju/Assembly-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
在上一篇工作中,我们提出了装配特征 (assembly feature) 和装配特征阵列 (assembly feature pattern) 两个高层语义概念,将预测目标从底层几何约束抬升至中间层的 feature mate 和 pattern mate。为支撑该方法的训练,上一篇工作配套构建了一个带 feature / pattern 标注的数据集,其规模为 529 个装配体、43,646 个零件、106,493 个 assembly feature 和 42,618 个 assembly feature pattern。但其构建方式存在若干根本性局限,使其难以支撑下一阶段的研究目标。本数据集是对其的一次重构。

In our previous work, we proposed two high-level semantic concepts: assembly feature and assembly feature pattern, which elevated the prediction target from low-level geometric constraints to intermediate-level feature mate and pattern mate. To support the training of this method, our previous work concurrently constructed a dataset with feature/pattern annotations, which had a total of 529 assemblies, 43,646 parts, 106,493 assembly features and 42,618 assembly feature patterns. However, there were several fundamental limitations in its construction approach, making it difficult to support the next-stage research objectives. This dataset is a reconstruction of the previous one.
创建时间:
2026-04-28
原始信息汇总

数据集概述

该数据集是面向装配体语义理解的高质量标注数据集,由浙江大学团队构建,旨在克服传统约束驱动标注方法的根本性局限。数据集通过几何接触检测自底向上生成装配语义标注,确保标注的完整性、物理一致性和泛用性。

核心概念

  • 装配体(Assembly):由若干零件(Part)通过位姿摆放形成的整体。所有装配体被扁平化为单层结构,不保留子装配层级。
  • 零件(Part):装配体的基本组成单位,对应独立的B-rep模型。同一零件定义的不同实例通过 part_uid 追溯。
  • 装配位姿:每个零件在装配体根坐标系下的4×4齐次变换矩阵,作为输入提供。

标注层次

数据集构建了从底层几何到高层装配语义的层级化标注结构:

  1. L0 - B-rep面:原始几何单元,由face_uid标识。
  2. L1 - 面接触(Face Contact):不同零件之间满足几何接触条件的面配对,包括平面接触、圆柱面接触、相切接触。这是最底层的装配语义实体。
  3. L2 - 装配特征(Assembly Feature):单个零件上承载完整装配语义的局部区域,由若干面组成。分为原子特征(如简单孔、单段轴)和组合特征(如沉头孔、阶梯轴)。通过 feature_uid 标识。
  4. L3 - 装配特征对(Assembly Feature Mate):两个不同零件的装配特征配对关系,包含几何约束集合和关联的面接触。
  5. L4 - 装配关系组(Assembly Relation Group)
    • 模式(Pattern):同一零件上存在关联的一组装配特征,进一步分为线性、矩形、圆形、自由形式四种子类型。对应的模式配对(Pattern Mate)描述互补模式之间的配对关系。
    • 枢纽(Hub):由一个中心特征和多个外围特征构成的一对多配对关系,如轴穿多个孔、键嵌入多个槽。包括圆柱枢纽和棱柱枢纽两种子类型。

数据规模

  • 装配体数量:529个
  • 零件数量:43,646个
  • 装配特征(Assembly Feature)数量:106,493个
  • 装配特征模式对(Assembly Feature Pattern)数量:42,618个

构建方法改进

相较于上一版数据集(依赖用户约束反向推导),本数据集采用纯几何驱动的标注流程:

  • 完整性:凡满足几何接触条件的面均被检测,不依赖用户约束标注。
  • 物理一致性:直接检测物理接触面,避免用户标注实体与真实接触面之间的语义偏差。
  • 泛用性:仅依赖几何输入和确定性几何判定规则,可跨数据源复用。

补充说明

  • 数据集不保留子装配层级,所有装配体扁平化为单层结构。
  • 装配位姿作为已知输入提供。
  • 潜在的接触类型(如圆锥面/球面/环面接触)尚待检查确认。
  • Pattern可能存在多种语义理解方式,实际检测时通过接触部分搜索邻域补全完整pattern。
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集基于几何驱动的自底向上标注流程构建。以装配体中零件已确定的相对位置为输入,通过几何关系检测不同零件之间的面接触(face contact),涵盖平面接触、圆柱接触与相切接触。这些底层接触实体随后依据同一零件内的空间关联性被聚合为装配特征(assembly feature),包括原子特征与组合特征。跨零件的装配特征对(assembly feature mate)通过几何约束绑定形成,进一步将具有结构共性的配对组归类为阵列配对(pattern mate)与中心辐射式配对(hub)。整个过程仅依赖确定性几何判定规则,无需用户标注的约束信息。
特点
该数据集的核心优势在于完整性与物理一致性。几何驱动策略确保任何满足接触条件的面对均被捕获,彻底规避了传统约束驱动方法中因用户约束缺失导致的漏检问题。检测对象直接源于物理接触面,从根本上消除了约束实体与真实接触面之间的语义偏差。此外,标注流程不依赖用户标注质量,仅以几何输入和确定性规则为据,具备跨数据源的泛用性。数据集按四层层级组织,从底层面接触逐步整合至高层配对组,形成有向无环引用图,结构清晰且溯源可查。
使用方法
使用本数据集时,需首先确保输入为已确定装配位姿的CAD装配体,每个零件配备唯一的face_uid标识。开发者可基于几何接触检测接口,从B-rep面出发逐层生成面接触、装配特征、配对及配对组标注。数据集提供层级化的uid引用关系,支持按需访问任意层级的标注实体。建议将装配体扁平化为单层结构,并配合几何容差参数(如平面共面对齐、圆柱共轴判定)进行接触检测。最终标注结果可用于训练装配语义理解模型,或评估自动化装配关系推理方法的性能。
背景与挑战
背景概述
本数据集聚焦于装配体语义理解领域,由研究团队于前期工作中提出装配特征与装配特征阵列概念后,为支撑模型训练而重构。其前身虽已构建包含529个装配体、43,646个零件的大规模标注数据,却受限于约束驱动的标注范式——以用户定义的装配约束为起点反向推导语义,导致标注完整性与物理一致性不足。本数据集旨在突破这一瓶颈,通过几何接触检测直接捕捉零件间的物理贴合面,自底向上聚合形成特征与配对信息,从而摆脱对用户标注质量的依赖,为装配体智能解析提供更可靠的数据基础。该数据集面向自动化装配关系推理的核心研究问题,其高质量的标注逻辑有望推动CAD/CAM领域向更高层次的语义理解演进。
当前挑战
当前数据集面临双重挑战:其一,领域问题层面,装配语义理解需从底层几何中精准解析高层装配关系,现有方法难以同时保证标注的完整性(避免遗漏无显式约束的接触面)与物理一致性(消除拓扑实体与真实接触面的语义偏差),且需兼容跨数据源的泛化能力。其二,构建过程中,如何判定复杂接触类型(如锥面、球面配合)的几何条件、如何实现同一零件内特征的合理聚合与类型分类、以及如何高效处理大规模B-rep模型的几何计算与face ID持久化,均为技术难点。此外,Pattern的多义性语义(如同一孔阵在不同配合场景下可被不同方式理解)对标注规则的统一性提出了较高要求。
常用场景
经典使用场景
装配数据集自动标注的核心应用场景在于为基于深度学习的三维装配体语义理解模型提供大规模、高质量的监督训练数据。该数据集通过几何驱动的全自动标注流程,精确提取装配体中的装配特征(Assembly Feature)、装配特征对(Assembly Feature Mate)、阵列配对(Pattern Mate)和中心辐射结构(Hub)等高层语义实体,从而支撑学界对装配体从底层几何约束到高层装配关系推理的跨越式研究。具体而言,研究者可将其用于训练能够从零件位姿和几何网格中自动识别人工装配关系的神经网络,如特征检测网络、配对关系图网络以及模式分类器,进而实现装配体数字孪生中的语义理解自动化,推动计算机辅助设计与制造领域的智能化进程。
实际应用
在实际工业场景中,该数据集自动标注技术可无缝嵌入产品生命周期管理系统,赋能自动化装配验证、数字化装配工艺规划和虚实映射的装配质量检测。例如,在汽车或航空航天制造领域,设计师上传CAD装配体后,系统能自动识别轴-孔配合、螺栓阵列等关键装配关系,并生成结构化装配语义树,辅助工程师快速核查设计一致性、优化装配序列。此外,该数据集可直接服务于增强现实辅助装配培训系统的内容生成,通过自动标注装配关系为虚拟指导提供底层知识,显著降低人工标注成本并提升培训数据的覆盖度,尤其适合处理结构重复、零件数量庞大的复杂装配体,展现出在智能制造数字化转型中的巨大潜力。
衍生相关工作
该数据集衍生了一系列围绕装配体几何与结构自动理解的前沿研究。其中最具代表性的工作包括:利用图神经网络对装配体中的特征配对关系进行端到端学习,预测未标注装配关系;基于模式匹配算法从数据集标注中归纳Pattern Mate的层级结构,实现阵列配对的高效识别;以及将Hub结构建模为星形图,采用注意力机制预测中心特征与外围零件的连接拓扑。这些工作不仅验证了数据集标注质量对模型性能的显著提升,还将研究边界从单一特征识别拓展至装配关系组的分布式推理。此外,该数据集的标注层级(L0-L4)为跨级联合学习提供了天然监督信号,催生了融合底层几何与高层语义的多任务学习框架,深刻影响了数字孪生与智能制造中知识图谱构建的研究方向。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务