Better STEP
收藏arXiv2025-06-05 更新2025-06-10 收录
下载链接:
https://www.frdr-dfdr.ca/repo/dataset/d54b95e0-bc14-4236-b50b-922e5bf4ba7d
下载链接
链接失效反馈官方服务:
资源简介:
Better STEP 数据集是一个基于开放、跨平台的 HDF5 格式构建的边界表示(B-rep)数据集,包含从 ABC 数据集和 Fusion 360 数据集中转换而来的模型。该数据集旨在解决现有 B-rep 数据集在格式、处理和兼容性上的限制问题。数据集包含超过一百万个模型,涵盖了多种类型和尺寸的几何体,为 3D 形状学习和处理提供了丰富的资源。通过开源库的支持,用户可以方便地查询、处理和集成数据集,使其在 3D 形状学习任务中具有广泛应用。
The Better STEP Dataset is a boundary representation (B-rep) dataset built on the open and cross-platform HDF5 format, containing models converted from the ABC Dataset and the Fusion 360 Dataset. This dataset aims to address the limitations of existing B-rep datasets in terms of format, processing, and compatibility. The dataset contains over one million models, covering geometries of diverse types and sizes, and provides rich resources for 3D shape learning and processing. With the support of open-source libraries, users can conveniently query, process, and integrate the dataset, enabling its wide applications in 3D shape learning tasks.
提供机构:
维多利亚大学计算机科学系
创建时间:
2025-06-05
搜集汇总
数据集介绍

构建方式
Better STEP数据集通过将工业界广泛使用的STEP格式转换为基于HDF5的开放格式构建而成。该转换过程利用OpenCascade内核解析STEP文件中的几何与拓扑信息,并将其重组为结构化的字典格式。数据集整合了来自Fusion 360和ABC数据集的上百万个模型,采用分布式计算集群完成格式转换,平均单模型处理耗时数秒,总计算量约消耗1个CPU年。转换后的数据保留了原始B-rep的精确几何参数与拓扑关系,同时通过HDF5的跨平台特性解决了专有CAD内核的兼容性问题。
特点
该数据集的核心价值在于其开创性地将封闭的STEP格式转化为可自由访问的标准化表示。数据以参数化曲面(如B样条、圆柱体)和拓扑层次结构(面-环-半边)存储,支持直接查询连续几何属性。相较于传统网格数据,其独特优势在于完整保留CAD设计语义,例如曲面类型、控制点及构造历史。统计显示模型平均包含137个曲面片,最大规模超过3万个面片,且包含5类专业子集(Assembly/Joint等),覆盖从简单机械零件到复杂装配体的多样几何形态。
使用方法
研究者可通过配套Python库ABS实现高效数据访问,该库提供采样、法向量计算等基础操作接口。典型使用流程包括:调用read_parts加载HDF5文件,通过sample_parts函数配合lambda表达式实现定制化数据生成(如指定采样密度或提取特定几何特征)。数据集已成功验证于法向估计、去噪、曲面重建和分割四大任务,例如在BPNet分割任务中可直接获取原始参数化标签,避免了传统方法从网格反推参数的误差。对于需要网格数据的场景,库函数read_meshes可将B-rep转换为兼容主流深度学习框架的点-三角片结构。
背景与挑战
背景概述
Better STEP数据集由加拿大维多利亚大学计算机科学系的Nafiseh Izadyar、Sai Chandra Madduri和Teseo Schneider等研究人员于2025年提出,旨在解决计算机辅助设计(CAD)领域中边界表示(B-rep)数据的处理难题。该数据集基于开放的HDF5格式,提供了对传统STEP文件的替代方案,并通过开源库支持高效查询与处理。其核心研究问题聚焦于突破专有CAD内核对数据解析的限制,从而促进B-rep数据在大规模学习管线中的应用。该数据集通过转换Fusion 360和ABC等知名CAD数据集,为几何深度学习、参数化曲面分析等领域提供了标准化基准,显著提升了CAD模型在机器学习任务中的可用性和可扩展性。
当前挑战
Better STEP数据集面临的主要挑战体现在两个维度:领域问题层面,传统B-rep数据依赖专有STEP格式和CAD内核,导致跨平台部署困难、计算集群兼容性差,且不同内核版本存在互操作性问题;构建过程层面,数据转换需处理OpenCascade内核的稳定性缺陷(约5%模型无法生成网格),并需在保持几何精度前提下实现参数化曲面与拓扑关系的高效编码。此外,数据规模带来的计算压力(百万级模型转换需约1CPU年)及异构CAD数据源的格式统一化问题,均为数据集构建的关键技术壁垒。
常用场景
经典使用场景
在计算机辅助设计(CAD)和几何深度学习领域,Better STEP数据集为研究者提供了一个开放且跨平台的边界表示(B-rep)格式,解决了传统STEP格式依赖专有CAD内核的问题。该数据集广泛应用于参数化曲面的机器学习任务,如法线估计、去噪、曲面重建和分割。通过将Fusion 360和ABC数据集转换为基于HDF5的格式,Better STEP显著提升了数据处理的灵活性和效率,使其成为3D形状学习任务的新标准基准。
衍生相关工作
Better STEP数据集的推出催生了一系列相关研究工作,如BPNet和PathNet等模型,这些模型直接利用数据集的参数化信息进行几何分析和处理。此外,数据集的开放格式也激发了更多CAD数据集向开放标准的转换,促进了CAD与深度学习领域的深度融合。例如,DeepCAD和Brep2Seq等数据集在Better STEP的基础上进一步扩展了CAD模型的应用范围和研究深度。
数据集最近研究
最新研究方向
随着计算机辅助设计(CAD)在工业界的广泛应用,边界表示(B-rep)作为3D形状建模的核心格式,其数据处理与机器学习应用的结合成为研究热点。Better STEP数据集的提出,通过基于HDF5的开放格式替代传统STEP格式,解决了CAD内核依赖和高昂许可成本的问题,为大规模学习管道提供了新的可能性。该数据集在正常估计、去噪、表面重建和分割等任务中展现出卓越的适应性,特别是在保留参数化信息方面具有独特优势。当前研究前沿集中在开发直接操作B-rep结构的神经网络架构,以及探索参数化表面在几何深度学习中的新应用。这一进展不仅推动了CAD与机器学习的深度融合,也为工业设计自动化开辟了新的技术路径。
相关研究论文
- 1Better STEP, a format and dataset for boundary representation维多利亚大学计算机科学系 · 2025年
以上内容由遇见数据集搜集并总结生成



