DrivAerNet等五个工程数据集
收藏arXiv2025-04-17 更新2025-04-19 收录
下载链接:
https://github.com/kmsamuel/clfor-engineering-release
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了九个新的工程连续学习基准,这些基准基于五个代表性的3D工程数据集,包括DrivAerNet数据集,用于评估不同连续学习策略在工程代理模型任务中的表现。这些数据集模拟了新设计和新约束下工程数据的发展,要求模型能够随着时间的推移整合新知识。数据集的创建是为了解决传统代理模型方法在动态环境下的局限性,通过持续学习来实现更高效的模型更新,避免从零开始的重训练。这些数据集的应用领域主要是工程设计,旨在解决随着新数据、新约束或性能目标的出现,模型必须适应数据分布变化的问题。
This study constructs nine novel engineering continual learning benchmarks, which are developed based on five representative 3D engineering datasets including the DrivAerNet dataset, to evaluate the performance of different continual learning strategies on engineering surrogate model tasks. These datasets simulate the evolution of engineering data under novel designs and constraints, requiring models to integrate new knowledge over time. The datasets are created to address the limitations of traditional surrogate model methods in dynamic environments, enabling more efficient model updates via continual learning and avoiding retraining from scratch. These datasets are mainly applied in engineering design, aiming to solve the problem where models must adapt to changes in data distribution as new data, constraints or performance objectives emerge.
提供机构:
麻省理工学院
创建时间:
2025-04-17
搜集汇总
数据集介绍

构建方式
DrivAerNet等五个工程数据集的构建采用了高保真计算流体动力学(CFD)仿真技术,通过几何参数化与点云表示相结合的方式捕捉复杂的三维设计特征。数据集涵盖汽车空气动力学、船舶流体力学及飞行器设计领域,每个样本均包含几何输入(如参数向量或点云)与连续目标值(如阻力系数)。数据划分遵循增量学习场景设计,包括基于目标值分箱的Bin Incremental和基于输入分布的Input Incremental模式,通过动态任务序列模拟工程设计中数据演化的真实场景。
特点
该数据集的核心特点在于其多模态表示能力与增量学习适配性:1)同时提供参数化描述和高分辨率点云数据,支持不同粒度建模需求;2)目标变量为连续物理量(如阻力系数),符合工程回归任务特性;3)内置九种增量学习基准测试场景,包含跨领域分布偏移与多任务增量等挑战;4)规模从800到30,000样本不等,覆盖小样本学习至大数据场景。特别地,DrivAerNet++通过Fastback/Notchback/Estateback车型分类实现了输入分布的自然划分,为概念漂移研究提供理想测试平台。
使用方法
使用本数据集需遵循三阶段流程:首先根据任务类型选择数据表示(参数化或点云),并加载对应预处理模型(如回归PointNet或ResNet)。其次配置增量学习场景,通过Avalanche框架将数据流划分为经验序列,每个经验包含特定目标值区间或设计类别的样本。最后采用Replay/EWC/GEM等策略进行增量训练,监控平均绝对误差(MAE)与遗忘率等指标。建议优先测试Bin Incremental场景验证模型扩展预测范围的能力,再利用Input Incremental场景评估分布偏移适应性。所有基准测试需对比联合训练基线以量化计算效率提升。
背景与挑战
背景概述
DrivAerNet等五个工程数据集由麻省理工学院(MIT)的研究团队于2024至2025年间构建,旨在解决工程设计中机器学习模型在动态数据环境下的持续学习问题。这些数据集聚焦于空气动力学预测、船舶设计优化等工程回归任务,通过参数化几何和点云数据表征复杂的三维结构。核心研究问题在于如何使代理模型(surrogate model)在数据分布随时间演化的场景中避免灾难性遗忘,同时保持高效的计算性能。该系列数据集首次将持续学习技术引入工程回归领域,填补了传统分类任务与工程实际需求间的鸿沟,为航空、汽车等行业的数字化设计流程提供了关键基准。
当前挑战
领域挑战方面,工程回归任务需应对连续值预测的精确性要求与动态数据分布间的矛盾,例如汽车空气动力学系数预测需适应新型电动车设计的几何变化。构建挑战包括:1) 高维几何数据(如20,000个点的船舶点云)导致模型训练复杂度激增;2) 参数化与非参数化表征的异构数据融合问题;3) 有限样本下(如RAADL仅800个滑翔机样本)模型泛化能力不足。此外,持续学习场景设计需创新性改造传统分类范式,如提出基于目标值分箱(bin incremental)和输入分布漂移(input incremental)的工程专属评估框架。
常用场景
经典使用场景
在工程设计与计算流体动力学领域,DrivAerNet等数据集被广泛用于构建代理模型,以替代传统高保真仿真方法。这些数据集通过几何参数化表示和点云数据,支持机器学习模型预测关键性能指标如阻力系数。其经典应用场景包括汽车空气动力学优化,其中模型通过增量学习不断整合新设计数据,适应动态变化的工程需求,同时避免灾难性遗忘。
解决学术问题
该系列数据集解决了工程机器学习中数据演化与模型更新的核心矛盾。通过引入持续学习框架,有效缓解了传统代理模型在动态数据流中面临的灾难性遗忘问题。研究证明,基于回放的持续学习策略在保持历史知识的同时,可将训练时间减少近50%,为计算密集型工程仿真提供了高效替代方案。
衍生相关工作
基于这些数据集衍生的经典工作包括:1) 持续学习基准框架Avalanche在工程回归任务的适配研究;2) 针对3D几何的Miracle 3D持续学习方法;3) 船舶设计优化中的SHIPD-Par代理模型。相关研究推动了点云神经网络与参数化建模在工程AI领域的融合,形成跨机械、航空、船舶等多学科的研究范式。
以上内容由遇见数据集搜集并总结生成



