turbo-compressors dataset

Name: turbo-compressors dataset
Creator: 麻省理工学院
Published: 2023-05-16 05:00:09
License: 暂无描述

arXiv2023-05-16 更新2024-06-21 收录

下载链接：

https://github.com/cyrilpic/radcomp

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为“涡轮压缩机数据集”，由麻省理工学院的研究人员创建，旨在为工程设计领域的机器学习应用提供大规模、特定领域的公开可用数据。数据集包含2200万个样本，涵盖了涡轮压缩机设计的关键参数和性能指标。创建过程涉及精心选择源数据、适当的建模和仿真技术以及对合成数据集的验证和验证。该数据集的应用领域包括但不限于优化设计探索、机器学习模型的训练和验证，以及推动AI技术在工程设计领域的更有效应用。

This dataset, named Turbocompressor Dataset, was created by researchers at the Massachusetts Institute of Technology (MIT) to provide large-scale, domain-specific publicly available data for machine learning applications in the field of engineering design. It contains 22 million samples covering key parameters and performance metrics for turbocompressor design. The dataset's creation process involves rigorous source data selection, appropriate modeling and simulation techniques, as well as validation and verification of the synthetic dataset. Application scenarios of this dataset include, but are not limited to, optimal design exploration, training and validation of machine learning models, and advancing more effective application of AI technologies in the field of engineering design.

提供机构：

麻省理工学院

创建时间：

2023-05-16

搜集汇总

数据集介绍

构建方式

在工程设计的背景下，涡轮压缩机数据集的构建遵循了系统化的合成数据生成框架。该框架首先明确定义了设计表示，将压缩机的几何参数和运行条件编码为21维特征向量，并设定了合理的参数范围以覆盖实际设计空间。数据生成阶段采用了多种采样策略的混合方法：主要基于均匀随机采样生成了1900万个样本，同时通过对14个真实压缩机设计施加高斯噪声进行数据增强，生成了200万个样本。此外，还结合领域知识，在特定马赫数范围内进行了针对性采样，以改善工作样本的比例。所有样本均通过一个经过验证的均值线分析模型进行标注，计算其总对总等熵效率和压比等性能指标，并标记其工作状态。

特点

该数据集的核心特点在于其规模庞大、标注丰富且具有明确的多目标导向性。它包含了超过2200万个合成设计样本，每个样本均关联了详细的性能标签，为数据驱动模型提供了充足的训练信息。数据集的设计体现了对多样性、真实性和实用性三个竞争性目标的平衡考量：一方面通过随机采样和空间填充思想追求设计空间的广泛覆盖；另一方面通过基于真实设计的数据增强，确保了合成数据在统计分布上接近真实世界数据，提升了模型的泛化能力。此外，数据集特别构建了具有不同分布特性的多个测试集，为评估模型在不同场景下的鲁棒性提供了严谨的基准。

使用方法

该数据集旨在服务于工程设计领域的数据驱动研究与应用。研究人员可将其用于训练和验证各类机器学习模型，例如分类模型（预测压缩机是否处于工作状态）或回归模型（预测效率与压比）。使用时应遵循论文建议的评估范式：将数据集划分为训练集和多个具有特定目标的测试集（如均匀分布测试集、真实设计测试集、任务专用测试集），以全面评估模型在探索、泛化和实际应用场景下的性能。通过结合AutoGluon等自动化机器学习工具，可以高效地进行模型比较与超参数调优。数据集附带的开源代码和模型，方便用户复现生成流程或将其方法迁移至其他工程设计问题。

背景与挑战

背景概述

涡轮压缩机数据集是麻省理工学院和洛桑联邦理工学院研究人员于2023年创建的合成数据集，旨在解决工程设计中高质量数据稀缺的核心问题。随着以ChatGPT和DALL-E为代表的人工智能技术在工程领域的渗透，领域特定、大规模且可公开访问的数据集成为制约技术应用的关键瓶颈。该数据集以离心压缩机为研究对象，通过参数化建模生成超过2200万个设计样本，并采用平均线分析模型进行性能标注，为数据驱动的压缩机设计优化提供了重要基础。其创建标志着工程领域开始系统性地构建标准化合成数据，以促进机器学习方法的可复现性与可比性研究，对热泵系统、余热回收等能源技术领域具有显著的推动作用。

当前挑战

该数据集主要面临双重挑战。在领域问题层面，其旨在解决的离心压缩机性能预测与优化设计问题具有高度复杂性：设计空间包含21个几何与工况参数，且仅约8%的随机组合能形成可行设计方案，导致数据极度不平衡；同时，设计多样性、性能多样性与现实性之间存在竞争关系，传统空间填充采样难以同时覆盖设计空间与性能空间。在构建过程中，挑战集中于合成数据的质量保障：需要平衡计算成本与模型精度，在有限预算下选择适当的采样策略（如随机采样、数据增强、潜在空间采样）与多保真度建模方法；此外，数据验证需建立多维评估体系，包括统计相似性、多样性度量以及面向特定任务（如高性能设计区域）的测试集构建，以确保数据集对下游机器学习应用的实际效用。

常用场景

经典使用场景

在工程设计与人工智能交叉领域，涡轮压缩机数据集为机器学习模型提供了丰富的训练与验证基础。该数据集通过合成数据生成方法，覆盖了离心压缩机的几何参数与运行条件，常用于构建预测压缩机工作状态与性能的监督学习模型。研究人员利用该数据集训练分类器，以区分压缩机在特定工况下的可行性与失效模式，从而加速早期设计阶段的评估与优化过程。

实际应用

在实际工程场景中，涡轮压缩机数据集被广泛应用于热泵系统、制冷设备及内燃机增压器的早期设计与性能预测。工程师可借助该数据集训练的机器学习模型，快速评估不同几何参数与运行条件下的压缩机效率与压力比，从而减少对昂贵物理实验的依赖，优化设计流程并提升产品开发效率。

衍生相关工作

该数据集衍生了一系列经典研究工作，例如基于主动学习与多样性采样的数据集优化方法，以及多任务机器学习框架在压缩机设计中的应用。相关研究进一步探索了合成数据在工程生成式人工智能中的潜力，推动了如METASET等项目在材料与机械设计领域的扩展，为复杂工程系统的数据驱动创新提供了范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集