Real Industry Dataset
收藏arXiv2025-05-16 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.11135v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是针对半导体前端工厂调度和派发任务的真实行业数据集。数据集包含了复杂的生产细节和约束条件,这些是传统的公开数据集如Minifab或SMT2020所缺乏的。数据集由多个研究机构合作收集,旨在为评估优化方法在不同复杂度水平下的可扩展性提供基准。数据集的应用领域是半导体制造,旨在解决生产调度和派发中的优化问题。
This dataset is a real-world industrial dataset targeting scheduling and dispatching tasks in semiconductor front-end factories. It includes complex production details and constraints that are absent in traditional public datasets such as Minifab or SMT2020. The dataset was collaboratively collected by multiple research institutions, aiming to provide benchmarks for evaluating the scalability of optimization methods across different complexity levels. Focused on the semiconductor manufacturing domain, this dataset is designed to solve optimization problems in production scheduling and dispatching.
提供机构:
Infineon Technologies AG, University of Klagenfurt, Technical University Munich, University of Padua, Infineon Technologies Austria, D-SIMLAB Technologies Pte Ltd
创建时间:
2025-05-16
搜集汇总
数据集介绍

构建方式
Real Industry Dataset的构建基于半导体前端制造的实际工业场景,通过整合超过1000台设备和多样化的产品负载组合,确保了数据集的复杂性和真实性。该数据集不仅涵盖了多种生产调度问题,如单机调度问题(SMSP)和柔性作业车间调度问题(FJSSP),还引入了设备故障和预防性维护等随机因素,以模拟真实制造环境中的不确定性。数据集的构建过程还包括对工具专用性和批量处理复杂配方的约束进行详细建模,从而显著提升了数据集的约束多样性和实际应用价值。
特点
Real Industry Dataset的核心特点在于其高度复杂性和真实性。与公开基准数据集如Minifab和SMT2020相比,该数据集包含了更丰富的工具专用性和负载组合,使得统计关系和学习模式的提取更具挑战性。此外,数据集还模拟了多种异构负载场景,进一步增加了泛化难度。其独特的设备组调度启发式规则,经过领域专家精细调整,为强化学习算法提供了极具竞争力的基准。这些特点共同构成了一个能够有效评估调度和分派算法在真实工业场景中性能的高质量数据集。
使用方法
Real Industry Dataset的使用方法主要围绕强化学习算法的训练和评估展开。研究人员可通过分布式训练架构,利用并行仿真环境对策略梯度和进化策略等优化方法进行测试。数据集支持对瓶颈工具的选择和组合进行控制,并通过定义基于延迟和吞吐量的成本函数来指导算法优化。在使用过程中,需注意调整超参数和奖励函数以适应不同规模模型的特性。此外,数据集还支持对训练策略的泛化能力测试,包括在不同负载场景和随机工具故障模式下的性能评估。
背景与挑战
背景概述
Real Industry Dataset是由Infineon Technologies AG、University of Klagenfurt、Technical University Munich等机构的研究人员于2025年提出的,旨在解决半导体制造前端工厂中调度和分派问题的复杂性。该数据集通过结合真实的工业场景数据与开源仿真模型,为强化学习方法在半导体制造中的应用提供了更接近现实的评估基准。其核心研究问题在于如何优化半导体制造中的分派策略,以应对复杂的生产约束和不确定性。该数据集的提出填补了现有基准数据集(如Minifab和SMT2020)在复杂性和真实性上的不足,对半导体制造领域的调度优化研究具有重要影响。
当前挑战
Real Industry Dataset面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数据集需要解决半导体制造中复杂的调度和分派问题,包括处理数百个工艺步骤和机器、高度多样化的处理时间以及随机性事件(如机器故障)。这些问题的复杂性使得传统的优化方法难以应对。在构建过程中,数据集需要克服真实工业场景数据的获取难度、数据的高维度特性以及仿真模型与真实数据之间的差异。此外,如何确保数据集能够有效支持强化学习方法的训练和评估,尤其是在泛化性和计算效率方面,也是构建过程中的主要挑战。
常用场景
经典使用场景
Real Industry Dataset在半导体制造领域的前端工厂调度问题中,被广泛用于评估和比较不同强化学习方法的可扩展性和优化潜力。该数据集通过模拟真实制造环境中的复杂约束和随机因素,为研究者提供了一个接近实际的测试平台。特别是在处理具有重入流、批量处理和设备故障等复杂特性的调度问题时,该数据集展现了其独特的价值。
实际应用
在实际应用中,Real Industry Dataset被用于优化半导体前端工厂的生产调度,特别是在处理高混合负载和动态生产环境时表现出色。通过结合强化学习方法,该数据集帮助工厂在减少延迟和提高吞吐量方面取得了显著改进。例如,在实际工业场景中,使用该数据集的优化方法能够将延迟降低高达4%,吞吐量提高1%,从而显著提升了生产效率和资源利用率。
衍生相关工作
Real Industry Dataset衍生了许多相关研究,特别是在强化学习与进化策略的结合应用方面。例如,基于该数据集的研究提出了使用CMA-ES(协方差矩阵自适应进化策略)来优化深度神经网络的方法,显著提升了调度策略的性能。此外,该数据集还推动了多智能体系统和可解释AI(XAI)在半导体制造调度中的应用,为后续研究提供了丰富的理论基础和实践案例。
以上内容由遇见数据集搜集并总结生成



