five

Real Industry Dataset|半导体制造数据集|生产调度优化数据集

收藏
arXiv2025-05-16 更新2025-05-20 收录
半导体制造
生产调度优化
下载链接:
http://arxiv.org/abs/2505.11135v1
下载链接
链接失效反馈
资源简介:
该数据集是针对半导体前端工厂调度和派发任务的真实行业数据集。数据集包含了复杂的生产细节和约束条件,这些是传统的公开数据集如Minifab或SMT2020所缺乏的。数据集由多个研究机构合作收集,旨在为评估优化方法在不同复杂度水平下的可扩展性提供基准。数据集的应用领域是半导体制造,旨在解决生产调度和派发中的优化问题。
提供机构:
Infineon Technologies AG, University of Klagenfurt, Technical University Munich, University of Padua, Infineon Technologies Austria, D-SIMLAB Technologies Pte Ltd
创建时间:
2025-05-16
AI搜集汇总
数据集介绍
main_image_url
构建方式
Real Industry Dataset的构建基于半导体前端制造的实际工业场景,通过整合超过1000台设备和多样化的产品负载组合,确保了数据集的复杂性和真实性。该数据集不仅涵盖了多种生产调度问题,如单机调度问题(SMSP)和柔性作业车间调度问题(FJSSP),还引入了设备故障和预防性维护等随机因素,以模拟真实制造环境中的不确定性。数据集的构建过程还包括对工具专用性和批量处理复杂配方的约束进行详细建模,从而显著提升了数据集的约束多样性和实际应用价值。
特点
Real Industry Dataset的核心特点在于其高度复杂性和真实性。与公开基准数据集如Minifab和SMT2020相比,该数据集包含了更丰富的工具专用性和负载组合,使得统计关系和学习模式的提取更具挑战性。此外,数据集还模拟了多种异构负载场景,进一步增加了泛化难度。其独特的设备组调度启发式规则,经过领域专家精细调整,为强化学习算法提供了极具竞争力的基准。这些特点共同构成了一个能够有效评估调度和分派算法在真实工业场景中性能的高质量数据集。
使用方法
Real Industry Dataset的使用方法主要围绕强化学习算法的训练和评估展开。研究人员可通过分布式训练架构,利用并行仿真环境对策略梯度和进化策略等优化方法进行测试。数据集支持对瓶颈工具的选择和组合进行控制,并通过定义基于延迟和吞吐量的成本函数来指导算法优化。在使用过程中,需注意调整超参数和奖励函数以适应不同规模模型的特性。此外,数据集还支持对训练策略的泛化能力测试,包括在不同负载场景和随机工具故障模式下的性能评估。
背景与挑战
背景概述
Real Industry Dataset是由Infineon Technologies AG、University of Klagenfurt、Technical University Munich等机构的研究人员于2025年提出的,旨在解决半导体制造前端工厂中调度和分派问题的复杂性。该数据集通过结合真实的工业场景数据与开源仿真模型,为强化学习方法在半导体制造中的应用提供了更接近现实的评估基准。其核心研究问题在于如何优化半导体制造中的分派策略,以应对复杂的生产约束和不确定性。该数据集的提出填补了现有基准数据集(如Minifab和SMT2020)在复杂性和真实性上的不足,对半导体制造领域的调度优化研究具有重要影响。
当前挑战
Real Industry Dataset面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数据集需要解决半导体制造中复杂的调度和分派问题,包括处理数百个工艺步骤和机器、高度多样化的处理时间以及随机性事件(如机器故障)。这些问题的复杂性使得传统的优化方法难以应对。在构建过程中,数据集需要克服真实工业场景数据的获取难度、数据的高维度特性以及仿真模型与真实数据之间的差异。此外,如何确保数据集能够有效支持强化学习方法的训练和评估,尤其是在泛化性和计算效率方面,也是构建过程中的主要挑战。
常用场景
经典使用场景
Real Industry Dataset在半导体制造领域的前端工厂调度问题中,被广泛用于评估和比较不同强化学习方法的可扩展性和优化潜力。该数据集通过模拟真实制造环境中的复杂约束和随机因素,为研究者提供了一个接近实际的测试平台。特别是在处理具有重入流、批量处理和设备故障等复杂特性的调度问题时,该数据集展现了其独特的价值。
实际应用
在实际应用中,Real Industry Dataset被用于优化半导体前端工厂的生产调度,特别是在处理高混合负载和动态生产环境时表现出色。通过结合强化学习方法,该数据集帮助工厂在减少延迟和提高吞吐量方面取得了显著改进。例如,在实际工业场景中,使用该数据集的优化方法能够将延迟降低高达4%,吞吐量提高1%,从而显著提升了生产效率和资源利用率。
衍生相关工作
Real Industry Dataset衍生了许多相关研究,特别是在强化学习与进化策略的结合应用方面。例如,基于该数据集的研究提出了使用CMA-ES(协方差矩阵自适应进化策略)来优化深度神经网络的方法,显著提升了调度策略的性能。此外,该数据集还推动了多智能体系统和可解释AI(XAI)在半导体制造调度中的应用,为后续研究提供了丰富的理论基础和实践案例。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

28cff911-c75a-4991-86cd-cc371a930b0f

This research investigated the behaviour of the wild-type roots of rapeseed (growth morphology gravitropical sensitivity) in microgravity.

DataCite Commons 收录