five

HenryWang4/PRISM

收藏
Hugging Face2026-04-12 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/HenryWang4/PRISM
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - tabular-regression tags: - thin-film - optics - photonics - inverse-design - transfer-matrix-method - spectral-data pretty_name: PRISM Thin-Film Optical Design Dataset size_categories: - 10M<n<100M --- # PRISM -- Thin-Film Optical Design Dataset Synthetic dataset of thin-film multilayer optical stacks and their simulated reflectance/transmittance spectra. Generated for training and evaluating [PRISM](https://github.com/wang-henry4/prism) (Position-encoded Regressive Inverse Spectral Model), an autoregressive transformer for inverse thin-film design. Each sample is a (materials, thicknesses, spectrum) triple: a thin-film stack definition and its physically simulated optical response. ## Subsets ### Training data | Subset | Layers | Thickness step | Thickness range | Splits | Total samples | |---|---|---|---|---|---| | `max_len_20_10nm` | 1--20 | 10 nm | 10--500 nm | train / dev / val | 10,110,000 | ### Validation-only (out-of-distribution) These subsets have no training split and are used to evaluate generalisation. | Subset | Layers | Thickness step | Thickness range | Samples | Purpose | |---|---|---|---|---|---| | `max_len_20_5nm` | 1--20 | 5 nm | 5--250 nm | 110,000 | Dev + val for 5 nm (alternate path) | | `max_len_20_15nm` | 1--20 | 15 nm | 15--750 nm | 20,000 | OOD thickness step | | `max_len_20_20nm` | 1--20 | 20 nm | 20--1000 nm | 10,000 | OOD thickness step | | `max_len_30_10nm` | 20--30 | 10 nm | 10--500 nm | 10,000 | OOD sequence length | | `max_len_40_10nm` | 30--40 | 10 nm | 10--500 nm | 10,000 | OOD sequence length | | `max_len_50_10nm` | 40--50 | 10 nm | 10--500 nm | 10,000 | OOD sequence length | | `thick/15nm` | 20 | 15 nm | 15--750 nm | 10,000 | Thick designs only (cum. depth >= 11,000 nm) | | `thick/20nm` | 20 | 20 nm | 20--1000 nm | 10,000 | Thick designs only (cum. depth >= 11,000 nm) | | `max_length_10` | 1--10 | 5 nm | 5--250 nm | 30,000 | Short sequence validation | ## Github https://github.com/wang-henry4/prism/blob/main/master_eval.sh
提供机构:
HenryWang4
搜集汇总
数据集介绍
main_image_url
构建方式
PRISM数据集(Position-encoded Regressive Inverse Spectral Model)是为薄膜光学逆向设计而构建的大规模合成数据集。其构建逻辑围绕(材料、厚度、光谱)三元组展开,利用传输矩阵方法物理模拟多层薄膜堆叠的光学响应。具体而言,数据集包含1至20层薄膜的基底设计,厚度参数在10至500纳米范围内以10纳米为步长离散采样,共计生成1011万条样本。此外,为评估模型泛化能力,还构建了多个分布外验证子集,涵盖5纳米、15纳米、20纳米等不同厚度步长,以及30至50层更长的序列配置,并包含累积深度超过11000纳米的厚膜设计。
特点
该数据集的核心特点在于其规模宏大且结构精细,总样本量超过1011万条,涵盖薄膜层的数量、厚度步长与范围等多维变化。训练子集专注于均匀厚度步长下的系统采样,而验证子集则刻意引入分布外场景,如极端步长、超长序列和异常累积厚度,为评估模型的外推能力提供严苛基准。数据集的标签明确且物理一致,每个样本均包含完整的膜层定义与对应光谱,适用于监督学习中的回归任务,尤其服务于自回归Transformer模型的训练与评测。
使用方法
PRISM数据集专为薄膜光学逆向设计的机器学习模型开发而设计,尤其适用于训练PRISM这一自回归Transformer模型。用户可通过HuggingFace接口加载指定子集,例如`max_len_20_10nm`用于训练,其余不含训练分片的子集用于验证模型的分布外泛化能力。使用时应将膜的厚度序列与材料类型作为输入特征,光谱数据作为预测目标。数据集已被组织为表格回归形式,便于直接接入标准深度学习框架,同时官方GitHub仓库提供了详尽的评估脚本和采样指令,支持用户复现论文中的基准测试与自定义实验。
背景与挑战
背景概述
PRISM(Position-encoded Regressive Inverse Spectral Model)数据集由Henry Wang等研究者创建,旨在应对薄膜光学逆设计这一前沿挑战。薄膜光学系统在光电子器件中扮演关键角色,其设计通常依赖正向模拟与参数扫描,效率低下且难以探索非直观解空间。该数据集于近年发布,包含逾千万组(材料、厚度、光谱)三元组,通过传输矩阵法物理模拟生成,覆盖1至50层薄膜结构及多种厚度步长参数。其核心研究问题在于训练自回归变换器模型,实现从目标光谱到薄膜堆栈定义的高效逆映射。凭借规模庞大且物理精确的特性,PRISM数据集为数据驱动的光学逆设计提供了标准化基准,显著推动了机器学习在光子学领域的应用,成为连接计算光学与人工智能的重要桥梁。
当前挑战
PRISM数据集首先直面薄膜光学逆设计中的多模态不适定问题——同一光谱响应可能对应多种薄膜堆栈配置,模型需在非唯一映射中寻找合理解。构建过程中,研究者需平衡光谱模拟精度与数据生成效率,传输矩阵法虽物理准确,但大规模计算开销巨大。此外,数据集设计必须涵盖广泛参数空间以训练泛化模型,包括不同层数(1至50层)和厚度步长(5 nm至20 nm)的分布内数据,同时构造分布外测试集(如超厚膜结构或极端层数序列)以评估模型对未见情形的适应能力。如何确保合成数据与真实制造工艺的一致性,以及克服逆设计中的局部最优陷阱,亦是该领域持续攻坚的难点。
常用场景
经典使用场景
在薄膜光子学研究领域,PRISM数据集以其大规模、高质量的合成光谱数据著称,经典使用场景集中于训练自回归逆设计模型。该数据集包含超过一千万组薄膜多层堆叠结构及其物理模拟的反射率与透射率光谱,专为PRISM模型设计,旨在实现从目标光谱到薄膜参数(材料与厚度)的逆向映射。研究者可利用该数据集进行序列到序列的学习,通过自回归变换器精准预测薄膜堆叠层级,推动光学异质结构的高效自动化设计。
解决学术问题
该数据集有效解决了薄膜光子学中逆设计问题的两个核心学术挑战:缺乏大规模基准数据和泛化能力评估困难。PRISM提供了分层级的训练与验证子集,包含不同厚度步长、层级数量与累积厚度的边界分布样本,使研究者能够系统性地测试模型对领域外参数的鲁棒性。这推动了可解释逆设计模型的发展,并为光学设计方案空间探索奠定了可复现的评测基础,显著提升了薄膜光谱建模的科学严谨性。
衍生相关工作
基于PRISM数据集,衍生出一系列经典工作,包括PRISM模型的原始版本(自回归逆光谱模型),以及后续针对长序列与厚膜结构的改进方法。研究者由此探索了局部注意力机制与物理约束正则在薄膜逆设计中的应用,并推动了多层光学堆栈高效搜索策略的发展。该数据集还催生了基于迁移学习的跨厚度步长泛化方法,为光学仿真数据的领域适应技术提供了可复现的基准测试平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作