STEMGym
收藏Hugging Face2026-02-25 更新2026-02-26 收录
下载链接:
https://huggingface.co/datasets/johnpolat/STEMGym
下载链接
链接失效反馈官方服务:
资源简介:
STEMGym数据集是为STEMGym基准测试提供的配套数据,用于评估自主剂量高效的扫描透射电子显微镜(STEM)代理。数据集包含模拟的STEM样本,以HDF5世界文件形式存储。每个世界文件包含:低倍全样本概览图像、高分辨率STEM图像(128×128像素的瓦片,4像素重叠,步长124,排列成8×8网格)、原子位置、缺陷类型和相图的真实标注,以及像素大小、加速电压、探测器几何形状和材料参数等元数据。数据集涵盖三种材料(SrTiO₃、BaTiO₃、SiGe),每种材料提供三个难度级别(简单、中等、困难),控制缺陷密度、噪声水平和空间分布。文件大小约为50MB每个,总规模在1K到10K之间。数据集适用于强化学习任务,特别是STEM显微镜的自主控制与优化。
创建时间:
2026-02-20
搜集汇总
数据集介绍
构建方式
在扫描透射电子显微镜(STEM)领域,自主剂量效率优化是材料科学的前沿课题。STEMGym数据集通过高保真模拟构建,涵盖SrTiO₃、BaTiO₃和SiGe三种典型材料体系,每种材料均生成包含低倍概览图像与高分辨率瓦片网格的HDF5世界文件。瓦片以128×128像素规格排列成8×8网格,并设置4像素重叠以确保空间连续性。数据集进一步引入原子位置、缺陷类型与相图等真实标注,并依据缺陷密度、噪声水平及空间分布划分为易、中、难三个难度等级,从而系统化地模拟实际显微观测中的复杂场景。
特点
该数据集的核心特征在于其多层次的结构设计与丰富的标注信息。每个世界文件不仅提供高分辨率瓦片图像与低倍概览,还整合了精确的原子坐标、缺陷分类及相分布等地面真值,为算法评估提供可靠基准。材料选择覆盖钙钛矿氧化物与半导体合金等代表性体系,缺陷类型包括氧空位、阳离子置换及畴界等常见微观现象。通过难度分级机制,数据集能够灵活适应不同研究阶段的需求,为自主STEM智能体的鲁棒性与泛化能力测试提供了标准化平台。
使用方法
使用STEMGym数据集时,研究者需通过配套的Gymnasium环境接口进行交互。安装相应软件包后,可调用预置脚本下载数据文件,并利用命令行工具启动基准测试。典型流程包括指定智能体类型、任务目标(如缺陷普查)及世界文件难度等级,系统将自动加载对应的HDF5文件并解析其内部结构。数据集中包含的预训练模型检查点可直接用于原子检测、缺陷分类等下游任务,支持研究者对比不同算法在剂量效率、扫描路径规划等方面的性能表现。
背景与挑战
背景概述
在材料科学与电子显微学领域,高剂量电子束对敏感样品造成的辐照损伤一直是制约扫描透射电子显微镜(STEM)观测精度的核心瓶颈。STEMGym数据集由Kurban Intelligence Lab于2026年创建,旨在为自主化、剂量高效的STEM显微技术提供基准测试环境。该数据集聚焦于钙钛矿氧化物与半导体合金等关键功能材料,通过模拟包含原子位置、缺陷类型与相分布的真实世界样本,为强化学习智能体开发与评估奠定了数据基础,推动了显微操作自动化与样品辐照损伤最小化的前沿交叉研究。
当前挑战
该数据集致力于解决自主STEM显微中剂量效率优化的挑战,即如何在有限电子剂量下最大化缺陷检测与材料表征的准确性,这要求智能体在探索样本细节与避免辐照损伤间取得平衡。构建过程中的挑战体现在高保真度模拟数据的生成,需精确复现不同材料(如SrTiO₃、BaTiO₃、SiGe)的原子结构、缺陷密度及噪声特征,并确保多难度级别下数据的一致性与可扩展性,同时整合涵盖原子探测、缺陷分类与相识别等多任务的地面真值标注体系。
常用场景
经典使用场景
在扫描透射电子显微镜(STEM)领域,自主剂量高效成像技术的开发面临缺乏标准化评估环境的挑战。STEMGym数据集通过提供模拟的SrTiO₃、BaTiO₃和SiGe等材料的高分辨率图像瓦片及其原子位置、缺陷类型等真实标注,构建了一个基于Gymnasium的强化学习基准环境。研究者能够在此环境中训练和测试自主代理,以优化电子束剂量分配策略,实现在最小化样品辐射损伤的同时,高效获取材料的微观结构信息。
衍生相关工作
围绕STEMGym基准,已衍生出一系列探索自主显微镜算法的经典工作。例如,基于深度强化学习的代理被开发用于学习动态扫描路径规划,以最大化信息获取并最小化剂量。同时,集成数据集提供的预训练模型(如AtomFinderUNet、DefectClassifierCNN),研究者发展了混合人工智能方法,将基于模型的推理与数据驱动的决策相结合。这些工作共同推动了“智能显微镜”这一新兴方向的发展,为材料科学、电子显微学与机器学习的深度融合树立了典范。
数据集最近研究
最新研究方向
在材料科学与电子显微学领域,自主扫描透射电子显微镜(STEM)的剂量效率优化正成为前沿热点。STEMGym数据集通过模拟SrTiO₃、BaTiO₃和SiGe等关键材料的缺陷分布与原子结构,为强化学习智能体提供了标准化测试平台。当前研究聚焦于开发自适应采样算法,以最小化电子束剂量对样品的损伤,同时精准识别氧空位、畴界等微观缺陷。该方向与实验室自动化、高通量材料表征等趋势紧密相连,有望推动智能显微镜在新能源材料和半导体器件研发中的实际应用,为材料发现过程带来革命性变革。
以上内容由遇见数据集搜集并总结生成



