华威电子显微镜数据集
收藏arXiv2020-05-21 更新2024-06-21 收录
下载链接:
https://github.com/Jeffrey-Ede/datasets
下载链接
链接失效反馈官方服务:
资源简介:
华威电子显微镜数据集是由华威大学物理系创建,包含三个主要数据集,总计135375个图像,包括扫描透射电子显微镜图像、透射电子显微镜图像和模拟的出口波函数。这些数据集用于训练神经网络和标准化性能基准。数据集创建过程中,通过数十名科学家在数百个项目中的合作收集而成。该数据集主要应用于电子显微镜领域,旨在通过标准化测试集提高机器学习研究的质量和可比性。
The Warwick Electron Microscopy Dataset was developed by the Department of Physics, University of Warwick. It consists of three core datasets totaling 135,375 images, including scanning transmission electron microscopy (STEM) images, transmission electron microscopy (TEM) images, and simulated exit wave functions. These datasets are employed for training neural networks and establishing standardized performance benchmarks. The dataset was compiled through collaborative efforts from dozens of scientists across hundreds of projects during its creation. Primarily utilized in the field of electron microscopy, this dataset aims to elevate the quality and comparability of machine learning research via standardized test datasets.
提供机构:
华威大学物理系
创建时间:
2020-03-02
搜集汇总
数据集介绍

构建方式
华威电子显微镜数据集通过精心策划和分区,汇集了大量实验和模拟数据。该数据集包括19769张扫描透射电子显微镜(STEM)图像、17266张透射电子显微镜(TEM)图像以及98340个模拟的TEM出射波函数。这些数据由华威大学的科学家们在2010年1月至2018年6月期间收集,涵盖了数百个研究项目。数据集的构建过程中,采用了变分自编码器(VAE)对图像数据进行编码,并通过t分布随机邻域嵌入(t-SNE)进行二维聚类,以实现数据的可视化和标准化。
特点
华威电子显微镜数据集的显著特点在于其大规模和多样性。数据集不仅包含了丰富的实验图像,还包括了大量的模拟数据,这为机器学习模型的训练提供了广泛的基础。此外,数据集的分区设计确保了每个子集具有不同的特征,从而提高了模型的鲁棒性和泛化能力。通过引入编码归一化和正则化,以及图像梯度损失,数据集的视觉化效果得到了显著提升,使得数据的高维特征能够更好地在二维空间中展现。
使用方法
华威电子显微镜数据集适用于多种机器学习应用,特别是在材料科学和电子显微镜领域。用户可以通过变分自编码器(VAE)对数据进行特征提取和降维,然后利用t-SNE进行数据的可视化和聚类分析。此外,数据集还提供了预训练模型和源代码,方便用户进行快速开发和验证。为了确保数据集的有效使用,建议用户在训练和验证过程中遵循数据集的默认分区,并根据具体应用调整模型参数和数据预处理步骤。
背景与挑战
背景概述
华威电子显微镜数据集(Warwick Electron Microscopy Datasets)由英国华威大学物理系的研究团队创建,主要研究人员包括Jeffrey M. Ede。该数据集的构建始于2010年,持续至2018年,旨在为电子显微镜领域的神经网络训练提供大规模、精心分区的数据集,并标准化性能基准。数据集包含19769张扫描透射电子显微镜图像、17266张透射电子显微镜图像以及98340个模拟的出射波函数,适用于多种应用场景。该数据集的发布对电子显微镜领域的机器学习研究具有重要影响,推动了材料科学中机器学习的应用,并促进了该领域研究的标准化。
当前挑战
华威电子显微镜数据集在构建过程中面临多项挑战。首先,数据集的多样性和复杂性要求研究人员在数据分区时确保每个子集具有不同的特征,以提高神经网络的鲁棒性。其次,数据集的可视化是一个重要挑战,研究人员通过训练变分自编码器(VAE)并引入编码归一化和正则化,改进了数据集的可视化效果。此外,数据集的发布也面临标准化问题,尤其是在电子显微镜领域,大多数数据集规模较小、专业性强,缺乏默认的机器学习分区,这使得结果难以比较。通过发布大规模、精心分区的机器学习数据集,研究人员希望推动该领域研究的标准化。
常用场景
经典使用场景
华威电子显微镜数据集的经典使用场景主要集中在电子显微镜图像的分析与处理。该数据集包含了大量的扫描透射电子显微镜(STEM)和透射电子显微镜(TEM)图像,以及模拟的出口波函数。这些数据被广泛用于训练神经网络,以提高图像的分辨率和信号噪声比。通过使用变分自编码器(VAE)和t分布随机邻域嵌入(t-SNE)等技术,研究人员能够对这些高维数据进行降维和可视化,从而更好地理解材料的微观结构和特性。
解决学术问题
华威电子显微镜数据集解决了电子显微镜领域中常见的几个学术研究问题。首先,它为神经网络的训练提供了大规模、精心分区的数据集,有助于标准化性能基准。其次,通过提供多样化的图像和波函数数据,该数据集帮助研究人员解决了图像噪声、分辨率不足等问题。此外,数据集的公开使用促进了研究的可重复性和结果的可比性,缓解了科学领域的可重复性危机。
衍生相关工作
华威电子显微镜数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究人员开发了多种深度学习模型,用于图像去噪、超分辨率重建和材料分类。此外,数据集的可视化技术也被进一步优化,如引入编码归一化和正则化,以及扩展t-SNE以考虑编码的标准差。这些工作不仅提升了数据集的应用价值,还为电子显微镜领域的研究提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



