five

UniEM-3M

收藏
Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/NNNan/UniEM-3M
下载链接
链接失效反馈
官方服务:
资源简介:
UniEM-3M是一个大规模的多模态电子显微镜(EM)数据集,用于实例级的微结构理解。该数据集提供了高分辨率的电子显微镜图像和专家审核的注释与文本描述,目的是加速自动化材料分析和材料科学深度学习的研究。数据集包括5091张高分辨率EM图像,约300万实例分割标签,图像级结构描述以及一个基于整个数据集训练的文本到图像扩散模型。

UniEM-3M is a large-scale multimodal electron microscopy (EM) dataset tailored for instance-level microstructure understanding. It provides high-resolution EM images, expert-validated annotations and textual descriptions, with the aim of accelerating research in automated material analysis and deep learning for materials science. The dataset comprises 5091 high-resolution EM images, approximately 3 million instance segmentation labels, image-level structural descriptions, and a text-to-image diffusion model trained on the full dataset.
创建时间:
2025-08-21
原始信息汇总

UniEM-3M 数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 图像到文本、文本到图像、图像分割
  • 标签: 电子显微图、材料、微观结构、表征、科学图表理解
  • 规模类别: 10K<n<100K

数据集内容

当前发布内容

  • 合成数据-结构化描述 (synthesized_data_structured_descriptions)
    • 样本数量: 9,106
    • 数据大小: 13,685,770,890.264 字节
  • 合成数据-图像标题 (synthesized_data_image_captions)
    • 样本数量: 19,016
    • 数据大小: 32,591,407,248 字节

待发布内容(同行评审后)

  • 真实电子显微图像及对应描述
  • 约300万个实例分割标签

数据特征

  • 图像 (image): 图像格式
  • 属性描述 (attribute_description): 结构化特征,包含:
    • 颜色配置文件 (color_profile)
    • 分布 (distribution)
    • 分层 (layering)
    • 显微镜类型 (microscopy_type)
    • 形态学 (morphology)
    • 粒子密度 (particle_density)
    • 像素尺寸配置文件 (pixel_size_profile)
    • 主题 (subject)
    • 表面纹理 (surface_texture)
  • 完整标题 (full_caption): 字符串格式

数据集特点

  • 首个大规模多模态电子显微镜数据集
  • 提供高分辨率电子显微图
  • 包含专家策划的标注和文本描述
  • 总下载大小: 46,275,971,944 字节
  • 总数据集大小: 46,277,178,138.264 字节

应用领域

  • 材料科学中的多模态学习
  • 具有科学保真度的文本到图像生成
  • 微观结构的实例分割
  • 图像字幕/属性感知描述生成
  • 电子显微镜数据的深度学习模型训练和基准测试

相关资源

  • 生成模型: https://huggingface.co/NNNan/UniEM-Gen
  • 在线应用: https://www.bohrium.com/apps/uni-aims?tab=readme_link
  • 论文: https://huggingface.co/datasets/NNNan/UniEM-3M/
搜集汇总
数据集介绍
main_image_url
构建方式
在材料科学领域,电子显微图像的高质量标注数据长期稀缺,UniEM-3M数据集通过合成数据生成技术构建了大规模多模态资源。该数据集采用专家驱动的结构化标注框架,将图像特征分解为颜色分布、形态学特征、显微类型等九个属性维度,并辅以自然语言描述。目前发布的合成数据部分包含超过两万八千张图像样本,为后续真实电子显微图像的标注建立了标准化范式。
特点
作为首个面向实例级微结构理解的多模态电子显微数据集,UniEM-3M的突出特点体现在其多维度标注体系与大规模覆盖性。数据集不仅提供高分辨率图像与约三百万实例分割标签,更创新性地采用属性解耦的描述方式,涵盖显微类型、粒子密度、表面纹理等专业特征。这种结构化表征既支持视觉-语言跨模态学习,又能满足科学图像生成对语义精确性的严苛要求。
使用方法
研究者可通过HuggingFace平台直接加载数据集的两个子集:结构化描述数据与自然语言描述数据。每个样本包含图像、属性描述结构体和完整标注文本三重信息,支持端到端的多任务学习。该数据集适用于微结构分割、科学图像生成、属性感知描述生成等任务,同时为训练材料科学领域的多模态大模型提供基准数据。需注意真实电子显微图像与实例标注将在论文通过同行评审后发布。
背景与挑战
背景概述
电子显微图像分析作为材料科学微观结构表征的核心技术,长期面临标注数据稀缺的瓶颈。2025年,研究团队通过UniEM-3M数据集首次构建了大规模多模态电子显微图像数据集,包含5,091幅高分辨率图像和约300万个实例分割标注。该数据集通过结构化属性描述与自然语言标注的双重注释体系,为材料微观结构的自动解析与生成任务建立了基准,显著推动了材料科学人工智能交叉领域的发展。
当前挑战
该数据集致力于解决材料科学中微观结构实例分割与多模态理解的复合难题,其核心挑战在于电子显微图像中微观结构的形态多样性、尺度差异以及纹理复杂性。构建过程中需克服专家标注成本高昂、多属性协同标注的一致性维护,以及合成数据与真实显微图像间的域适应等关键技术障碍。
常用场景
经典使用场景
在材料科学的多模态学习研究中,UniEM-3M数据集被广泛应用于电子显微图像的实例分割任务。研究者利用其约三百万个实例级标注,训练深度神经网络识别微观结构中的晶界、相分布和缺陷特征,为材料性能预测提供结构基础。该数据集的高分辨率图像与结构化描述相结合,支持跨模态表征学习,显著提升了微观结构分析的自动化水平。
衍生相关工作
基于UniEM-3M训练的UniEM-Gen文本到图像生成模型,开创了科学图像的条件生成新方向。衍生研究包括微观结构属性可控生成、跨模态检索系统开发,以及端到端的材料设计框架构建。这些工作推动了计算材料学与人工智能的深度融合,为材料逆向设计提供新范式。
数据集最近研究
最新研究方向
电子显微图像分析领域正迎来多模态学习的深度整合,UniEM-3M作为首个大规模实例级微结构理解数据集,显著推动了材料科学中人工智能应用的边界。当前研究聚焦于结合文本描述与高分辨率显微图像,开发具备科学保真度的文本到图像生成模型,以及精细化实例分割技术。这些方向与材料基因组计划和高通量实验的需求紧密相连,为自动化材料表征提供了新范式。该数据集不仅填补了电子显微领域数据稀缺的空白,更成为跨模态学习在科学计算中应用的标杆,对加速新材料发现与微观结构量化分析具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作