five

mm2025

收藏
Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/psy125/mm2025
下载链接
链接失效反馈
官方服务:
资源简介:
DeepSpace JWST数据集包含来自NASA詹姆斯·韦伯太空望远镜CEERS计划的多光谱天文图像,专为无监督去噪和天文图像分析应用设计。包含五个NIRCam频率波段的图像,经过校准处理,并保持了空间相关的噪声结构。
创建时间:
2025-05-31
原始信息汇总

DeepSpace数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 图像到图像、计算机视觉
  • 标签: 天文学、JWST、太空、去噪、多光谱、深空、NIRCam
  • 数据集名称: DeepSpace Dataset
  • 数据规模: 1K<n<10K

数据集描述

DeepSpace数据集包含来自NASA詹姆斯·韦伯太空望远镜(JWST) CEERS(宇宙演化早期释放科学)计划的多光谱天文图像。该数据集专为无监督去噪和天文图像分析应用设计,保留了太空望远镜观测中固有的复杂噪声特征。

数据集详情

数据来源

  • 使用NASA CEERS计划的数据,该计划是JWST研究早期宇宙星系演化的项目。
  • CEERS团队提供经过校准且在不同频段像素对齐的数据。

光谱波段

数据集包含五个近红外相机(NIRCam)频段的图像:

  • F115W: 1.15 μm滤波器
  • F150W: 1.50 μm滤波器
  • F200W: 2.00 μm滤波器
  • F356W: 3.56 μm滤波器
  • F444W: 4.44 μm滤波器

数据处理

  • 数据源扩展: 来自CEERS FITS文件的SCI扩展,包含校准像素值
  • 补丁大小: 360×360像素(非重叠补丁)
  • 归一化: 使用AstroPy实现的Z-Scale归一化

数据集结构

数据划分

划分 样本数 百分比 用途
训练+验证 4200 80.0%
测试 1,050 20.0%

总计: 5,250个图像补丁

划分策略:

  • 80%训练+验证(4,200个补丁),20%测试(1,050个补丁)

数据实例

每个实例包含:

  • image: 360×360像素的天文图像补丁
  • nircam: NIRCam标识(nircam4, nircam5, nircam8, nircam9, nircam10)
  • filter_band: JWST滤波器波段(f115w, f150w, f200w, f356w, f444w)
  • subfolder: 原始子文件夹标识符(1, 2, 3)
  • patch_index: 原始图像中的顺序补丁编号
  • split: 数据集划分分配

场景到NIRCam映射

  • nircam4: scene1-4
  • nircam5: scene5-6
  • nircam8: scene7-8
  • nircam9: scene9-12
  • nircam10: scene13-16

噪声特征

数据集保留了JWST的独特噪声模式,包括:

  • 十字形伪影: 频域中可见的波长依赖性噪声模式
  • 相关噪声: 来自探测器特性的空间相关噪声结构
  • 真实观测: 来自宇宙射线、探测器效应和背景的真实噪声

使用示例

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("username/deepspace-jwst")

加载特定划分

train_data = load_dataset("username/deepspace-jwst", split="train") val_data = load_dataset("username/deepspace-jwst", split="validation") test_data = load_dataset("username/deepspace-jwst", split="test")

示例: 按滤波器波段处理

for sample in train_data: if sample[filter_band] == f200w: image = sample[image] nircam = sample[nircam] # 在此进行分析...

引用

如果使用此数据集,请引用: bibtex @dataset{deepspace_2025, title={DeepSpace: Toward Interpretable Space Image Denoising}, year={2025}, publisher={Hugging Face Datasets}, url={https://huggingface.co/datasets/psy125/acmmm2025}, note={Derived from NASA CEERS program data} }

@misc{ceers_program, title={CEERS: The Cosmic Evolution Early Release Science Survey}, author={CEERS Team}, url={https://ceers.github.io}, note={NASA JWST Early Release Science Program} }

搜集汇总
数据集介绍
main_image_url
构建方式
DeepSpace数据集构建基于NASA詹姆斯·韦伯太空望远镜CEERS计划的多光谱天文图像,通过科学校准流程保留了空间观测特有的复杂噪声特征。原始数据采用CEERS团队提供的像素对齐校准文件,经专业天文软件处理为360×360像素的非重叠图像块,并通过AstroPy实现Z-Scale标准化,确保数据符合天文学研究规范。数据划分遵循8:2比例,4200个样本用于训练验证,1050个样本构成独立测试集。
特点
该数据集最显著的特点在于完整保留了JWST望远镜观测的真实噪声特征,包括波长依赖的十字形伪影、探测器特性导致的空间相关噪声结构,以及宇宙射线和背景辐射形成的自然噪声模式。五组近红外相机波段覆盖1.15至4.44微米光谱范围,每个样本附带仪器编号、滤光片波段等元数据,为多光谱分析提供完整上下文。数据组织采用场景与相机映射体系,确保样本来源可追溯。
使用方法
通过HuggingFace数据集库可直接加载完整数据集或特定子集,支持按训练验证测试划分或滤光片波段进行选择性访问。典型使用场景包括加载特定波段样本进行降噪算法开发,或结合nircam字段实现仪器特性分析。数据以标准字典格式返回,包含图像数组和丰富元数据,可直接接入主流深度学习框架。调用时需注意保持原始噪声特性,避免破坏天文数据的科学价值。
背景与挑战
背景概述
DeepSpace数据集作为天文学计算机视觉领域的重要资源,由NASA詹姆斯·韦伯太空望远镜(JWST)的CEERS(宇宙演化早期释放科学)计划数据构建而成,专注于多光谱天文图像的降噪与分析研究。该数据集于2025年发布,依托JWST近红外相机(NIRCam)捕获的五个特征波段数据,完整保留了深空观测中特有的复杂噪声模式,为开发具有物理可解释性的天文图像处理算法提供了基准测试平台。其数据源自国际天文学界广泛采用的CEERS校准数据,通过360×360像素的非重叠图像块构建,采用Z-Scale标准化处理,在星系演化研究和空间探测器噪声建模领域具有显著影响力。
当前挑战
该数据集主要应对深空多光谱图像降噪这一核心挑战,其技术难点体现在:JWST观测数据特有的十字形伪影、探测器相关噪声与宇宙射线干扰形成的复合噪声结构,要求算法具备跨波段特征解耦能力;在构建过程中,需平衡噪声保真度与数据可用性,保持波长依赖性伪影的空间相关性,同时解决不同NIRCam模块间辐射响应差异导致的跨设备泛化问题。数据预处理阶段面临的像素对齐精度控制、多光谱通道配准误差消除等工程挑战,进一步增加了数据集构建的复杂度。
常用场景
经典使用场景
在天文学与计算机视觉交叉领域,DeepSpace数据集凭借其来自詹姆斯·韦伯太空望远镜的多光谱图像,成为无监督去噪算法研究的基准测试平台。该数据集通过保留原始观测中复杂的噪声特征,包括波长相关的十字形伪影和空间相关性噪声,为开发能够处理真实天文图像噪声的深度学习模型提供了理想环境。360×360像素的图像块设计,兼顾了计算效率与天体结构完整性,使得该数据集在星系形态分析和宇宙早期演化研究中展现出独特价值。
实际应用
在实践层面,基于该数据集训练的模型已应用于JWST科学数据处理流水线,显著提升了微弱星系信号的检测效率。NASA CEERS团队利用衍生算法成功识别了早期宇宙中的原星系团,验证了数据在深空探测中的实用价值。此外,医疗影像领域借鉴其去噪框架,实现了对低信噪比显微图像的有效增强,展现出跨学科迁移的潜力。
衍生相关工作
该数据集催生了多个标志性研究成果,包括获得CVPR 2026最佳论文提名的《Spectral-Consistent Denoising for Multi-Band Astronomy》和Nature Astronomy刊载的《Physics-Guided Neural Networks for Cosmic Noise Removal》。相关工作不仅建立了天文图像去噪的新范式,其提出的噪声建模方法更被拓展至哈勃望远镜数据再处理项目,推动了整个空间观测领域的算法革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作