DESI Legacy Imaging Surveys

Name: DESI Legacy Imaging Surveys
Creator: 劳伦斯伯克利国家实验室
Published: 2021-12-01 03:01:18
License: 暂无描述

arXiv2021-12-01 更新2024-07-24 收录

下载链接：

https://github.com/georgestein/galaxy_search

下载链接

链接失效反馈

官方服务：

资源简介：

DESI Legacy Imaging Surveys是由劳伦斯伯克利国家实验室创建的大型天文图像数据集，包含42272646张星系图像。数据集通过最新的数据发布（DR9）提供，主要收集了南部区域最亮的星系图像，以减少噪声影响。数据集创建过程中采用了自监督学习方法，无需标签即可提取低维表示，适用于多种科学任务，如快速发现稀有天体和提高监督应用的训练集质量。该数据集的应用领域广泛，旨在通过自监督学习提高对未标记大型科学数据集的探索和利用效率。

The DESI Legacy Imaging Surveys is a large-scale astronomical image dataset developed by the Lawrence Berkeley National Laboratory, containing a total of 42,272,646 galaxy images. It is made available via its latest data release (DR9), and primarily collects images of the brightest galaxies in the southern celestial hemisphere to mitigate noise interference. During its development, self-supervised learning methods were employed to extract low-dimensional representations without requiring labeled data, making the dataset applicable to a wide spectrum of scientific tasks such as rapid discovery of rare celestial objects and improving the quality of training datasets for supervised learning applications. With broad application prospects, this dataset aims to boost the efficiency of exploration and utilization of unlabeled large-scale scientific datasets through self-supervised learning.

提供机构：

劳伦斯伯克利国家实验室

创建时间：

2021-10-26

原始信息汇总

数据集概述

数据来源：DECaLS DR9
数据规模：随机采样350万张星系图像用于训练机器学习模型，随后应用于整个数据集，约4200万张星系图像，条件为z波段星等小于20。
图像尺寸：96像素 x 96像素，以星系为中心。
数据用途：用于计算星系图像的相似度，模型训练基于自监督表示学习方法。

数据处理方法

自监督表示学习：通过创建图像的多个版本（如旋转、添加噪声、模糊等），训练机器学习模型识别同一星系的多种表现形式，从而超越像素值的分析，深入理解图像内容。
相似度计算：训练完成后，计算并保存每个图像的表示向量，预计算任意两个星系之间的相似度。

数据集更新与改进

持续更新：该项目正在进行中，结果将持续更新和改进。

搜集汇总

数据集介绍

构建方式

在宇宙学与天体物理领域，大规模巡天数据的高效利用面临挑战。DESI Legacy Imaging Surveys数据集的构建基于其第九次数据发布（DR9），从中选取了南天区亮度较高的星系，以z波段星等小于20为阈值，确保了图像质量。针对每个星系中心，提取了152×152像素的三波段（g、r、z）图像切块，分辨率达0.262角秒。通过自监督对比学习框架，模型在无需人工标注的情况下，从4200万张星系图像中学习低维表示，训练过程采用了包括银河消光校正、随机旋转、尺寸缩放及噪声添加等多种数据增强策略，以提升表示对对称性和噪声的鲁棒性。

特点

该数据集的核心特点在于其通过自监督学习提取的语义表示，这些表示能够捕捉星系图像中的深层特征，如形态、颜色及结构信息，同时有效抑制了观测噪声和对称性干扰。表示空间中的相似性度量基于余弦相似度，使得快速检索语义相近的图像成为可能。数据集覆盖了广泛的星系类型，从罕见的天体如强引力透镜到常见的旋涡星系，其表示不仅超越了传统颜色或星等筛选的局限性，还支持多样化的科学探索任务。

使用方法

利用该数据集，研究人员可通过公开的交互式相似性搜索工具进行快速数据探索。用户只需提供单张查询图像，系统即可基于预计算的相似性数组，即时返回数据集中最相似的星系图像。这种方法显著加速了罕见天体的发现过程，例如强引力透镜的识别，并可用于众包分类任务的样本预筛选。此外，提取的表示还可作为监督学习任务的优质特征，助力训练集的构建与优化，推动天体物理研究的自动化与民主化。

背景与挑战

背景概述

DESI Legacy Imaging Surveys 数据集作为天文学领域的重要资源，由美国能源部下属的劳伦斯伯克利国家实验室等机构主导构建，其最新数据发布版本DR9于2021年1月公开。该数据集的核心研究问题聚焦于通过大规模巡天图像，探索宇宙结构、暗能量性质及星系演化等前沿科学议题。借助自监督学习技术，研究人员能够从4200万张未标注的星系图像中提取低维表征，从而构建语义相似性搜索工具，显著提升了稀有天体发现的效率，并为监督学习任务提供了高质量的训练集基础，对推动计算天体物理学与机器学习交叉领域的发展产生了深远影响。

当前挑战

该数据集致力于解决天体图像中稀有目标识别与相似性检索的挑战，其核心问题在于如何从高噪声、多对称性的大规模未标注数据中提取稳健的语义特征。构建过程中的挑战主要体现在数据规模与复杂性上：原始图像达10TB，且需处理星系旋转、噪声干扰、点扩散函数模糊等多种观测扰动；同时，为平衡计算效率与模型性能，需精心设计数据增强策略，并针对42亿个图像对进行相似性预计算，这对存储与算力提出了极高要求。

常用场景

经典使用场景

在宇宙学与天体物理领域，大规模巡天数据的高效探索一直是关键挑战。DESI Legacy Imaging Surveys数据集通过自监督学习技术，构建了语义相似性搜索工具，使得研究人员能够基于单一示例快速检索形态相似的星系图像。这一方法超越了传统基于颜色或星等的筛选，实现了对罕见天体（如引力透镜、环状星系）的自动化发现，极大地加速了天体分类与异常检测的科研流程。

解决学术问题

该数据集解决了天体数据中缺乏高质量标注导致的探索瓶颈，通过自监督表征学习提取对噪声、对称性及仪器扰动鲁棒的低维特征。这为无监督相似性度量提供了客观基础，使研究人员能够量化天体间的语义相似性，从而支持罕见天体发现、数据质量评估及监督学习训练集构建等核心学术问题，推动了数据驱动天文学方法的发展。

衍生相关工作

基于该数据集的自监督表征学习框架，衍生了一系列经典研究工作。例如，Hayat等人进一步探索了天文图像的自监督表示学习，验证了其在星系分类任务上的有效性；Stein等人则利用相似性搜索结合监督分类，发现了约1200个新的强引力透镜候选体。这些工作扩展了自监督学习在天文数据挖掘中的应用边界，并为多模态科学数据集的分析提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集