Galaxy Zoo 2
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/mwalmsley/galaxy-datasets
下载链接
链接失效反馈官方服务:
资源简介:
Galaxy Zoo 2是一个包含约21万张星系图像及其标签的数据集,适用于机器学习任务。
Galaxy Zoo 2 is a dataset comprising approximately 210,000 galaxy images along with their labels, suitable for machine learning tasks.
创建时间:
2022-04-20
原始信息汇总
数据集概述
主要数据集列表
| 名称 | 方法 | PyTorch 数据集 | 是否已发布 | 是否可下载 | 包含星系数目 |
|---|---|---|---|---|---|
| Galaxy Zoo 2 | gz2 | GZ2 | 是 | 是 | ~210k (主样本) |
| GZ UKIDSS | gz_ukidss | GZUKIDSS | 否 | 是 | ~71k |
| GZ Hubble | gz_hubble | GZHubble | 是 | 是 | ~106k (主样本) |
| GZ CANDELS | gz_candels | GZCandels | 是 | 是 | ~50k |
| GZ DECaLS GZD-5 | gz_decals_5 | GZDecals5 | 是 | 是 | ~230k (仅GZD-5) |
| GZ Rings | gz_rings | GZRings | 否 | 是 | ~93k |
| GZ DESI | gz_desi | GZDesi | 是 | 否* (500GB) | 8.7M |
| GZ H2O (deep HSC) | gz_h2o | GZH2O | 否 | 是 | ~48k |
| GZ JWST (CEERS) | gz_JWST | GZJWST | 否 | 是 | ~7k |
| CFHT Tidal | tidal | Tidal | 是 | 是 | 1760 (专家) |
调试数据集列表
| 名称 | 方法 | PyTorch 数据集 | 是否可下载 | 包含星系数目 |
|---|---|---|---|---|
| Demo Rings (binary) | demo_rings | DemoRings | 是 | 1000 |
| Galaxy MNIST (four-class) | galaxy_mnist | GalaxyMNIST | 是 | 10k |
数据集下载与使用
下载结构
- 下载路径结构如下:
- {root}
- images
- 子文件夹(GZ2除外)
- image.jpg
- 子文件夹(GZ2除外)
- {catalog_name(s)}.parquet
- images
- {root}
使用方法
-
框架独立下载:
- 使用
galaxy_datasets模块中的函数下载数据集,例如: python from galaxy_datasets import gz2 catalog, label_cols = gz2(root=your_data_folder/gz2, train=True, download=True)
- 使用
-
PyTorch 使用:
- 创建PyTorch数据集: python from galaxy_datasets.pytorch import GZ2 gz2_dataset = GZ2(root=your_data_folder/gz2, train=True, download=False)
-
TensorFlow 使用:
- 创建TensorFlow数据集: python import tensorflow as tf from galaxy_datasets.tensorflow.datasets import get_image_dataset, add_transforms_to_dataset train_dataset = get_image_dataset(image_paths=catalog[file_loc], labels=catalog[label_cols].values, requested_img_size=224)
引用与致谢
- 使用每个数据集时,必须引用GZ数据发布论文及原始望远镜调查。详细引用信息请参考data.galaxyzoo.org。
搜集汇总
数据集介绍

构建方式
Galaxy Zoo 2数据集的构建基于公民科学项目Galaxy Zoo,通过众包方式收集了大量天文爱好者对星系图像的分类结果。该数据集包含了约21万张星系图像,每张图像都附有多个分类标签,这些标签反映了不同志愿者对星系形态的判断。数据集的构建过程涉及图像的采集、标注以及标签的整合,确保了数据的高质量和多样性。
特点
Galaxy Zoo 2数据集的主要特点在于其丰富的标注信息和多样化的星系图像。每张图像都附有多个分类标签,涵盖了星系的多种形态特征,如平滑度、螺旋结构等。此外,数据集支持多种机器学习框架,包括PyTorch和TensorFlow,提供了灵活的数据加载和处理方式,便于研究人员在不同框架下进行实验和模型训练。
使用方法
使用Galaxy Zoo 2数据集时,用户可以通过Python库直接下载和加载数据。数据集支持PyTorch和TensorFlow框架,提供了相应的数据加载类和数据模块,便于用户快速构建训练和测试数据集。用户可以根据需要选择不同的数据子集,并应用数据增强技术以提高模型的泛化能力。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并进行深度学习模型的训练和评估。
背景与挑战
背景概述
Galaxy Zoo 2数据集是由Galaxy Zoo公民科学项目创建的,旨在通过众包方式对大量星系图像进行分类。该项目由主要研究人员和机构支持,核心研究问题集中在星系的形态分类上,特别是区分星系的平滑或特征化外观。该数据集的创建时间可追溯至Galaxy Zoo项目的早期阶段,其影响力在于为天文学领域提供了大规模的、标注精细的星系图像数据,推动了星系形态学研究的进展。
当前挑战
Galaxy Zoo 2数据集面临的挑战主要包括:1) 星系形态分类的复杂性,不同星系可能表现出多种形态特征,增加了分类的难度;2) 数据集构建过程中,如何有效整合和处理来自公民科学家的多样化标注,确保标注的一致性和准确性;3) 数据集的规模和多样性,尽管提供了丰富的样本,但也带来了数据处理和存储的挑战,特别是在大规模机器学习模型训练中。
常用场景
经典使用场景
Galaxy Zoo 2数据集在星系形态分类任务中展现了其经典应用。通过该数据集,研究者能够利用机器学习算法对星系图像进行分类,如区分星系是光滑的还是具有特征的。这种分类不仅有助于理解星系的形成和演化,还为天文学家提供了宝贵的数据资源,以验证和扩展传统的天文观测方法。
衍生相关工作
Galaxy Zoo 2数据集的发布催生了一系列相关研究工作。例如,基于该数据集的星系分类模型已被用于探索星系演化的物理机制,如星系合并和恒星形成率的变化。此外,该数据集还启发了其他天文学数据集的开发,如Galaxy Zoo Hubble和Galaxy Zoo DESI,进一步推动了星系形态学和宇宙学领域的研究。
数据集最近研究
最新研究方向
在星系形态学研究领域,Galaxy Zoo 2数据集的最新研究方向主要集中在利用深度学习和计算机视觉技术对星系图像进行自动分类和特征提取。随着天文观测数据的爆炸性增长,研究人员正致力于开发高效的算法,以处理和分析这些大规模数据集,从而揭示星系的形成和演化机制。此外,结合多波段观测数据,研究者们也在探索如何将不同波段的星系图像进行融合分析,以提高分类的准确性和全面性。这些研究不仅推动了星系形态学的前沿发展,也为未来的天文观测和数据处理提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



