gz_euclid
收藏Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/mwalmsley/gz_euclid
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于训练和测试的图片数据,以及与星系特征相关的各种属性。数据集分为两个配置:'default'和'tiny'。每个配置都有训练和测试数据集,并且提供了每个数据集的字节大小和示例数量。数据集还包括关于星系平滑度、螺旋臂的存在、棒状结构强度、隆起大小等特征的详细信息。
创建时间:
2025-04-30
原始信息汇总
数据集概述:gz_euclid
数据集配置
-
默认配置 (default)
- 数据文件:
- 训练集:
data/train-* - 测试集:
data/test-*
- 训练集:
- 特征:
- 图像 (
image) - 唯一标识符 (
id_str) - 数据集名称 (
dataset_name) - 多种星系形态学特征(平滑度、盘状结构、螺旋臂等)及其投票分数
- 问题与人工痕迹分类特征(恒星、人工痕迹、缩放等)及其投票分数
- 总结 (
summary)
- 图像 (
- 数据量:
- 训练集:63,579 个样本,163.77 MB
- 测试集:2,378 个样本,5.82 MB
- 下载大小:138.59 MB
- 总大小:169.59 MB
- 数据文件:
-
精简配置 (tiny)
- 数据文件:
- 训练集:
tiny/train-* - 测试集:
tiny/test-*
- 训练集:
- 特征:与默认配置相同
- 数据量:
- 训练集:635 个样本,1.73 MB
- 测试集:23 个样本,57.22 KB
- 下载大小:1.61 MB
- 总大小:1.79 MB
- 数据文件:
主要特征分类
-
星系形态学特征
- 平滑或特征 (
smooth-or-featured-euclid) - 盘边缘 (
disk-edge-on-euclid) - 螺旋臂 (
has-spiral-arms-euclid) - 棒状结构 (
bar-euclid) - 凸起大小 (
bulge-size-euclid) - 圆度 (
how-rounded-euclid) - 边缘凸起 (
edge-on-bulge-euclid) - 螺旋缠绕 (
spiral-winding-euclid) - 螺旋臂数量 (
spiral-arm-count-euclid) - 合并状态 (
merging-euclid) - 团块 (
clumps-euclid)
- 平滑或特征 (
-
问题与人工痕迹分类
- 问题 (
problem-euclid) - 人工痕迹 (
artifact-euclid)
- 问题 (
数据统计
-
默认配置
- 总样本数:65,957
- 训练集占比:96.39%
- 测试集占比:3.61%
-
精简配置
- 总样本数:658
- 训练集占比:96.50%
- 测试集占比:3.50%
搜集汇总
数据集介绍

构建方式
在星系形态学研究的背景下,gz_euclid数据集通过众包标注平台收集了专业天文学家和公众志愿者对欧几里得太空望远镜拍摄的星系图像的形态分类数据。数据集采用分层抽样策略,确保样本覆盖不同红移范围和表面亮度的星系,每个样本均经过多名独立标注者的交叉验证,并计算各类形态特征的投票比例分数以增强标注可靠性。数据以标准化的HDF5格式存储,包含原始图像与57个形态学分类标签的量化指标。
特点
该数据集最显著的特点是包含多维度星系形态特征量化指标,涵盖平滑度、盘状结构、棒旋特征、隆起大小等12个主要分类维度,每个维度下设有精细的子类别。通过引入投票分数机制,既保留了原始离散分类结果,又以连续变量形式呈现分类置信度。数据集提供完整版和轻量版两种配置,分别包含63,579和635个训练样本,兼顾不同规模研究需求。图像数据与结构化标签的有机结合,为形态分类研究提供了丰富的特征工程空间。
使用方法
使用该数据集时,建议首先根据研究目标选择合适的配置版本,完整版适用于深度模型训练,轻量版适合快速原型验证。数据加载可通过HuggingFace数据集库实现,内置的train-test分割便于直接用于监督学习。典型应用场景包括:基于卷积神经网络的星系形态自动分类、多标签分类任务中处理不均衡样本、以及利用投票分数开发概率预测模型。研究者应注意不同分类维度间的相关性,可考虑分层抽样或加权损失函数来处理类别不平衡问题。
背景与挑战
背景概述
gz_euclid数据集是面向天文学领域的一项关键资源,专注于星系形态分类研究。该数据集由欧空局(ESA)的Euclid任务相关团队构建,旨在为大规模星系调查提供高质量的标注数据。数据集的核心研究问题围绕星系形态特征的量化描述,包括平滑度、盘状结构、旋臂数量等关键参数的标注。通过众包投票机制收集的专家标注,为星系演化研究和宇宙学参数测量提供了可靠的基础数据。该数据集的出现填补了Euclid任务前期数据验证的空白,对理解星系形成与演化机制具有重要价值。
当前挑战
gz_euclid数据集面临的主要挑战体现在两个方面:在领域问题层面,星系形态分类本身存在主观性强的问题,不同专家对模糊形态的判定可能存在分歧,这影响了标注结果的确定性。在构建过程中,数据采集面临观测噪声干扰,如宇宙射线痕迹和仪器伪影等干扰因素,增加了数据清洗的复杂度。同时,众包标注机制需要平衡标注者专业水平与标注效率,如何设计质量控制策略成为关键难题。此外,处理海量天文图像数据对存储和计算资源提出了较高要求,数据预处理流程的优化也是重要挑战。
常用场景
经典使用场景
在星系形态学研究中,gz_euclid数据集通过其丰富的图像和标注信息,为天文学家提供了分析星系形态特征的宝贵资源。该数据集涵盖了平滑星系、盘状星系、螺旋臂结构等多种形态类别,使得研究者能够深入探索星系的形态演化规律。
实际应用
在实际应用中,gz_euclid数据集被广泛用于训练和测试深度学习模型,以实现星系形态的自动化分类。其高质量标注数据为天文观测数据的自动化处理提供了基准,显著提升了大规模巡天项目中星系分类的效率和准确性。
衍生相关工作
基于gz_euclid数据集,研究者开发了多种先进的星系分类算法,如卷积神经网络(CNN)和迁移学习模型。这些工作不仅优化了形态分类的精度,还拓展了数据集在多波段天文图像分析中的应用,为后续的星系研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



