mwalmsley/gz2
收藏Hugging Face2024-06-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mwalmsley/gz2
下载链接
链接失效反馈官方服务:
资源简介:
Galaxy Zoo 2数据集包含由志愿者标注的星系图像,标注内容涉及星系的可见特征,如螺旋臂、星系碰撞等。这些数据集以机器学习友好的格式共享星系图像和志愿者标注,用于训练基础模型。数据集的结构包括图像和志愿者对每个问题的回答计数。每个问题的回答计数反映了志愿者对星系特征的判断。数据集还提供了详细的下载和使用说明,以及相关的引用信息。
Galaxy Zoo 2数据集包含由志愿者标注的星系图像,标注内容涉及星系的可见特征,如螺旋臂、星系碰撞等。这些数据集以机器学习友好的格式共享星系图像和志愿者标注,用于训练基础模型。数据集的结构包括图像和志愿者对每个问题的回答计数。每个问题的回答计数反映了志愿者对星系特征的判断。数据集还提供了详细的下载和使用说明,以及相关的引用信息。
提供机构:
mwalmsley
原始信息汇总
数据集概述
数据集名称
- 名称: Galaxy Zoo 2
数据集描述
- 任务类别:
- 图像分类
- 图像特征提取
数据集特征
- 特征类型:
- 图像
- 字符串
- 浮点数
- 整数
- 具体特征:
imageid_strradecsmooth-or-featured-gz2_smoothsmooth-or-featured-gz2_featured-or-disksmooth-or-featured-gz2_artifactdisk-edge-on-gz2_yesdisk-edge-on-gz2_nohas-spiral-arms-gz2_yeshas-spiral-arms-gz2_nobar-gz2_yesbar-gz2_nobulge-size-gz2_dominantbulge-size-gz2_obviousbulge-size-gz2_just-noticeablebulge-size-gz2_nosomething-odd-gz2_yessomething-odd-gz2_nohow-rounded-gz2_roundhow-rounded-gz2_in-betweenhow-rounded-gz2_cigarbulge-shape-gz2_roundbulge-shape-gz2_boxybulge-shape-gz2_no-bulgespiral-winding-gz2_tightspiral-winding-gz2_mediumspiral-winding-gz2_loosespiral-arm-count-gz2_1spiral-arm-count-gz2_2spiral-arm-count-gz2_3spiral-arm-count-gz2_4spiral-arm-count-gz2_more-than-4spiral-arm-count-gz2_cant-tell
数据集配置
-
默认配置:
data_files:train:data/train-*test:data/test-*
splits:train: 166850 examples, 2263236825.75 bytestest: 41713 examples, 571235384.048 bytes
download_size: 2847031568 bytesdataset_size: 2834472209.798 bytes
-
evo配置:
data_files:train:evo/train-*test:evo/test-*
splits:train: 172377 examples, 2322857300.771 bytestest: 18797 examples, 258081363.006 bytes
download_size: 2597926449 bytesdataset_size: 2580938663.777 bytes
许可证
- 许可证: cc-by-nc-sa-4.0
数据集大小
- 大小范围: 100K<n<1M
标签创建者
- 创建方式: 众包
标签
- 标签:
- galaxy zoo
- physics
- astronomy
- galaxies
- citizen science
搜集汇总
数据集介绍

构建方式
在星系形态学研究中,Galaxy Zoo 2数据集通过公民科学项目构建,汇集了来自斯隆数字巡天望远镜的星系图像。数据标注过程依赖于全球志愿者的集体智慧,他们依据预设的决策树对星系图像进行视觉分类,涵盖平滑度、旋臂结构、棒状特征等形态属性。每个星系图像均记录了多位志愿者的投票结果,通过统计各选项的票数及比例,形成细粒度的标注信息。数据集的构建体现了众包标注在应对大规模天文图像分析中的独特优势,为机器学习模型提供了丰富的监督信号。
特点
该数据集的核心特征在于其精细的形态学标注体系,涵盖了从整体平滑度到局部结构的多层次视觉属性。每个样本不仅包含星系图像,还附有以投票计数形式呈现的标注,如平滑与有特征的比例、旋臂数量、棒状结构存在性等,这些标注反映了志愿者群体的共识程度。数据集规模庞大,包含超过17万个训练样本,图像格式统一为三维张量。标注的多样性源于决策树式的问答流程,使得不同星系所涉及的形态问题及其置信度存在差异,这为模型训练带来了独特的挑战与机遇。
使用方法
使用该数据集时,可通过HuggingFace的datasets库直接加载,支持选择训练集或测试集分割。加载后的数据对象可灵活转换为PyTorch、TensorFlow等主流框架的格式,便于集成到现有机器学习流程中。数据集中每个样本以字典形式呈现,包含图像张量及一系列以“问题-答案”命名的投票计数字段。研究者需注意标注的置信度差异,建议设计定制化损失函数以处理投票计数的可变性。数据集适用于图像分类、特征提取等任务,但需谨慎将其作为精确性能基准,避免过度解读模型间的细微差异。
背景与挑战
背景概述
在星系形态学研究中,对大量星系图像进行精确分类是理解宇宙结构演化的关键。Galaxy Zoo 2数据集由牛津大学等机构的科研团队于2013年创建,通过公民科学项目汇集了全球志愿者对斯隆数字巡天望远镜拍摄的星系图像的形态标注。该数据集的核心研究问题在于解决大规模星系形态的自动化分类难题,通过众包方式获取了超过30万个星系的详细形态特征标签,包括旋臂结构、棒状特征、星系核球形态等精细分类,为星系形成与演化研究提供了前所未有的数据基础,极大推动了计算天体物理学与机器学习在天文领域的交叉应用。
当前挑战
Galaxy Zoo 2数据集旨在解决星系形态自动分类中面临的挑战,包括处理星系图像的复杂形态变异、低信噪比图像的特征提取,以及多类别细粒度分类的准确性难题。在构建过程中,数据集面临众包标注的一致性与可靠性挑战,需要设计严谨的决策树流程来引导非专业志愿者进行标准化标注,并采用统计聚合方法处理标注噪声。同时,数据整合需协调不同巡天项目的观测参数差异,确保图像数据与标注信息的时空对齐,这些挑战共同塑造了数据集的独特结构和应用边界。
常用场景
经典使用场景
在星系形态学研究中,Galaxy Zoo 2数据集作为经典的大规模标注资源,其核心应用场景在于训练和验证深度学习模型对星系图像进行自动形态分类。该数据集通过众包方式收集了数十万张星系图像的详细形态特征标签,涵盖平滑、盘状、旋臂、棒状结构等关键属性,为机器学习算法提供了丰富的监督信号。研究者通常利用这些标注数据构建卷积神经网络,实现对星系形态的快速、准确识别,从而替代传统人工分类方法,显著提升大规模巡天数据处理效率。
衍生相关工作
围绕该数据集衍生出多项里程碑式研究,例如《Galaxy Zoo: morphological classifications for 304,122 galaxies》建立了众包标注的天文学应用范式。后续工作如《Galaxy Zoo DECaLS》将标注体系扩展至更深空域巡天数据,而《Galaxy Zoo DESI》进一步融合多波段观测信息。在机器学习领域,该数据集催生了系列星系形态分类模型,包括采用迁移学习策略的卷积神经网络架构,以及近期基于Transformer的视觉基础模型,这些成果共同推动了数据驱动天文学方法学的发展。
数据集最近研究
最新研究方向
在星系形态学领域,Galaxy Zoo 2数据集正推动着前沿研究向多任务学习与基础模型构建的方向发展。该数据集整合了来自斯隆数字巡天的大量星系图像及众包标注,为天文学家提供了丰富的形态特征标签。当前研究热点聚焦于利用该数据集训练能够适应不同望远镜观测条件与任务需求的通用模型,如近期提出的基础模型架构,旨在提升模型对新数据与新任务的泛化能力。这些进展不仅深化了对星系演化机制的理解,也为未来大规模巡天项目如LSST的数据处理奠定了技术基础,具有重要的科学意义与应用价值。
以上内容由遇见数据集搜集并总结生成



