mwalmsley/gz_desi
收藏Hugging Face2024-06-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mwalmsley/gz_desi
下载链接
链接失效反馈官方服务:
资源简介:
Galaxy Zoo DESI数据集由志愿者通过众包方式标注,主要用于图像分类和图像特征提取任务。数据集包含星系图像及其特征标签,标签格式为问题_答案,值为选择该答案的志愿者数量。数据集分为训练集和测试集,提供了详细的下载和使用指南。
Galaxy Zoo DESI数据集由志愿者通过众包方式标注,主要用于图像分类和图像特征提取任务。数据集包含星系图像及其特征标签,标签格式为问题_答案,值为选择该答案的志愿者数量。数据集分为训练集和测试集,提供了详细的下载和使用指南。
提供机构:
mwalmsley
原始信息汇总
数据集概述
名称: Galaxy Zoo DESI
描述: Galaxy Zoo DESI 数据集包含了由志愿者根据可见特征(如螺旋臂、星系碰撞等)标记的星系望远镜图像。这些数据集以机器学习友好的格式共享星系图像和志愿者标签,用于训练基础模型。
任务类别:
- 图像分类
- 图像特征提取
数据集大小:
- 数据量级: 10K<n<100K
许可证: cc-by-nc-sa-4.0
标签创建者: 众包
数据集结构:
- 特征:
image: 星系图像id_str: 字符串标识ra: 赤经(浮点数)dec: 赤纬(浮点数)- 多个与星系特征相关的整数类型字段,如
smooth-or-featured-dr12_smooth,bar-dr12_yes等
数据集分割:
- 训练集:
- 数据大小: 13783008259.51字节
- 示例数量: 319530
- 测试集:
- 数据大小: 3470815056.803字节
- 示例数量: 79883
下载信息:
- 下载大小: 17282897844字节
- 数据集大小: 17253823316.313字节
使用方法
数据集通过load_dataset函数加载,可以设置split参数选择加载训练集或测试集。数据集支持多种格式设置,如torch、numpy等,用于图像和其他特征的处理。
限制与注意事项
- 由于志愿者通过决策树回答问题,每个星系和每个问题可能具有非常不同的投票总数,这可能影响使用聚合标签的典型指标。
- 标签可能不总是反映每个星系的实际外观,且星系的实际外观可能对专家天文学家来说也是不确定的。因此,不建议将此数据集用作精确的性能基准。
引用信息
数据集的机器学习友好版本在最近提交的论文中描述。具体引用信息将在论文被接受后添加。使用特定数据集时,还需引用原始Galaxy Zoo数据发布论文和望远镜描述论文。
搜集汇总
数据集介绍

构建方式
Galaxy Zoo DESI数据集是通过众包方式构建的,参与者对大量星系图像进行了分类和特征提取。该数据集包含了星系的多种特征信息,如平滑度、星系形状、螺旋臂数量等,并提供了每个特征的投票结果和比例。数据集分为训练集和测试集,并提供了默认和微型两种配置,以满足不同规模的研究需求。
特点
Galaxy Zoo DESI数据集的特点在于其众包构建方式,使得数据集具有广泛的多样性和覆盖范围。数据集包含了丰富的星系特征信息,并通过投票结果和比例提供了数据的一致性和可靠性。此外,数据集还提供了星系的坐标信息,方便进行天文观测和研究。
使用方法
使用Galaxy Zoo DESI数据集时,首先需要根据研究需求选择合适的配置,如默认配置或微型配置。然后,可以加载训练集或测试集数据,并进行图像分类或特征提取等任务。数据集中的每个特征都包含了投票结果和比例,可以用于评估模型的性能和可靠性。此外,还可以利用星系坐标信息进行天文观测和研究。
背景与挑战
背景概述
在当代天文学研究领域,对星系的分类与特征提取是理解宇宙结构与发展的重要步骤。星系动物园(Galaxy Zoo)项目作为公民科学计划的一部分,旨在通过众包的方式收集大量星系图像,并对其特征进行分类。Galaxy Zoo DESI数据集正是这一项目的成果之一,它由众多志愿者对大量星系图像进行标注,提供了丰富的星系形态和结构信息。这一数据集不仅包含了详细的星系图像,还包括了星系的赤道坐标、形态分类(如平滑或特征显著、盘面倾斜等)以及星系相互作用等数据。Galaxy Zoo DESI数据集的创建,为天文学家和机器学习研究者提供了一个宝贵的资源,用于研究星系的演化、分类和特征提取等问题。
当前挑战
Galaxy Zoo DESI数据集在为天文学研究提供丰富资源的同时,也面临一些挑战。首先,众包数据的质量控制是一个关键问题,确保标注的一致性和准确性对于后续的研究至关重要。其次,星系图像的复杂性使得特征提取变得困难,特别是在处理星系形态多样性和相互作用的复杂性时。此外,数据集的规模庞大,需要高效的数据处理和存储方案。最后,如何将这一数据集应用于机器学习模型中,以实现对星系的自动化分类和特征提取,是当前研究的一个热点和难点。
常用场景
经典使用场景
在宇宙学领域,星系分类是一个基础且关键的研究课题。'Galaxy Zoo DESI'数据集作为图像分类和特征提取任务的经典数据集,提供了丰富多样的星系图像及其对应的分类信息。研究人员可以利用这一数据集,通过训练深度学习模型,实现对星系类型(如螺旋星系、椭圆星系等)的自动识别,从而提高星系分类的效率和准确性。
解决学术问题
星系分类的传统方法依赖于天文学家的主观判断,不仅耗时且存在主观误差。'Galaxy Zoo DESI'数据集的引入,通过众包方式收集了大量星系图像和分类标签,为机器学习模型提供了丰富的训练数据。这一数据集的广泛应用,不仅解决了传统方法的主观性和效率问题,而且为星系形成与演化理论的研究提供了新的视角和数据支持,推动了该领域的研究进展。
衍生相关工作
'Galaxy Zoo DESI'数据集的发布,激发了一系列相关研究工作的开展。例如,有研究利用这一数据集训练的模型,对星系的形态和结构进行了深入分析,揭示了星系演化过程中形态变化的规律。此外,该数据集还被用于开发新的星系分类方法和工具,如基于深度学习的星系分类器,这些工具的提出和应用,进一步推动了星系分类研究的发展。
以上内容由遇见数据集搜集并总结生成



