five

BMz galaxies|星系形态分类数据集|天文学数据集

收藏
arXiv2024-12-20 更新2024-12-24 收录
星系形态分类
天文学
下载链接:
http://arxiv.org/abs/2412.15533v1
下载链接
链接失效反馈
资源简介:
BMz galaxies数据集是由DESI Legacy Imaging Surveys中的BASS和MzLS调查所产生的,包含248,088个星系的详细形态分类。该数据集通过无监督域适应方法从DECaLS数据集中迁移学习而来,旨在解决不同调查间信号噪声比和分辨率的差异问题。数据集的创建过程包括对DECaLS图像的预训练模型进行微调,并使用BMz的未标记数据进行进一步训练。该数据集主要应用于星系形态分类研究,旨在提高对不同调查中星系形态预测的准确性。
提供机构:
中国科学院上海天文台
创建时间:
2024-12-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
BMz galaxies数据集通过无监督域适应(Unsupervised Domain Adaptation, UDA)方法构建,旨在将基于DECaLS图像训练的源域模型微调至BMz图像。首先,研究人员使用DECaLS图像和Galaxy Zoo DECaLS 5(GZD-5)的志愿者标签训练了一个源域模型,该模型在DECaLS验证集上的表现与相关研究相当。随后,通过UDA方法,利用BMz调查中的248,088个未标记星系对源域模型进行微调,生成目标域模型。这一过程仅依赖于目标域的未标记数据,避免了使用源域和目标域之间的共同标记数据。最终,目标域模型的性能在BMz星系上显著提升,达到了与源域模型相当的水平。
特点
BMz galaxies数据集的主要特点在于其通过无监督域适应技术解决了不同调查之间信号噪声比和分辨率的差异问题。该数据集包含248,088个BMz星系的详细形态分类,涵盖10个形态问题和34个形态特征。与直接应用源域模型相比,经过UDA微调的目标域模型在BMz星系上的分类性能显著提升,尤其是在处理如‘强棒’和‘弱棒’等形态特征时表现尤为突出。此外,该数据集还提供了每个星系的预期概率和方差,帮助用户更准确地选择特定形态特征的星系。
使用方法
BMz galaxies数据集的使用方法灵活多样,用户可以根据研究需求选择不同的形态特征进行筛选。一种简单的方法是基于预期概率(ˆ𝜋?𝐴?𝐴? 𝐴?)和方差(𝜋?2)进行筛选,例如选择具有‘强棒’、‘弱棒’或‘无棒’特征的星系。此外,用户还可以遵循Galaxy Zoo DECaLS 5(GZD-5)的决策树结构,通过多重条件筛选星系,以确保筛选结果与志愿者的分类一致。数据集还提供了详细的形态分类参数,用户可以根据这些参数进行更复杂的分析和研究。
背景与挑战
背景概述
BMz galaxies数据集是由Renhao Ye等人于2024年创建的,旨在通过无监督域适应(UDA)方法解决不同天文观测数据集之间的分布差异问题。该数据集基于DESI Legacy Imaging Surveys中的DECaLS、BASS和MzLS三个子项目,特别是针对BASS和MzLS(统称为BMz)的图像数据。由于DECaLS与BMz在信号噪声比和分辨率上的差异,直接将基于DECaLS训练的模型应用于BMz图像会导致分类性能下降。因此,研究团队通过UDA方法,将DECaLS数据集上的模型微调至BMz数据集,以减少分类偏差。该数据集的发布为天文领域的星系形态分类研究提供了重要支持,尤其是在深度学习技术的应用背景下,推动了星系形态分类的自动化进程。
当前挑战
BMz galaxies数据集面临的主要挑战包括:首先,DECaLS与BMz数据集之间的信号噪声比和分辨率差异导致直接应用模型时出现分布不匹配问题,这使得模型在BMz数据上的性能显著下降。其次,构建过程中需要解决无监督域适应的复杂性,尤其是在缺乏目标域标签的情况下,如何有效对齐源域和目标域的特征分布是一个技术难题。此外,尽管UDA方法在大多数形态特征上取得了显著改进,但在某些细节特征(如‘How Rounded’和‘Merging’)上的分类性能提升有限,表明在处理高维数据时仍存在一定的局限性。最后,数据集的构建和模型微调过程中,如何处理低分辨率图像中的模糊特征,以及如何确保分类结果的准确性和一致性,也是亟待解决的问题。
常用场景
经典使用场景
BMz galaxies数据集的经典使用场景主要集中在星系形态分类领域。该数据集通过无监督域适应(UDA)方法,将基于DECaLS数据集训练的星系形态分类模型迁移到BMz数据集上,解决了由于信号噪声比和分辨率差异导致的分布不匹配问题。这一方法显著提升了在BMz数据集上的分类性能,尤其是在星系形态特征如旋臂、尘埃带、棒状结构和潮汐尾的识别上表现出色。
解决学术问题
BMz galaxies数据集解决了星系形态分类中的一个关键学术问题,即不同观测数据集之间的分布差异导致的分类偏差。通过无监督域适应技术,该数据集成功地将DECaLS数据集上的分类模型迁移到BMz数据集上,减少了分类偏差,提升了分类准确性。这一研究为未来大规模星系形态分类提供了有效的解决方案,尤其是在下一代望远镜观测数据处理中具有重要意义。
衍生相关工作
BMz galaxies数据集的发布和研究衍生了一系列相关工作,特别是在星系形态分类和无监督域适应领域。Walmsley等人开发的Zoobot模型为星系形态分类提供了基础模型,而BMz galaxies数据集的研究进一步扩展了这一模型的应用范围。此外,Xu等人提出的无监督域适应方法也为跨数据集的星系形态分类提供了新的思路。这些工作共同推动了星系形态分类技术的发展,并为未来的天文观测数据处理提供了重要的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MMAUD

MMAUD数据集是由南洋理工大学电气与电子工程学院创建,专注于小型无人机的检测、分类和轨迹估计。该数据集结合了多种传感器输入,包括立体视觉、多种激光雷达、雷达和音频阵列,以高保真度模拟真实世界场景。MMAUD提供了由Leica生成的精确地面实况数据,增强了数据集的可信度,并支持算法的精确和高效开发。数据集的应用领域包括无人机威胁检测、分类和轨迹估计,旨在解决现代微型无人机威胁带来的挑战。

arXiv 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

Global Climate Risk Index (CRI)

全球气候风险指数(CRI)是一个评估各国气候变化相关风险的指数。该数据集提供了各国在特定年份内因极端天气事件(如洪水、干旱、风暴等)所遭受的经济损失、死亡人数以及受影响人口的数据。此外,还包括了各国应对气候变化的能力和脆弱性分析。

www.germanwatch.org 收录