QZO
收藏arXiv2025-02-19 更新2025-02-27 收录
下载链接:
https://github.com/snakoneczny/ztf-agn
下载链接
链接失效反馈官方服务:
资源简介:
QZO数据集是由加州理工学院的研究团队基于Zwicky Transient Facility (ZTF)创建的目录,包含约5百万个类星体。该数据集通过处理ZTF DR20的光变曲线,并结合Pan-STARRS、AllWISE和Gaia调查的数据,使用深度学习技术进行类星体分类。数据集覆盖了从2018年3月至2024年1月的时间段,适用于研究类星体的光学时域特性,目前已在指定位置发布。
The QZO dataset is a catalog created by the research team at the California Institute of Technology (Caltech) based on the Zwicky Transient Facility (ZTF), containing approximately 5 million quasars. This dataset is constructed by processing the light curves from ZTF DR20, integrating data from the Pan-STARRS, AllWISE, and Gaia surveys, and applying deep learning techniques for quasar classification. It spans the time frame from March 2018 to January 2024, and is applicable to studies on the optical temporal properties of quasars. Currently, it has been released at the designated location.
提供机构:
加州理工学院
创建时间:
2025-02-19
搜集汇总
数据集介绍

构建方式
QZO数据集的构建采用了深度学习技术,特别是基于Transformer架构的神经网络模型Astromer,用于对Zwicky Transient Facility(ZTF)的光变曲线进行分类。研究人员首先使用ZTF DR20数据中的g波段数据,并通过添加其他天文调查数据(如Pan-STARRS、AllWISE和Gaia)来提高分类精度。在处理数据时,他们移除了深度钻探观测,并合并了同一夜内的观测以减少重复。为了确保数据质量,他们还移除了少于20个观测的光变曲线。此外,他们还通过交叉匹配ZTF数据和SDSS DR18数据来获取训练数据,并使用Astromer模型进行预训练和微调,以达到最佳的分类效果。
使用方法
QZO数据集的使用方法包括:1)数据预处理:在应用模型之前,需要对数据进行预处理,包括去除重复观测、合并同一夜内的观测、移除少于20个观测的光变曲线等。2)模型训练:使用ZTF DR20数据和SDSS DR18数据对Astromer模型进行预训练和微调。3)模型评估:使用训练、验证和测试数据集对模型进行评估,主要评估指标包括QSO F1分数和三分类准确率。4)特征重要性分析:使用XGB模型对特征重要性进行排名,以确定哪些特征对于类星体检测最为重要。5)数据发布:数据集以CSV文件的形式发布,包含ZTF标识符、赤经、赤纬、观测次数、分类概率、WISE分类和红移估计等信息。
背景与挑战
背景概述
在探索宇宙的奥秘中,类星体(Quasars)作为活动星系核的一种,是宇宙学研究中的重要对象。它们位于巨大的暗物质晕中,通过向超大质量黑洞吸积物质释放出巨大的能量。类星体对于宇宙学原理的各向同性和均匀性、结构增长率、原初非高斯性、哈勃距离、重子声振荡、集成萨克斯-沃尔夫效应、宇宙膨胀率等研究具有重要意义。然而,由于类星体的稀疏分布和光谱观测的局限性,传统的分类方法面临着挑战。QZO数据集应运而生,它利用了Zwicky瞬态设施(ZTF)的观测数据,通过深度学习模型对类星体进行分类,并与其他巡天数据(如Pan-STARRS、AllWISE、Gaia)相结合,以实现高精度分类。该数据集的创建由加州理工学院物理、数学和天文学系的研究团队主导,其核心研究问题是如何利用时间序列数据对类星体进行有效分类,以及对相关领域的影响力体现在为未来的大型时间序列巡天设计提供重要参考。
当前挑战
QZO数据集面临的主要挑战包括:1) 时间序列数据分类的复杂性:类星体的光变曲线观测增加了分类问题的复杂性,需要深度学习模型来处理大量的时间序列数据。2) 数据集构建过程中的挑战:需要解决不同巡天数据之间的匹配、缺失数据填补、以及如何利用深度学习模型进行分类和红移估计等问题。3) 类星体分类的精度和可靠性:需要验证深度学习模型的分类结果,并确保高精度的类星体分类,以便用于未来的宇宙学研究。4) 数据集的校准和优化:需要进一步优化深度学习模型,以提高类星体分类的精度和可靠性,并为未来的时间序列巡天设计提供参考。
常用场景
经典使用场景
QZO数据集由Zwicky Transient Facility (ZTF)创建,旨在使用机器学习方法对类星体进行分类。该数据集利用了ZTF DR20的光变曲线数据,并使用了Transformer人工神经网络和极端梯度提升算法。该数据集的一个经典使用场景是使用ZTF g波段数据,其中每个光变曲线至少有100个观测时期,以实现97%的F1分数。此外,该数据集还表明,在3天中位时间跨度的情况下,至少需要900天的观测时间才能达到90%的F1分数,但通过将中位时间跨度延长到12天,可以在1800天的观测时间内获得相同的分数。因此,QZO数据集可以用于研究类星体的光变曲线特征,并利用这些特征进行高精度的分类。
解决学术问题
QZO数据集解决了在光变曲线观测中增加的复杂性问题。由于类星体在大尺度结构中具有高度偏斜的追踪,因此它们在各种宇宙学应用中非常重要。然而,由于缺乏光谱数据,对类星体的分类变得更加复杂,并且红移估计的准确性也降低了。QZO数据集使用机器学习方法,特别是Transformer架构,成功地从光变曲线中提取特征,从而实现了高精度的类星体分类。此外,该数据集还提供了类星体的红移估计,这对于宇宙学研究非常重要。因此,QZO数据集对于解决类星体分类和红移估计的学术研究问题具有重要意义。
实际应用
QZO数据集在实际应用中可以用于构建类星体目录,这可以帮助天文学家更好地理解宇宙的结构和演化。此外,该数据集还可以用于寻找与引力波事件相关的电磁对应物,这对于多信使天文学研究非常重要。因此,QZO数据集在实际应用中具有广泛的应用前景。
数据集最近研究
最新研究方向
在QZO数据集的研究中,研究人员利用Zwicky Transient Facility (ZTF)的观测数据,通过深度学习的方法对类星体进行分类,并取得了显著的成果。他们使用了基于Transformer架构的人工神经网络对ZTF的光度数据进行分析,并通过极端梯度提升算法与Pan-STARRS、AllWISE和Gaia等巡天数据相结合,最终获得了高精度的类星体目录。这一研究不仅展示了深度学习在时间序列数据分析中的强大能力,也为未来大型时间域巡天的设计提供了重要的参考。此外,研究还发现,光变曲线对于类星体的分类至关重要,而WISE和Gaia等巡天的数据在加入光变曲线后也能显著提高分类的准确率。这些发现对于天文学领域,尤其是对于活动星系核的研究,具有重要的意义。
相关研究论文
- 1QZO: A Catalog of 5 Million Quasars from the Zwicky Transient Facility加州理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成



