five

real-bogus training dataset, variable star light curve dataset

收藏
arXiv2025-04-02 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.01609v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究生成了两个数据集:一个是包含218,818个训练样本的real-bogus训练数据集,用于训练机器学习算法以识别真假源;另一个是包含421个实例的变星光变曲线数据集,用于捕捉不同类型变星星光变化的特征。这两个数据集均来自Mini-SiTian实时图像处理流水线(STRIP)对模拟和真实观测数据的处理结果。

In this study, two datasets were generated: one is the real-bogus training dataset containing 218,818 training samples, which is designed to train machine learning algorithms for classifying real and bogus sources; the other is the variable star light curve dataset with 421 instances, intended to capture the characteristics of light variability across different types of variable stars. Both datasets are derived from the processed outputs of simulated and real observational data via the Mini-SiTian Real-time Image Processing Pipeline (STRIP).
提供机构:
中国科学院国家天文台光学天文重点实验室
创建时间:
2025-04-02
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建依托于Mini-SiTian阵列的实时图像处理流程(STRIP),通过三台300mm望远镜持续监测三个天区(F01-F03),采用Sloan-like g'/r'/i'波段进行同步观测。科学图像经过偏置校正、平场处理后,通过Hotpants算法与高信噪比模板图像进行差分分析,生成包含变源信息的残差图像。针对每幅残差图像,采用SExtractor进行源提取,并通过正负残差交叉验证结合机器学习分类器(基于218,818个训练样本)过滤虚假信号,最终形成包含421个变源的光变曲线数据集。观测期间共识别1例耀斑、127颗变星及14颗小行星,数据时间跨度覆盖2023至2024年测试运行期。
特点
数据集包含双波段(g'/r')高时间分辨率光变曲线,典型采样间隔为5分钟,极限星等达21等。其核心价值体现在:1)覆盖短时标耀斑(分钟级)与长时标超新星(数天至数月)的全时段监测能力;2)通过残差图像构建的real-bogus训练集(含218,818个样本)提供标准化假阳性过滤基准;3)包含49颗食双星、78颗脉动变星及9个新变源候选体的精细分类,其中12%的变星未被现有星表收录。数据以FITS格式存储光变曲线及64×64像素的残差图像切片,兼容主流天文分析工具链。
使用方法
该数据集适用于时域天文学与机器学习交叉研究。研究者可通过以下流程开展分析:1)调用lightkurve或astropy工具包读取FITS格式光变曲线,进行周期搜索(Lomb-Scargle)或爆发特征提取;2)利用附带的real-bogus分类器(基于卷积神经网络)过滤差分图像中的仪器效应;3)结合变星分类标签训练时序特征分类模型(如随机森林或Transformer架构)。对于小行星追踪,可通过多历元警报点的空间连线实现运动天体识别。数据集已集成至中国虚拟天文台(China-VO),支持基于TOPCAT的交互式交叉证认。
背景与挑战
背景概述
real-bogus training dataset和variable star light curve dataset是由中国科学院国家天文台主导的Mini-SiTian项目在测试运行期间生成的两个关键数据集,作为SiTian先导项目的重要数据产物。该项目旨在通过由数十台1米口径望远镜组成的阵列,实现每30分钟对北天球进行三色(gri)测光观测,深度达21星等。数据集创建于2024年测试阶段,主要研究人员包括顾宏瑞、黄阳等来自中国科学院天文光学重点实验室的团队。核心研究问题聚焦于瞬变源(如恒星耀斑、超新星)的实时检测与光变曲线生成,通过STRIP实时图像处理管道验证了在5分钟内完成数据处理的能力。这些数据集将为机器学习算法提供训练基础,最终整合到STRIP管道中以提升瞬变源识别的自动化水平,对时域天文学研究具有重要推动作用。
当前挑战
该数据集面临双重挑战:在科学层面需解决高动态范围瞬变源检测难题,特别是区分真实天体信号(如仅持续数分钟的耀斑)与仪器伪影(如宇宙射线),这对机器学习分类器的特征提取能力提出极高要求;在技术构建过程中,团队需克服大规模CMOS数据(单节点每5分钟产生3幅6k×9k图像)的实时处理瓶颈,以及稀疏采样条件下模板图像信噪比不足导致的减法伪影问题。测试阶段仅能通过人工标注生成421条变星光变曲线和218,818个real-bogus训练样本,反映出在有限观测周期内构建代表性数据集的困难。未来扩展至全SiTian阵列时,数据量将激增两个数量级,这对现有基于Hotpants算法的处理架构构成严峻算力挑战。
常用场景
经典使用场景
在时域天文学研究中,real-bogus训练数据集和变星光变曲线数据集被广泛应用于瞬变源的实时检测与分类。STRIP管线通过图像差分技术生成残差图像,从中提取候选瞬变源,并利用这些数据集训练机器学习模型以区分真实天体与仪器伪影。经典场景包括对恒星耀斑、超新星等短时标事件的自动化识别,以及对周期性变星的光变曲线特征分析。该数据集特别适用于高时间分辨率巡天项目,如Mini-SiTian阵列的实时观测系统。
解决学术问题
该数据集有效解决了瞬变源检测中真实信号与噪声的区分难题,通过218,818个训练样本构建的real-bogus分类器显著降低了误报率。421例变星光变曲线数据为研究恒星物理过程(如脉动、食双星现象)提供了高质量时序观测依据。其学术价值体现在填补了中等口径望远镜在分钟级采样、多波段联合观测数据集的空白,为验证极端天体物理理论(如耀斑能量释放机制、超新星早期演化)提供了关键数据支撑。
衍生相关工作
基于该数据集衍生的经典工作包括:1) 采用Hotpants和SFFT算法的图像差分优化研究,提升了拥挤星场中的瞬变源检测精度;2) 开发了Falco等光曲线分类模型,实现变星类型的自动化识别;3) 构建了与ZTF、ATLAS等巡天项目的交叉验证系统,推动多信使天文学中瞬变源关联分析方法的发展。相关成果直接支撑了SiTian全阵列的观测策略优化,并为LSST等下一代时域巡天项目提供了技术参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作