five

helenqu/astro-time-series

收藏
Hugging Face2023-08-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/helenqu/astro-time-series
下载链接
链接失效反馈
官方服务:
资源简介:
这是2018年Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC) Kaggle竞赛的完整天文时间序列数据集。数据集包含18种天文源,包括瞬变现象(如超新星、千新星)和可变天体(如活动星系核、米拉变星)。数据集结构包括多个数据字段,如object_id、times_wv、target等,并详细说明了数据的分割方式,包括训练集、验证集和测试集。此外,还提供了类别描述和引用信息。

This is the full astronomical time-series dataset from the 2018 Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC) Kaggle competition. The dataset covers 18 types of astronomical sources, including transient phenomena such as supernovae and kilonovae, as well as variable celestial objects such as active galactic nuclei and Mira variables. Its structure includes multiple data fields like object_id, times_wv, target and others, with detailed explanations of the data partitioning strategy which consists of training, validation and test sets. Additionally, category descriptions and citation information are provided.
提供机构:
helenqu
原始信息汇总

天文时间序列数据集

数据集概述

该数据集来自2018年光度LSST天文时间序列分类挑战赛(PLAsTiCC)Kaggle竞赛,包含了18种类型的天文源,包括瞬变现象(如超新星、千新星)和可变对象(如活动星系核、米拉变星)。

数据结构

数据字段

  • object_id: 唯一对象标识符
  • times_wv: 形状为(N, 2)的2D数组,包含每个观测的时间(修正儒略日,MJD)和滤光片(波长),N为观测次数
  • target: 形状为(N, 2)的2D数组,包含每个观测的流量(任意单位)和流量误差
  • label: 表示对象类别的整数(见下文)
  • redshift: 对象的真实红移
  • ddf: 如果对象位于LSST深钻井场(DDF)调查区域,则为1;如果位于宽快速深(WFD)区域,则为0
  • hostgal_specz: 宿主星系的光谱红移
  • hostgal_photoz: 宿主星系的光度红移
  • hostgal_photoz_err: 光度红移的不确定性

数据分割

原始PLAsTiCC挑战赛的训练集偏向于低红移、更亮、信噪比更高的观测,而测试集则代表了所有LSST观测的真实模拟,比训练集更暗、噪声更大。在该数据集中,原始PLAsTiCC训练集被分为90/10的训练/验证集,原始测试集保持不变。

  • train: PLAsTiCC训练集的90%
  • validation: PLAsTiCC训练集的10%
  • test: 完整的PLAsTiCC测试集

额外信息

类别描述

  • 6: 微透镜单星
  • 15: 潮汐破坏事件(TDE)
  • 16: 食双星(EB)
  • 42: 类型II超新星(SNII)
  • 52: 特殊类型Ia超新星(SNIax)
  • 53: 米拉变星
  • 62: 类型Ibc超新星(SNIbc)
  • 64: 千新星(KN)
  • 65: M矮星
  • 67: 特殊类型Ia超新星(SNIa-91bg)
  • 88: 活动星系核(AGN)
  • 90: 类型Ia超新星(SNIa)
  • 92: RR-Lyrae(RRL)
  • 95: 超亮超新星(SLSN-I)
  • 991: 微透镜双星
  • 992: 中间光度光学瞬变(ILOT)
  • 993: 钙富瞬变(CaRT)
  • 994: 对不稳定超新星(PISN)
  • 995: 微透镜串

引用信息

@ARTICLE{2018arXiv181000001T, author = {{The PLAsTiCC team} and {Allam}, Tarek, Jr. and {Bahmanyar}, Anita and {Biswas}, Rahul and {Dai}, Mi and {Galbany}, Llu{\i}s and {Hlo{v{z}}ek}, Ren{e}e and {Ishida}, Emille E.~O. and {Jha}, Saurabh W. and {Jones}, David O. and {Kessler}, Richard and {Lochner}, Michelle and {Mahabal}, Ashish A. and {Malz}, Alex I. and {Mandel}, Kaisey S. and {Mart{\i}nez-Galarza}, Juan Rafael and {McEwen}, Jason D. and {Muthukrishna}, Daniel and {Narayan}, Gautham and {Peiris}, Hiranya and {Peters}, Christina M. and {Ponder}, Kara and {Setzer}, Christian N. and {The LSST Dark Energy Science Collaboration} and {LSST Transients}, The and {Variable Stars Science Collaboration}}, title = "{The Photometric LSST Astronomical Time-series Classification Challenge (PLAsTiCC): Data set}", journal = {arXiv e-prints}, keywords = {Astrophysics - Instrumentation and Methods for Astrophysics, Astrophysics - Solar and Stellar Astrophysics}, year = 2018, month = sep, eid = {arXiv:1810.00001}, pages = {arXiv:1810.00001}, doi = {10.48550/arXiv.1810.00001}, archivePrefix = {arXiv}, eprint = {1810.00001}, primaryClass = {astro-ph.IM}, adsurl = {https://ui.adsabs.harvard.edu/abs/2018arXiv181000001T}, adsnote = {Provided by the SAO/NASA Astrophysics Data System} }

搜集汇总
数据集介绍
main_image_url
构建方式
在时域天文学领域,大规模巡天项目对瞬变源与变源的高效分类提出了迫切需求。该数据集源自2018年PLAsTiCC Kaggle竞赛,通过精细的数值模拟构建,旨在模拟未来大型综合巡天望远镜(LSST)的观测场景。其构建过程严格遵循天体物理规律,模拟了包括超新星、千新星、活动星系核及各类变星在内的18种天体类型,并依据真实观测条件生成了包含观测时间、波段、流量及误差的时间序列数据。数据划分上,训练集模拟了典型光谱确认样本的特性,而测试集则更全面地反映了LSST预期观测的完整性与噪声水平,形成了训练、验证与测试三部分。
使用方法
该数据集主要服务于机器学习与数据挖掘在天文时间序列分类中的应用研究。使用者可通过HuggingFace平台便捷加载数据,依据标准的数据划分进行模型训练、验证与测试。在具体应用中,研究者可利用`times_wv`与`target`字段构建多维时间序列输入,结合`label`字段进行有监督学习。数据集内嵌的观测条件(`ddf`)与红移信息可用于分析模型性能对观测策略与天体距离的依赖性。为评估模型泛化能力,强烈建议在模拟真实观测条件的独立测试集上进行最终评估,相关竞赛的原始文献与模拟方法论文为深入理解数据特性提供了必要参考。
背景与挑战
背景概述
在时域天文学蓬勃发展的背景下,大型综合巡天望远镜(LSST)等新一代观测设施即将产生海量的天文时序数据,对自动分类方法提出了迫切需求。为应对这一挑战,PLAsTiCC团队于2018年发起了‘Photometric LSST Astronomical Time-series Classification Challenge’竞赛,并创建了astro-time-series数据集。该数据集由Kaggle平台托管,旨在为机器学习社区提供一个高度仿真的基准测试平台,用于开发能够对包括超新星、活动星系核、变星在内的18类天体源进行自动分类的算法。其核心研究问题聚焦于解决未来LSST等巡天项目将面临的、在数据量大、信噪比低且类别不平衡条件下,对瞬变与变源进行快速准确分类的难题,对推动计算天体物理学和机器学习在天文领域的交叉应用产生了深远影响。
当前挑战
该数据集旨在解决的核心领域挑战,是在高度非理想观测条件下对多类天文时序信号进行鲁棒分类。具体而言,挑战体现在类别高度不平衡、观测噪声显著、光度曲线采样稀疏且不规则,以及不同类别间光变形态存在微妙重叠,这要求分类模型具备强大的特征提取与泛化能力。在构建过程中,挑战主要源于如何生成既符合物理原理又贴近未来LSST真实观测场景的仿真数据。这需要精确模拟各类天体的物理模型、复杂的观测条件(如测光误差、观测窗口函数)以及真实巡天策略(如深钻场与宽快深场的差异),以确保数据集的科学保真度与实用性,为算法评估提供可靠依据。
常用场景
经典使用场景
在时域天文学领域,天文时间序列数据集为机器学习模型提供了丰富的训练与测试资源。该数据集最经典的使用场景在于构建和验证自动化的天体分类系统,特别是针对大规模巡天项目如LSST所产生的海量光变曲线数据。研究人员利用其包含的18类天体样本,包括超新星、变星和活动星系核等,训练深度神经网络或传统分类器,以实现在复杂噪声背景下对瞬变和变源的高精度识别,从而推动自动化天文发现流程的发展。
解决学术问题
该数据集有效应对了天文学研究中数据量与复杂性激增带来的核心挑战。它通过提供大规模、高保真的模拟时间序列数据,解决了真实观测中类别不平衡、观测噪声干扰以及红移效应等常见问题。其意义在于为开发鲁棒的分类算法建立了基准,使得研究者能够评估模型在模拟真实LSST观测条件下的泛化能力,进而促进时域天体物理学中快速、可靠的源分类方法的发展,对下一代巡天数据的科学产出具有深远影响。
实际应用
超越纯理论研究,该数据集在大型天文观测项目的实际运作中扮演着关键角色。它直接服务于像薇拉·C·鲁宾天文台LSST这样的未来巡天项目,为其数据处理流水线中的实时分类与警报系统提供算法验证基础。通过模拟包含深度 drilling 场和宽快深场在内的不同观测策略,该数据集帮助天文学家优化观测规划,并训练系统在数据流中实时筛选出如千新星、潮汐瓦解事件等稀有且重要的天体事件,从而提升科学发现的效率。
数据集最近研究
最新研究方向
在时域天文学领域,PLAsTiCC数据集作为模拟未来大型综合巡天望远镜(LSST)观测的先驱,正推动着天体物理瞬变与变源自动分类的前沿探索。当前研究聚焦于开发鲁棒的深度学习模型,以应对真实观测中存在的类别不平衡、测量噪声及红移演化等挑战,旨在实现高精度、可解释的多元分类。该数据集与LSST等下一代巡天项目紧密关联,其应用有助于揭示超新星、千新星及活动星系核等稀有天体的物理本质,为宇宙学参数约束与动态宇宙研究提供关键数据支撑,具有深远的科学意义与工程价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作