five

BrachioLab/PLAsTiCC

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BrachioLab/PLAsTiCC
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - feature-extraction tags: - astro size_categories: - 1M<n<10M --- # Astronomical Time-Series Dataset This is the full dataset of astronomical time-series from the 2018 Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC) Kaggle competition. There are 18 types of astronomical sources represented, including transient phenomena (e.g. supernovae, kilonovae) and variable objects (e.g. active galactic nuclei, Mira variables). The original Kaggle competition can be found [here](https://www.kaggle.com/c/PLAsTiCC-2018). [This note](https://arxiv.org/abs/1810.00001) from the competition describes the dataset in detail. Astronomers may be interested in [this paper](https://arxiv.org/abs/1903.11756) describing the simulations used to generate the data. ## Dataset Structure ### Data Fields - **object_id**: unique object identifier - **times_wv**: 2D array of shape (N, 2) containing the observation times (modified Julian days, MJD) and filter (wavelength) for each observation, N=number of observations\ - **target**: 2D array of shape (N, 2) containing the flux (arbitrary units) and flux error for each observation\ - **label**: integer representing the class of the object (see below)\ - **redshift**: true redshift of the object\ - **ddf**: 1 if the object was in the deep drilling fields (DDF) survey area of LSST, 0 if wide-fast-deep (WFD)\ - **hostgal_specz**: spectroscopic redshift of the host galaxy\ - **hostgal_photoz**: photometric redshift of the host galaxy\ - **hostgal_photoz_err**: uncertainty on the photometric redshift ### Data Splits The original PLAsTiCC challenge had a training set that was biased to be lower redshift, brighter, and higher signal-to-noise than the test set. This was created to emulate a spectroscopically confirmed subset of observations that typically would be used to train a machine learning classifier. The test set represents a realistic simulation of all LSST observations -- fainter and noisier than the training set. In this dataset, the original PLAsTiCC training set was split into 90/10 training/validation and the original test set was uploaded unchanged. - **train**: 90% of the PLAsTiCC training set - **validation**: 10% of the PLAsTiCC training set - **test**: full PLAsTiCC test set ## Additional Information ### Class Descriptions ``` 6: microlens-single 15: tidal disruption event (TDE) 16: eclipsing binary (EB) 42: type II supernova (SNII) 52: peculiar type Ia supernova (SNIax) 53: Mira variable 62: type Ibc supernova(SNIbc) 64: kilonova (KN) 65: M-dwarf 67: peculiar type Ia supernova (SNIa-91bg) 88: active galactic nuclei (AGN) 90: type Ia supernova (SNIa) 92: RR-Lyrae (RRL) 95: superluminous supernova (SLSN-I) 991: microlens-binary 992: intermediate luminosity optical transient (ILOT) 993: calcium-rich transient (CaRT) 994: pair instability supernova (PISN) 995: microlens-string ``` ### Citation Information ``` @ARTICLE{2018arXiv181000001T, author = {{The PLAsTiCC team} and {Allam}, Tarek, Jr. and {Bahmanyar}, Anita and {Biswas}, Rahul and {Dai}, Mi and {Galbany}, Llu{\'\i}s and {Hlo{\v{z}}ek}, Ren{\'e}e and {Ishida}, Emille E.~O. and {Jha}, Saurabh W. and {Jones}, David O. and {Kessler}, Richard and {Lochner}, Michelle and {Mahabal}, Ashish A. and {Malz}, Alex I. and {Mandel}, Kaisey S. and {Mart{\'\i}nez-Galarza}, Juan Rafael and {McEwen}, Jason D. and {Muthukrishna}, Daniel and {Narayan}, Gautham and {Peiris}, Hiranya and {Peters}, Christina M. and {Ponder}, Kara and {Setzer}, Christian N. and {The LSST Dark Energy Science Collaboration} and {LSST Transients}, The and {Variable Stars Science Collaboration}}, title = "{The Photometric LSST Astronomical Time-series Classification Challenge (PLAsTiCC): Data set}", journal = {arXiv e-prints}, keywords = {Astrophysics - Instrumentation and Methods for Astrophysics, Astrophysics - Solar and Stellar Astrophysics}, year = 2018, month = sep, eid = {arXiv:1810.00001}, pages = {arXiv:1810.00001}, doi = {10.48550/arXiv.1810.00001}, archivePrefix = {arXiv}, eprint = {1810.00001}, primaryClass = {astro-ph.IM}, adsurl = {https://ui.adsabs.harvard.edu/abs/2018arXiv181000001T}, adsnote = {Provided by the SAO/NASA Astrophysics Data System} } ```

任务类别: - 特征提取 标签: - 天文 样本规模: - 100万 < 样本量 < 1000万 # 天文时序数据集 本数据集源自2018年Kaggle平台上的勒普林大视场巡天望远镜(Large Synoptic Survey Telescope, LSST)测光天文时序分类挑战赛(PLAsTiCC)的完整天文时序数据。数据集涵盖18类天文源,包括暂现现象(如超新星、千新星)与变源天体(如活动星系核、米拉变星)。 原始Kaggle竞赛页面可参见[此处](https://www.kaggle.com/c/PLAsTiCC-2018)。竞赛配套的[说明笔记](https://arxiv.org/abs/1810.00001)详细阐释了本数据集的细节;而用于生成该数据集的模拟方案可参阅[相关论文](https://arxiv.org/abs/1903.11756),该内容可供天文学家参考。 ## 数据集结构 ### 数据字段 - **object_id**:天体唯一标识符 - **times_wv**:形状为(N, 2)的二维数组,包含每次观测的观测时刻(修正儒略日,Modified Julian Date, MJD)与滤光片(波长)信息,其中N为观测总次数 - **target**:形状为(N, 2)的二维数组,包含每次观测的流量(单位任意)与流量误差 - **label**:代表天体类别的整数(详见下文) - **redshift**:天体的真实红移值 - **ddf**:标记字段,若天体位于LSST的深钻探场(Deep Drilling Fields, DDF)巡天区域则取值为1,若位于宽视场快速巡天(Wide-Fast-Deep, WFD)区域则取值为0 - **hostgal_specz**:宿主星系的光谱红移值 - **hostgal_photoz**:宿主星系的测光红移值 - **hostgal_photoz_err**:测光红移的不确定性 ### 数据拆分 原始PLAsTiCC挑战赛的训练集存在偏差:相较于测试集,其红移更低、亮度更高、信噪比更强,该设置旨在模拟通常用于训练机器学习分类器的光谱确认观测子集。测试集则真实还原了LSST所有观测的模拟场景:相较于训练集,其目标天体更暗、噪声更高。本数据集将原始PLAsTiCC训练集按9:1划分为训练集与验证集,原始测试集则保持原样直接沿用。 - **train**:PLAsTiCC原始训练集的90%子集 - **validation**:PLAsTiCC原始训练集的10%子集 - **test**:完整的PLAsTiCC原始测试集 ## 附加信息 ### 类别说明 6: 单引力微透镜事件 15: 潮汐瓦解事件(Tidal Disruption Event, TDE) 16: 食双星系统(Eclipsing Binary, EB) 42: Ⅱ型超新星(SNII) 52: 特殊Ⅰa型超新星(SNIax) 53: 米拉变星 62: Ⅰbc型超新星(SNIbc) 64: 千新星(KN) 65: M型矮星 67: 特殊Ⅰa型超新星(SNIa-91bg) 88: 活动星系核(AGN) 90: Ⅰa型超新星(SNIa) 92: 天琴座RR型变星(RR-Lyrae, RRL) 95: 超亮超新星(SLSN-I) 991: 双引力微透镜事件 992: 中等光度光学暂现源(Intermediate Luminosity Optical Transient, ILOT) 993: 富钙暂现源(Calcium-Rich Transient, CaRT) 994: 对不稳定性超新星(Pair Instability Supernova, PISN) 995: 弦状引力微透镜事件 ### 引用信息 @ARTICLE{2018arXiv181000001T, author = {{PLAsTiCC团队} and {Allam}, Tarek, Jr. and {Bahmanyar}, Anita and {Biswas}, Rahul and {Dai}, Mi and {Galbany}, Lluís and {Hložíček}, Renée and {Ishida}, Emille E.~O. and {Jha}, Saurabh W. and {Jones}, David O. and {Kessler}, Richard and {Lochner}, Michelle and {Mahabal}, Ashish A. and {Malz}, Alex I. and {Mandel}, Kaisey S. and {Martínez-Galarza}, Juan Rafael and {McEwen}, Jason D. and {Muthukrishna}, Daniel and {Narayan}, Gautham and {Peiris}, Hiranya and {Peters}, Christina M. and {Ponder}, Kara and {Setzer}, Christian N. and {LSST暗能量科学合作组} and {LSST暂现源工作组} and {变星科学合作组}}, title = "{勒普林大视场巡天望远镜测光天文时序分类挑战赛(PLAsTiCC):数据集}", journal = {arXiv预印本}, keywords = {天体物理学 - 仪器与方法天体物理学, 天体物理学 - 太阳与恒星天体物理学}, year = 2018, month = sep, eid = {arXiv:1810.00001}, pages = {arXiv:1810.00001}, doi = {10.48550/arXiv.1810.00001}, archivePrefix = {arXiv}, eprint = {1810.00001}, primaryClass = {astro-ph.IM}, adsurl = {https://ui.adsabs.harvard.edu/abs/2018arXiv181000001T}, adsnote = {由SAO/NASA天体物理学数据系统提供} }
提供机构:
BrachioLab
原始信息汇总

数据集概述

数据集名称

  • Astronomical Time-Series Dataset

数据集来源

  • 来自2018年Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC) Kaggle竞赛。

数据集内容

  • 包含18种天文源类型,包括瞬变现象(如超新星、千新星)和变星(如活动星系核、米拉变星)。

数据集结构

数据字段
  • object_id: 唯一对象标识符
  • times_wv: 形状为(N, 2)的2D数组,包含观测时间和滤镜(波长)
  • target: 形状为(N, 2)的2D数组,包含流量(任意单位)和流量误差
  • label: 整数,表示对象类别
  • redshift: 对象的真实红移
  • ddf: 对象是否在LSST的深钻场(DDF)调查区域,1表示是,0表示否
  • hostgal_specz: 宿主星系的光谱红移
  • hostgal_photoz: 宿主星系的光度红移
  • hostgal_photoz_err: 光度红移的不确定性
数据分割
  • train: PLAsTiCC训练集的90%
  • validation: PLAsTiCC训练集的10%
  • test: 完整的PLAsTiCC测试集

类别描述

  • 数据集包含多种天文事件类别,如微透镜、潮汐破坏事件、超新星等。

引用信息

@ARTICLE{2018arXiv181000001T, author = {{The PLAsTiCC team} ...}, title = "{The Photometric LSST Astronomical Time-series Classification Challenge (PLAsTiCC): Data set}", journal = {arXiv e-prints}, keywords = {Astrophysics - Instrumentation and Methods for Astrophysics, Astrophysics - Solar and Stellar Astrophysics}, year = 2018, month = sep, eid = {arXiv:1810.00001}, pages = {arXiv:1810.00001}, doi = {10.48550/arXiv.1810.00001}, archivePrefix = {arXiv}, eprint = {1810.00001}, primaryClass = {astro-ph.IM}, adsurl = {https://ui.adsabs.harvard.edu/abs/2018arXiv181000001T}, adsnote = {Provided by the SAO/NASA Astrophysics Data System} }

搜集汇总
数据集介绍
main_image_url
构建方式
在时域天文学领域,PLAsTiCC数据集源于2018年LSST天文时域分类挑战赛,其构建过程体现了对大规模巡天观测的前瞻性模拟。该数据集通过精细的天文物理模拟技术生成,涵盖了18类天体源,包括超新星、千新星等暂现现象以及活动星系核、米拉变星等变源。原始训练集经过精心设计,模拟了光谱确认样本的典型特征,即偏向低红移、高亮度和高信噪比;而测试集则模拟了LSST全巡天观测的真实场景,更为暗弱且噪声显著。本版本将原始训练集按9:1比例划分为训练与验证子集,测试集则完整保留原貌,从而构建了一个层次分明、贴近实际观测的数据架构。
使用方法
为有效利用PLAsTiCC数据集,研究者可依据标准机器学习流程开展工作。数据已预分割为训练集、验证集和测试集,用户可直接加载相应子集进行模型训练与评估。在模型开发阶段,建议利用训练集学习天体光变曲线的判别特征,并通过验证集进行超参数调优与早期停止,以防止过拟合。最终模型性能应在保持原始分布、更具挑战性的测试集上进行严谨评估。数据字段清晰明确,如`times_wv`包含观测时间与滤光片信息,`target`包含流量与误差,`label`为天体类别整数编码,研究者可根据任务需求灵活组合这些特征,构建适用于时域天文分类、异常检测或物理参数回归的预测模型。
背景与挑战
背景概述
在时域天文学蓬勃发展的背景下,大型综合巡天望远镜(LSST)等新一代观测设施即将产生海量的天文时序数据,对自动化分类方法提出了迫切需求。为应对这一挑战,PLAsTiCC团队于2018年发起了‘Photometric LSST Astronomical Time-series Classification Challenge’竞赛,并构建了同名数据集。该数据集由多个研究机构的天文学家与数据科学家合作创建,核心目标是预先开发并评估能够对LSST未来观测到的各类瞬变天体与变源进行准确分类的机器学习算法。它通过精细的模拟生成了包含超新星、千新星、活动星系核、米拉变星等18类天体的光变曲线,为时域天文学与机器学习交叉领域的研究提供了至关重要的基准测试平台,极大地推动了自动分类算法在应对未来数据洪流方面的能力发展。
当前挑战
该数据集旨在解决天文时序数据自动分类这一核心领域问题,其首要挑战在于处理高度不平衡的类别分布与极其复杂的噪声模式,例如不同天体类型的光变形态相似度高、观测信噪比差异巨大,且测试集比训练集更暗、噪声更强,模拟了真实巡天中数据质量退化的场景,这要求分类模型具备强大的泛化与抗噪能力。在构建过程中,挑战则集中于如何通过物理模拟生成既符合天体物理规律又覆盖足够多样性的合成数据,以精确模拟LSST未来将观测到的各类瞬变与变源的光变行为,并构建一个训练集与测试集存在系统性偏差(如红移、亮度、信噪比)的评估框架,从而真实反映算法在从‘干净’训练数据迁移到‘嘈杂’真实观测数据时面临的困难。
常用场景
经典使用场景
在时域天文学领域,PLAsTiCC数据集为天文瞬变源与变源的光度学分类研究提供了关键基准。该数据集模拟了未来大型综合巡天望远镜(LSST)的观测条件,涵盖了超新星、千新星、活动星系核等18类天体,其时间序列数据被广泛用于开发和验证机器学习分类算法,特别是针对高噪声、不平衡类别及红移变化的复杂场景,成为评估模型泛化能力的标准测试平台。
解决学术问题
该数据集有效应对了天文光度学分类中的若干核心挑战,包括处理观测数据中的显著噪声、类别不平衡以及红移效应引起的特征演化问题。通过提供接近真实巡天条件的模拟数据,它使研究者能够系统评估分类模型在未见过、更暗弱天体上的性能,推动了自动分类方法在应对未来海量天文数据流方面的可靠性研究,为时域天文学从数据采集到科学发现的自动化流程奠定了实证基础。
实际应用
PLAsTiCC数据集的实际价值体现在为下一代大规模巡天项目(如LSST)的实时数据处理管道提供算法预研与优化。天文学家利用该数据集训练的分类模型,可应用于实时警报流中快速识别稀有或具有重要科学价值的天体事件,例如千新星或潮汐瓦解事件,从而实现对关键目标的快速后续观测,极大提升了时域天文学发现的效率与响应速度。
数据集最近研究
最新研究方向
在时域天文学领域,PLAsTiCC数据集作为模拟大型综合巡天望远镜(LSST)观测的基准资源,正推动着天文瞬变与变源分类的前沿探索。当前研究聚焦于开发鲁棒的深度学习模型,以应对真实观测中存在的类别不平衡、噪声干扰及红移演化等挑战,旨在提升对稀有天体事件如千新星、潮汐瓦解事件的自动识别能力。该数据集与LSST等下一代巡天项目紧密关联,为构建实时天文预警系统提供了关键训练基础,助力科学家在数据洪流中精准捕捉宇宙动态,深化对恒星演化、宇宙学参数等核心问题的理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作