five

Ariel模拟观测公共数据集

收藏
arXiv2026-05-05 更新2026-05-09 收录
下载链接:
https://www.kaggle.com/competitions/ariel-data-challenge-2024/data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由欧洲航天局Ariel系外行星大气探测任务团队联合开发,基于ExoSim2和TauREx3仿真工具构建,包含约1000个系外行星系统的模拟观测数据。数据集涵盖0.6-3.9μm波长范围内的时序光谱立方体,整合了JWST校准数据衍生的噪声模型及真实光学像差特征。通过耦合大气正向模型与仪器响应函数,该资源为开发去噪算法提供了已知真实值的基准测试平台,主要应用于系外行星大气成分反演和机器学习去噪方法验证,助力未来大规模系外行星普查任务的数据处理挑战。

This dataset was co-developed by the team of the European Space Agency (ESA) Ariel Exoplanet Atmospheric Exploration Mission, and constructed using the ExoSim2 and TauREx3 simulation tools. It contains simulated observational data for approximately 1000 exoplanetary systems. The dataset includes time-series spectral cubes spanning the 0.6–3.9 μm wavelength range, and integrates noise models derived from JWST calibration data as well as real optical aberration characteristics. By coupling atmospheric forward models with instrument response functions, this resource provides a benchmark test platform with known ground-truth values for the development of denoising algorithms. It is primarily applied to exoplanet atmospheric composition retrieval and the validation of machine learning-based denoising methods, and supports addressing data processing challenges for future large-scale exoplanet survey missions.
提供机构:
卡迪夫大学·物理与天文学院; 伦敦大学学院·物理与天文系; 罗马第一大学·物理系; 巴黎索邦大学·巴黎天体物理研究所; 法国国家空间研究中心; 伦敦国王学院·物理系
创建时间:
2026-05-05
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于ESA Ariel任务的当前有效载荷设计,通过耦合端到端仪器模拟器ExoSim2、大气正向建模框架TauREx3以及物理光学模拟器PAOS生成。ExoSim2模拟了完整的观测链路,包括望远镜吞吐量、色散光学元件、探测器响应及各类噪声源。TauREx3提供波长依赖的行星透射光谱作为天体物理输入信号,PAOS则生成真实的点扩散函数与光学像差。模拟中使用了JWST NIRSpec的校准产品(暗场、读出噪声、平场和坏像素图)来构建探测器模型,并引入了指向抖动、增益漂移、像素非线性及饱和效应等关键系统学。数据涵盖了FGS1光度和AIRS-CH0光谱两个通道,生成了一系列包含完整噪声、仅含散粒噪声以及无噪声的参考版本。
特点
该数据集包含1435次模拟观测,总计超过7TB,是目前最全面的Ariel任务模拟公共基准之一。其突出特点在于精心设计的数据划分策略,系统性地引入了分布偏移:训练集与多个测试子集在行星半径、主星类型、大气成分(如H₂O、CH₄、NH₃、HCN等不同分子组合)、探测器模型(包含不同坏像素分布与平场特征)以及轨道参数上存在显著差异。这种显式的域外测试案例设计旨在暴露传统去趋势算法的过拟合风险,并严格评估机器学习模型在面对未知行星系统时的泛化能力。数据还包含无特征的平坦光谱校准案例,作为评估提取过程系统偏差的零假设基线。
使用方法
该数据集已部署于Kaggle平台上的Ariel Data Challenge 2024竞赛,供全球研究者直接下载使用。用户可利用提供的校准文件对原始图像进行模拟数字转换、平场校正、暗流扣除、坏像素掩蔽及非线性校正等预处理。随后,通过相关双采样计算获得科学帧,进行时间合并,并利用星光归一化消除恒星光谱轮廓。数据支持多种机器学习范式,包括使用3D-CNN直接处理时空数据立方体,或通过2D-CNN分析波长-时间光谱光变曲线的波动特征。评估时采用均方误差和高斯对数似然作为指标,量化预测光谱与真实值之间的偏差及不确定性校准程度。
背景与挑战
背景概述
随着詹姆斯·韦伯空间望远镜(JWST)不断产出高精度系外行星透射光谱,以及欧洲空间局(ESA)的Ariel任务计划于2029年发射,对约1000颗系外行星大气进行均匀巡天观测,天文学界正迎来从目标导向的精细研究到大规模统计普查的关键转型。在此背景下,为支撑可扩展、自动化的数据缩减流程开发,以洛伦佐·穆格奈伊(Lorenzo V. Mugnai)和叶凯侯(Kai Hou Yip)为代表的多国联合团队,于2025年发布了Ariel模拟观测公共数据集。该数据集基于当前Ariel有效载荷设计,通过ExoSim2与TauREx3耦合生成,包含1435次模拟观测,总数据量达7TB,并已在Kaggle平台上的Ariel数据挑战2024中得到实战检验。这一资源为系外行星透射光谱学提供了宝贵的基准测试平台,对推动数据驱动(包括机器学习)的去趋势算法发展具有里程碑意义。
当前挑战
该数据集主要面临两大维度的挑战。在领域问题层面,系外行星大气信号极其微弱,从小型行星的几ppm到暖/热巨行星的约10^3 ppm不等,而高质量JWST时序光谱的典型噪声水平仅为10–50 ppm,因此信号与残余噪声及系统误差的辨析成为核心难题。尤其是当观测分布与训练集分布偏离时引发的数据集偏移问题,严重制约了机器学习模型的外推能力。在数据集构建过程中,挑战同样严峻:需同时模拟指向抖动、增益漂移、像素非线性、饱和效应等复杂仪器系统误差,并利用JWST标定产品作为代理生成真实探测器噪声图;此外,为涵盖多样化的行星构型与大气成分(涵盖11种痕量气体及云层),在保持观测策略均匀性的前提下,必须精细平衡信号保真度与计算资源消耗,最终形成了包含超过700万帧图像的海量数据。
常用场景
经典使用场景
在系外行星大气表征领域,该数据集最经典的用途是作为开发与验证数据降噪与趋势去除算法的基准平台。研究者可借此模拟来自Ariel任务的真实观测时序数据,涵盖光子噪声、指向抖动、增益漂移、像素非线性及探测器系统效应等复杂噪声源。通过提供已知真实大气光谱的标注数据,该数据集能够量化评估不同降噪手段在提取透射光谱过程中的精度与偏差,尤其适用于对比经典参数化方法与基于机器学习的新型降噪管线的性能表现。
衍生相关工作
围绕该数据集已衍生出多项标志性工作,包括首次将卷积神经网络用于端到端Ariel模拟数据还原的基准管线,以及基于白光曲线与二维CNN相结合的两阶段光谱波动预测方法。此外,该数据集直接催生了Ariel数据挑战赛2024,吸引大量参赛者探索基于迁移学习、域自适应和蒙特卡洛丢弃法等策略来缓解分布漂移问题。未来相关工作预计将进一步拓展自监督学习、物理信息神经网络以及基于贝叶斯的深度不确定性量化在实际系外行星光谱分析中的应用边界。
数据集最近研究
最新研究方向
当前,随着詹姆斯·韦伯空间望远镜(JWST)持续产出高精度系外行星透射光谱,以及欧洲空间局(ESA)阿里尔(Ariel)任务计划在2029年发射并对约1000颗系外行星大气开展均匀巡天,该领域正从单个目标精细刻画迈向大规模统计普查。在此背景下,Ariel模拟观测公共数据集应运而生,它通过耦合ExoSim2与TauREx3模拟器,基于阿里尔当前有效载荷设计生成了包含真实仪器系统噪声、指向抖动、增益漂移及JWST探测器校准产品的海量模拟数据。该数据集的独特价值在于提供了已知真实值的基准测试平台,专门用于评估和开发数据驱动的去趋势算法,尤其是基于机器学习的系外行星透射光谱提取方法。研究前沿聚焦于利用深度学习模型(如三维及二维卷积神经网络)从原始时空数据立方体中直接复原行星大气光谱,同时系统性地探讨了分布偏移(domain shift)对模型泛化能力的严峻挑战——当测试集的行星大气组成、恒星类型或轨道参数偏离训练分布时,模型性能急剧下降,揭示了现有神经网络在不确定性量化与迁移泛化方面的根本局限。这一资源已通过Kaggle上的Ariel数据挑战赛2024得到实战检验,有力推动了可扩展、高鲁棒性系外行星数据处理流水线的开发与社区对标,为阿里尔任务时代的大气比较行星学奠定了关键技术基础。
相关研究论文
  • 1
    A public dataset of Ariel simulated observations for developing exoplanetary atmosphere data reduction pipelines卡迪夫大学·物理与天文学院; 伦敦大学学院·物理与天文系; 罗马第一大学·物理系; 巴黎索邦大学·巴黎天体物理研究所; 法国国家空间研究中心; 伦敦国王学院·物理系 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作