EXTraS database
收藏arXiv2025-09-29 更新2025-10-01 收录
下载链接:
https://extras.inaf.it
下载链接
链接失效反馈官方服务:
资源简介:
EXTraS数据库基于XMM-牛顿天文台收集的数据,提供了大量X射线源的光度曲线。EXTraS还为我们提供了每个光度曲线的一组特征。我们从EXTraS数据库中提取了31,832个变量源的表格数据集,每个源有108个特征。其中,13,851个源根据直接视觉被手动标记为恒星耀斑或非耀斑。该数据集被用于训练一个梯度提升分类器,以产生基于我们数据集的恒星耀斑目录,并将其发布给社区。
The EXTraS database, based on data collected by the XMM-Newton Observatory, provides light curves for a large number of X-ray sources. EXTraS also provides a set of features for each light curve. We extracted a tabular dataset of 31,832 variable sources from the EXTraS database, with 108 features per source. Among these, 13,851 sources were manually labeled as either stellar flares or non-flares based on direct visual inspection. This dataset was used to train a gradient-boosted classifier to generate a stellar flare catalog based on this dataset, which was published to the scientific community.
提供机构:
INAF IASF-Milano, Italy
创建时间:
2025-09-29
搜集汇总
数据集介绍

构建方式
在X射线天文学领域,EXTraS数据库的构建依托于XMM-Newton天文台2000至2020年间收集的观测数据。通过整合三台EPIC相机的观测结果,采用500秒统一时间分箱生成标准化光变曲线,系统提取了31,832个变源的108个特征参数。这些特征涵盖模型无关统计量、物理模板拟合参数及累积分布函数特征三大类别,并通过交叉匹配Gaia和SIMBAD星表,对13,851个源进行了人工视觉标注,确立了恒星耀斑的黄金标准数据集。
使用方法
该数据集适用于基于特征工程的机器学习方法研究。使用者可借助梯度提升决策树等算法,在80%训练集上构建分类模型,并通过置换特征重要性和SHAP值分析进行模型可解释性研究。数据预处理阶段需注意类别不平衡问题,建议采用合适的采样策略而非SMOTE方法。在模型评估时,应重点关注精确度与召回率的平衡,通过调整分类阈值可获得82.4%的精确度与73.3%的召回率。最终训练完成的模型可应用于整个数据集,生成迄今最大的X射线恒星耀斑星表。
背景与挑战
背景概述
EXTraS数据库源于欧盟第七框架计划项目,由意大利国家天体物理研究所等机构于2016年完成初步建设,旨在系统分析XMM-Newton望远镜探测到的50万组X射线源的周期性与非周期性变化。该项目通过整合三台EPIC相机的观测数据,构建了包含108个特征参数的31,832组变源光变曲线,为研究恒星耀斑、快速X射线暂现源等天体物理现象提供了前所未有的数据基础。其创新性体现在将传统统计分析与人机协同标注相结合,推动了时域天文学从个案研究向系统化探索的转型,为理解年轻恒星磁活动机制及系外行星宜居性评估开辟了新途径。
当前挑战
该数据集面临双重挑战:在科学问题层面,需从高噪声、低统计量的X射线光变曲线中精准识别短暂耀斑信号,其快速上升缓慢衰减的特征易与仪器噪声、双星掩食等现象混淆;在构建过程中,需解决多相机数据融合时的系统误差校准、13,851组人工标注样本的交叉验证一致性,以及108维特征间复杂关联性导致的模型过拟合风险。此外,恒星光学对应体的跨波段证认存在位置匹配误差,使得部分真实耀斑被误标为负例,制约了监督学习模型的泛化能力。
常用场景
经典使用场景
在X射线天文学领域,EXTraS数据库为恒星耀斑检测提供了标准化的分析框架。该数据集整合了XMM-Newton望远镜观测的31,832个变源光变曲线及其108个特征参数,成为研究恒星磁活动的重要基准。通过梯度提升决策树模型对13,851个手动标记样本进行训练,实现了对X射线耀斑的高精度自动识别,准确率达到97.1%,为大规模巡天数据的快速筛选建立了可靠范式。
解决学术问题
该数据集有效解决了恒星物理研究中X射线耀斑自动识别的技术难题。传统依赖耀斑模板拟合的方法精度有限,而EXTraS通过融合模型依赖特征与统计特征,显著提升了耀斑检测的可靠性。其82.4%的精确度和73.3%的召回率,为研究年轻恒星物体的磁场生成机制、主序冷星磁活动演化提供了高质量样本,同时为系外行星宜居性评估提供了关键的恒星活动性数据支撑。
实际应用
在实际观测应用中,EXTraS数据库极大优化了天文学家的工作流程。通过将分类器集成到数据分析管线,视觉检查光变曲线的时间成本可降低约50%。该技术已成功应用于超巨星快速X射线暂现源的耀斑统计研究、M31中特殊源的周期性衰减发现等实际案例,并为即将开展的ATHENA和AXIS任务提供了可迁移的技术方案,显著提升了多波段时域天文学的研究效率。
数据集最近研究
最新研究方向
在X射线天文学领域,EXTraS数据库作为XMM-Newton望远镜的重要数据资源,正推动恒星耀斑探测研究迈向智能化与可解释化。前沿研究聚焦于利用梯度提升决策树等监督学习方法,对13,851个手动标记的变源光变曲线进行高精度分类,实现了82.4%的精确度与73.3%的召回率。通过可解释人工智能技术(如排列特征重要性和SHAP分析),揭示了耀斑模板拟合参数与模型无关统计特征的关键作用,同时构建了迄今规模最大的X射线恒星耀斑星表。这一进展不仅显著降低了人工检测成本,更为未来ATHENA、AXIS等新一代空间任务的数据处理提供了可迁移的分析范式,在系外行星宜居性评估与恒星磁活动研究中展现出深远影响。
相关研究论文
- 1Stellar flare detection in XMM-Newton with gradient boosted treesINAF IASF-Milano, Italy · 2025年
以上内容由遇见数据集搜集并总结生成



