tess-lightcurves-planets
收藏Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/saadtaleb/tess-lightcurves-planets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个经过整理的TESS光变曲线集合,用于训练凌星检测模型。数据集包含7,607颗恒星(TIC目标),13,254个目录信号(TOI/CTOI/TCE)和31,345个光变曲线FITS文件。每个恒星可能有一个或多个报告的行星候选体、确认的行星、假阳性或来自NASA/TESS公共目录的管道检测结果。数据集包含三个核心概念:恒星(TIC ID标识)、光变曲线(FITS文件,每个恒星可能有多个观测文件)和信号(来自TOI、CTOI或TCE目录的凌星公告)。数据集提供了三个元数据CSV文件:targets.csv(每颗恒星一行,包含恒星属性和计数)、signals.csv(每个目录信号一行,包含地面真实标签)和lightcurves.csv(每个FITS文件一行,包含文件信息和相关信号)。标签分布包括确认行星、候选信号、假阳性和未知类别,这种混合分布是专门为训练凌星检测器设计的。数据来源包括MAST/TESS、ExoFOP-TESS、MAST/STScI和NASA Exoplanet Archive等公共存档。
创建时间:
2026-04-01
搜集汇总
数据集介绍

构建方式
在系外行星探测领域,TESS光变曲线数据集通过整合NASA/TESS公开目录中的多源观测数据构建而成。该数据集汇集了来自TESS输入目录的7607颗恒星,涵盖了13354个来自TOI、CTOI和TCE目录的星历信号,并关联了31345个光变曲线FITS文件。构建过程中,研究者系统性地将恒星物理属性、星历信号标签与观测文件进行关联,形成三层结构化元数据,确保了数据的一致性与可追溯性。
特点
该数据集呈现出多层次的结构化特征,以恒星、信号和光变曲线三个独立维度组织数据。每颗恒星关联多个观测扇区的光变曲线文件,支持标准2分钟、快速20秒及QLP管道等多种观测模式。数据标签体系精细区分了已确认行星、候选体、误报及未知类别,其中包含1181颗具有已确认行星的恒星,为训练算法提供了明确的阳性样本与挑战性案例。这种设计使得数据集既能支持监督学习,也能适应半监督或异常检测的研究需求。
使用方法
使用者可通过三个核心CSV文件导航数据集:targets.csv提供恒星级物理属性与系统分类,signals.csv包含所有星历信号的轨道参数与真实性标签,lightcurves.csv则关联观测文件路径与对应天体的信号信息。研究实践中,可依据system_class字段筛选特定类型的恒星系统,或结合period_days、depth_ppm等轨道参数构建训练样本。数据集支持直接使用FITS文件进行光变曲线分析,其分层结构允许灵活实现从文件级到恒星级的跨粒度研究。
背景与挑战
背景概述
系外行星探测是天体物理学的前沿领域,凌星法作为核心手段,通过分析恒星亮度周期性衰减来推断行星存在。TESS(凌星系外行星巡天卫星)自2018年发射以来,持续提供高精度测光数据,极大推动了该领域发展。在此背景下,TESS Light Curves for Planet Detection数据集应运而生,由研究团队基于NASA公开数据构建,旨在为凌星检测模型提供标准化训练资源。该数据集整合了TESS输入目录中的7607颗恒星、13254个来自TOI、CTOI和TCE目录的候选或确认信号,以及31345条光变曲线FITS文件,系统标注了确认行星、候选体、误报及未知类别,为机器学习算法开发奠定了坚实基础。
当前挑战
该数据集致力于解决凌星信号自动检测中的关键挑战:真实凌星信号微弱且易受恒星活动、仪器噪声及天体物理假象干扰,要求模型具备极高信噪比分辨能力。构建过程中,数据整合面临多重困难:需从MAST、ExoFOP-TESS等多源异构天文数据库中交叉匹配恒星、信号与光变曲线,确保时空一致性;不同观测扇区数据存在校准差异,快速与标准时序数据需统一处理;标签体系需协调官方确认、社区贡献及自动化流水线结果,处理候选信号歧义性与误报标注的复杂性,这对数据质量控制提出了严峻考验。
常用场景
经典使用场景
在系外行星探测领域,TESS光变曲线数据集为训练和验证凌星检测算法提供了关键资源。该数据集整合了来自TESS卫星的观测数据,包含数千颗恒星的亮度时间序列,并标注了候选、确认或虚假行星信号。研究人员通常利用这些标注数据,构建机器学习模型,以自动识别光变曲线中的周期性亮度下降,从而高效筛选潜在的行星候选体。这一过程不仅加速了行星发现流程,还为理解凌星信号的特征提供了标准化基准。
实际应用
在实际应用中,该数据集支撑了自动化行星搜索管线的开发与优化。天文学家利用其训练卷积神经网络或时序分析模型,批量处理TESS海量观测数据,快速识别潜在行星信号,从而优先安排后续光谱观测以确认行星大气成分。此外,教育机构也将其用于天文学与数据科学课程,帮助学生掌握光变曲线分析与机器学习技能,培养下一代行星科学人才。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,包括开发基于深度学习的凌星检测框架如AstroNet和ExoMiner,这些模型显著提升了检测灵敏度与效率。同时,研究人员利用其多标签结构,开展了行星系统多行星识别与假阳性分类的对比研究。该数据集还促进了开源工具链的完善,例如与lightkurve库的集成,使得数据预处理与模型部署更加便捷,推动了整个领域的协作创新。
以上内容由遇见数据集搜集并总结生成



