tess-lightcurves-planets

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/saadtaleb/tess-lightcurves-planets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个经过整理的TESS光变曲线集合，用于训练凌星检测模型。数据集包含7,607颗恒星（TIC目标），13,254个目录信号（TOI/CTOI/TCE）和31,345个光变曲线FITS文件。每个恒星可能有一个或多个报告的行星候选体、确认的行星、假阳性或来自NASA/TESS公共目录的管道检测结果。数据集包含三个核心概念：恒星（TIC ID标识）、光变曲线（FITS文件，每个恒星可能有多个观测文件）和信号（来自TOI、CTOI或TCE目录的凌星公告）。数据集提供了三个元数据CSV文件：targets.csv（每颗恒星一行，包含恒星属性和计数）、signals.csv（每个目录信号一行，包含地面真实标签）和lightcurves.csv（每个FITS文件一行，包含文件信息和相关信号）。标签分布包括确认行星、候选信号、假阳性和未知类别，这种混合分布是专门为训练凌星检测器设计的。数据来源包括MAST/TESS、ExoFOP-TESS、MAST/STScI和NASA Exoplanet Archive等公共存档。

创建时间：

2026-04-01

搜集汇总

数据集介绍

构建方式

在系外行星探测领域，TESS光变曲线数据集通过整合NASA/TESS公开目录中的多源观测数据构建而成。该数据集汇集了来自TESS输入目录的7607颗恒星，涵盖了13354个来自TOI、CTOI和TCE目录的星历信号，并关联了31345个光变曲线FITS文件。构建过程中，研究者系统性地将恒星物理属性、星历信号标签与观测文件进行关联，形成三层结构化元数据，确保了数据的一致性与可追溯性。

特点

该数据集呈现出多层次的结构化特征，以恒星、信号和光变曲线三个独立维度组织数据。每颗恒星关联多个观测扇区的光变曲线文件，支持标准2分钟、快速20秒及QLP管道等多种观测模式。数据标签体系精细区分了已确认行星、候选体、误报及未知类别，其中包含1181颗具有已确认行星的恒星，为训练算法提供了明确的阳性样本与挑战性案例。这种设计使得数据集既能支持监督学习，也能适应半监督或异常检测的研究需求。

使用方法

使用者可通过三个核心CSV文件导航数据集：targets.csv提供恒星级物理属性与系统分类，signals.csv包含所有星历信号的轨道参数与真实性标签，lightcurves.csv则关联观测文件路径与对应天体的信号信息。研究实践中，可依据system_class字段筛选特定类型的恒星系统，或结合period_days、depth_ppm等轨道参数构建训练样本。数据集支持直接使用FITS文件进行光变曲线分析，其分层结构允许灵活实现从文件级到恒星级的跨粒度研究。

背景与挑战

背景概述

系外行星探测是天体物理学的前沿领域，凌星法作为核心手段，通过分析恒星亮度周期性衰减来推断行星存在。TESS（凌星系外行星巡天卫星）自2018年发射以来，持续提供高精度测光数据，极大推动了该领域发展。在此背景下，TESS Light Curves for Planet Detection数据集应运而生，由研究团队基于NASA公开数据构建，旨在为凌星检测模型提供标准化训练资源。该数据集整合了TESS输入目录中的7607颗恒星、13254个来自TOI、CTOI和TCE目录的候选或确认信号，以及31345条光变曲线FITS文件，系统标注了确认行星、候选体、误报及未知类别，为机器学习算法开发奠定了坚实基础。

当前挑战

该数据集致力于解决凌星信号自动检测中的关键挑战：真实凌星信号微弱且易受恒星活动、仪器噪声及天体物理假象干扰，要求模型具备极高信噪比分辨能力。构建过程中，数据整合面临多重困难：需从MAST、ExoFOP-TESS等多源异构天文数据库中交叉匹配恒星、信号与光变曲线，确保时空一致性；不同观测扇区数据存在校准差异，快速与标准时序数据需统一处理；标签体系需协调官方确认、社区贡献及自动化流水线结果，处理候选信号歧义性与误报标注的复杂性，这对数据质量控制提出了严峻考验。

常用场景

经典使用场景

在系外行星探测领域，TESS光变曲线数据集为训练和验证凌星检测算法提供了关键资源。该数据集整合了来自TESS卫星的观测数据，包含数千颗恒星的亮度时间序列，并标注了候选、确认或虚假行星信号。研究人员通常利用这些标注数据，构建机器学习模型，以自动识别光变曲线中的周期性亮度下降，从而高效筛选潜在的行星候选体。这一过程不仅加速了行星发现流程，还为理解凌星信号的特征提供了标准化基准。

实际应用

在实际应用中，该数据集支撑了自动化行星搜索管线的开发与优化。天文学家利用其训练卷积神经网络或时序分析模型，批量处理TESS海量观测数据，快速识别潜在行星信号，从而优先安排后续光谱观测以确认行星大气成分。此外，教育机构也将其用于天文学与数据科学课程，帮助学生掌握光变曲线分析与机器学习技能，培养下一代行星科学人才。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，包括开发基于深度学习的凌星检测框架如AstroNet和ExoMiner，这些模型显著提升了检测灵敏度与效率。同时，研究人员利用其多标签结构，开展了行星系统多行星识别与假阳性分类的对比研究。该数据集还促进了开源工具链的完善，例如与lightkurve库的集成，使得数据预处理与模型部署更加便捷，推动了整个领域的协作创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集