five

nasa-exoplanets

收藏
Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/juliensimon/nasa-exoplanets
下载链接
链接失效反馈
官方服务:
资源简介:
NASA系外行星档案数据集是一个包含已确认系外行星的权威数据库,由加州理工学院/IPAC在NASA合同下维护。数据集包含每颗行星的最佳物理和轨道参数、宿主恒星属性以及发现信息。数据来源于NASA系外行星档案的行星系统表(`ps`),并使用`default_flag=1`选择每个行星的默认参数集。数据集包含6,153颗已确认系外行星,涵盖19个字段,如行星名称、宿主恒星名称、发现方法、发现年份、轨道周期、行星半径、行星质量、平衡温度、半长轴、轨道偏心率、恒星有效温度、恒星半径、恒星质量、距离、视星等、赤经、赤纬和行更新日期。数据集适用于表格分类和回归任务,每周更新一次。使用示例包括筛选潜在宜居行星和分析不同发现方法的时间趋势。数据集以CC-BY-4.0许可发布。
创建时间:
2026-03-24
原始信息汇总

NASA Exoplanet Archive 数据集概述

数据集基本信息

  • 数据集名称: NASA Exoplanet Archive
  • 发布者: Julien Simon
  • 发布日期: 2026年
  • 许可协议: CC-BY-4.0
  • 语言: 英语
  • 数据格式: Parquet
  • 数据规模: 1K<n<10K
  • 任务类别: 表格分类、表格回归
  • 标签: 太空、系外行星、天文学、NASA、凌星法、径向速度法、开普勒、TESS、开放数据、表格数据

数据集描述

该数据集包含来自NASA系外行星档案馆的所有已确认系外行星,附带轨道参数、恒星属性以及发现元数据。数据来源于NASA系外行星档案馆,由Caltech/IPAC根据与NASA的合同维护。每个条目代表一个已确认的行星,包含其最佳可用物理和轨道参数、宿主恒星属性以及发现信息。数据集使用行星系统表,并设置default_flag=1,为每颗行星选择默认参数集的一行数据。目前包含6,153颗已确认行星。

数据模式(Schema)

列名 类型 描述
pl_name string 行星名称
hostname string 宿主恒星名称
discoverymethod string 发现方法
disc_year Int64 发现年份
disc_facility string 发现设施名称
pl_orbper float 轨道周期(天)
pl_rade float 行星半径(地球半径)
pl_bmasse float 行星质量(地球质量)
pl_eqt float 平衡温度(K)
pl_orbsmax float 半长轴(AU)
pl_orbeccen float 轨道偏心率
st_teff float 恒星有效温度(K)
st_rad float 恒星半径(太阳半径)
st_mass float 恒星质量(太阳质量)
sy_dist float 距离(秒差距)
sy_vmag float V波段星等
ra float 赤经(度)
dec float 赤纬(度)
rowupdate string 最后行更新日期

关键统计信息

  • 已确认系外行星总数: 6,153
  • 最新发现: HD 100508 b (2026年)

按发现方法统计

方法 数量
凌星法 4,520
径向速度法 1,182
微引力透镜法 275
直接成像法 94
凌星计时变分法 39
食计时变分法 17
轨道亮度调制法 9
脉冲星计时法 8

按年份统计近期发现

年份 数量
2026 66
2025 243
2024 259
2023 324
2022 369
2021 564
2020 234
2019 196
2018 315
2017 152

数据来源与更新

  • 数据来源: https://exoplanetarchive.ipac.caltech.edu/
  • 更新频率: 每周一16:00 UTC通过GitHub Actions更新

相关数据集

  • https://huggingface.co/datasets/juliensimon/space-track-satcat
  • https://huggingface.co/datasets/juliensimon/space-launch-log

引用格式

bibtex @dataset{nasa_exoplanets, author = {Simon, Julien}, title = {NASA Exoplanet Archive}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/juliensimon/nasa-exoplanets}, note = {Based on data from the NASA Exoplanet Archive, operated by Caltech/IPAC} }

搜集汇总
数据集介绍
main_image_url
构建方式
在系外行星研究领域,数据集的构建往往依赖于权威天文观测机构的系统性整理。本数据集以NASA系外行星档案为数据源,通过其TAP接口定期查询并整合行星系统表,确保每个已确认系外行星仅保留一组默认参数。构建过程采用自动化流程,每周更新一次,从而保证了数据的时效性与权威性,为天文研究提供了结构化的高质量数据基础。
特点
该数据集囊括了六千余颗已确认系外行星的详细参数,涵盖轨道特性、恒星属性及发现信息等多维特征。其显著特点在于数据来源的权威性与完整性,不仅包含了凌星、径向速度等多种发现方法所探测的行星,还提供了行星半径、质量、平衡温度等关键物理量。数据以表格形式呈现,字段定义清晰,便于进行统计分析与模型训练,是天体物理学与数据科学交叉研究的理想资源。
使用方法
利用该数据集时,研究者可通过Hugging Face的datasets库直接加载,并转换为Pandas DataFrame进行灵活操作。典型应用包括筛选潜在宜居行星、分析不同发现方法的时间趋势,或统计主要观测设施的贡献。数据集支持分类与回归等表格任务,能够服务于行星形成理论验证、恒星-行星系统关联性研究,以及机器学习模型在天文领域的应用探索。
背景与挑战
背景概述
系外行星研究作为天文学的前沿领域,旨在探索太阳系之外的行星系统,以揭示行星形成机制、宇宙生命潜力及行星多样性。NASA系外行星档案(NASA Exoplanet Archive)由加州理工学院/IPAC在NASA合同下维护,自21世纪初以来持续更新,已成为确认系外行星的权威数据库。该数据集汇集了超过6,000颗已确认系外行星的轨道参数、恒星属性及发现元数据,核心研究问题聚焦于通过多源观测数据(如凌星法、径向速度法)系统表征行星物理特性,推动行星科学、天体物理学及宜居性研究的发展,对深化宇宙认知具有里程碑意义。
当前挑战
在解决系外行星表征与分类的领域问题中,数据集面临多重挑战:观测数据存在显著偏差,例如凌星法更易探测近距离大行星,导致小质量或长周期行星样本不足;参数测量不确定性广泛存在,如行星质量、半径的误差范围可能影响分类模型的可靠性。构建过程中,挑战源于异构数据源的整合,需从不同望远镜设施(如Kepler、TESS)统一校准参数,并处理缺失值与异常值;同时,动态更新的数据流要求自动化管道确保时效性与一致性,以维持科学研究的严谨性。
常用场景
经典使用场景
在天文学研究领域,NASA系外行星档案数据集为探索系外行星的物理特性与分布规律提供了关键支持。该数据集最经典的使用场景在于通过机器学习方法对行星进行分类与预测,例如利用行星半径、质量、轨道周期等参数,结合监督学习模型识别潜在的宜居行星或分析不同发现方法(如凌星法与径向速度法)的效率差异。研究人员常借助该数据集构建回归模型,以预测行星的平衡温度或轨道参数,从而深化对行星形成与演化机制的理解。
实际应用
在实际应用层面,NASA系外行星档案数据集支撑了多项天文观测任务与公共科学项目。例如,它为开普勒(Kepler)与凌星系外行星巡天卫星(TESS)等太空望远镜的目标筛选与后续观测规划提供参考,协助天文学家优先观测具有特殊性质的行星系统。同时,该数据集也被用于公众科普平台与教育工具开发,通过可视化界面向公众展示系外行星多样性,激发社会对宇宙探索的兴趣,并促进公民科学项目如行星猎手(Planet Hunters)的参与。
衍生相关工作
基于该数据集衍生的经典研究工作广泛涵盖系外行星分类、宜居性评估与发现方法创新。例如,多项研究利用其数据训练随机森林或神经网络模型,以自动识别行星类型(如类地行星、气态巨行星),并预测未知行星的存在概率。此外,学者通过分析数据集中的轨道参数与恒星属性,提出了修订版的宜居带计算模型,并推动了多行星系统动力学稳定性的统计研究。这些工作不仅丰富了系外行星科学的知识体系,也为未来大型巡天项目的设计提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作