nasa-exoplanets
收藏Hugging Face2026-04-03 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/juliensimon/nasa-exoplanets
下载链接
链接失效反馈官方服务:
资源简介:
NASA系外行星档案数据集是一个包含已确认系外行星的权威数据库,由加州理工学院/IPAC在NASA合同下维护。数据集包含每颗行星的最佳物理和轨道参数、宿主恒星属性以及发现信息。数据来源于NASA系外行星档案的行星系统表(`ps`),并使用`default_flag=1`选择每个行星的默认参数集。数据集包含6,153颗已确认系外行星,涵盖19个字段,如行星名称、宿主恒星名称、发现方法、发现年份、轨道周期、行星半径、行星质量、平衡温度、半长轴、轨道偏心率、恒星有效温度、恒星半径、恒星质量、距离、视星等、赤经、赤纬和行更新日期。数据集适用于表格分类和回归任务,每周更新一次。使用示例包括筛选潜在宜居行星和分析不同发现方法的时间趋势。数据集以CC-BY-4.0许可发布。
创建时间:
2026-03-24
原始信息汇总
NASA Exoplanet Archive 数据集概述
数据集基本信息
- 数据集名称: NASA Exoplanet Archive
- 发布者: Julien Simon
- 发布日期: 2026年
- 许可协议: CC-BY-4.0
- 语言: 英语
- 数据格式: Parquet
- 数据规模: 1K<n<10K
- 任务类别: 表格分类、表格回归
- 标签: 太空、系外行星、天文学、NASA、凌星法、径向速度法、开普勒、TESS、开放数据、表格数据
数据集描述
该数据集包含来自NASA系外行星档案馆的所有已确认系外行星,附带轨道参数、恒星属性以及发现元数据。数据来源于NASA系外行星档案馆,由Caltech/IPAC根据与NASA的合同维护。每个条目代表一个已确认的行星,包含其最佳可用物理和轨道参数、宿主恒星属性以及发现信息。数据集使用行星系统表,并设置default_flag=1,为每颗行星选择默认参数集的一行数据。目前包含6,153颗已确认行星。
数据模式(Schema)
| 列名 | 类型 | 描述 |
|---|---|---|
pl_name |
string | 行星名称 |
hostname |
string | 宿主恒星名称 |
discoverymethod |
string | 发现方法 |
disc_year |
Int64 | 发现年份 |
disc_facility |
string | 发现设施名称 |
pl_orbper |
float | 轨道周期(天) |
pl_rade |
float | 行星半径(地球半径) |
pl_bmasse |
float | 行星质量(地球质量) |
pl_eqt |
float | 平衡温度(K) |
pl_orbsmax |
float | 半长轴(AU) |
pl_orbeccen |
float | 轨道偏心率 |
st_teff |
float | 恒星有效温度(K) |
st_rad |
float | 恒星半径(太阳半径) |
st_mass |
float | 恒星质量(太阳质量) |
sy_dist |
float | 距离(秒差距) |
sy_vmag |
float | V波段星等 |
ra |
float | 赤经(度) |
dec |
float | 赤纬(度) |
rowupdate |
string | 最后行更新日期 |
关键统计信息
- 已确认系外行星总数: 6,153
- 最新发现: HD 100508 b (2026年)
按发现方法统计
| 方法 | 数量 |
|---|---|
| 凌星法 | 4,520 |
| 径向速度法 | 1,182 |
| 微引力透镜法 | 275 |
| 直接成像法 | 94 |
| 凌星计时变分法 | 39 |
| 食计时变分法 | 17 |
| 轨道亮度调制法 | 9 |
| 脉冲星计时法 | 8 |
按年份统计近期发现
| 年份 | 数量 |
|---|---|
| 2026 | 66 |
| 2025 | 243 |
| 2024 | 259 |
| 2023 | 324 |
| 2022 | 369 |
| 2021 | 564 |
| 2020 | 234 |
| 2019 | 196 |
| 2018 | 315 |
| 2017 | 152 |
数据来源与更新
- 数据来源: https://exoplanetarchive.ipac.caltech.edu/
- 更新频率: 每周一16:00 UTC通过GitHub Actions更新
相关数据集
- https://huggingface.co/datasets/juliensimon/space-track-satcat
- https://huggingface.co/datasets/juliensimon/space-launch-log
引用格式
bibtex @dataset{nasa_exoplanets, author = {Simon, Julien}, title = {NASA Exoplanet Archive}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/juliensimon/nasa-exoplanets}, note = {Based on data from the NASA Exoplanet Archive, operated by Caltech/IPAC} }
搜集汇总
数据集介绍

构建方式
在系外行星研究领域,数据集的构建往往依赖于权威天文观测机构的系统性整理。本数据集以NASA系外行星档案为数据源,通过其TAP接口定期查询并整合行星系统表,确保每个已确认系外行星仅保留一组默认参数。构建过程采用自动化流程,每周更新一次,从而保证了数据的时效性与权威性,为天文研究提供了结构化的高质量数据基础。
特点
该数据集囊括了六千余颗已确认系外行星的详细参数,涵盖轨道特性、恒星属性及发现信息等多维特征。其显著特点在于数据来源的权威性与完整性,不仅包含了凌星、径向速度等多种发现方法所探测的行星,还提供了行星半径、质量、平衡温度等关键物理量。数据以表格形式呈现,字段定义清晰,便于进行统计分析与模型训练,是天体物理学与数据科学交叉研究的理想资源。
使用方法
利用该数据集时,研究者可通过Hugging Face的datasets库直接加载,并转换为Pandas DataFrame进行灵活操作。典型应用包括筛选潜在宜居行星、分析不同发现方法的时间趋势,或统计主要观测设施的贡献。数据集支持分类与回归等表格任务,能够服务于行星形成理论验证、恒星-行星系统关联性研究,以及机器学习模型在天文领域的应用探索。
背景与挑战
背景概述
系外行星研究作为天文学的前沿领域,旨在探索太阳系之外的行星系统,以揭示行星形成机制、宇宙生命潜力及行星多样性。NASA系外行星档案(NASA Exoplanet Archive)由加州理工学院/IPAC在NASA合同下维护,自21世纪初以来持续更新,已成为确认系外行星的权威数据库。该数据集汇集了超过6,000颗已确认系外行星的轨道参数、恒星属性及发现元数据,核心研究问题聚焦于通过多源观测数据(如凌星法、径向速度法)系统表征行星物理特性,推动行星科学、天体物理学及宜居性研究的发展,对深化宇宙认知具有里程碑意义。
当前挑战
在解决系外行星表征与分类的领域问题中,数据集面临多重挑战:观测数据存在显著偏差,例如凌星法更易探测近距离大行星,导致小质量或长周期行星样本不足;参数测量不确定性广泛存在,如行星质量、半径的误差范围可能影响分类模型的可靠性。构建过程中,挑战源于异构数据源的整合,需从不同望远镜设施(如Kepler、TESS)统一校准参数,并处理缺失值与异常值;同时,动态更新的数据流要求自动化管道确保时效性与一致性,以维持科学研究的严谨性。
常用场景
经典使用场景
在天文学研究领域,NASA系外行星档案数据集为探索系外行星的物理特性与分布规律提供了关键支持。该数据集最经典的使用场景在于通过机器学习方法对行星进行分类与预测,例如利用行星半径、质量、轨道周期等参数,结合监督学习模型识别潜在的宜居行星或分析不同发现方法(如凌星法与径向速度法)的效率差异。研究人员常借助该数据集构建回归模型,以预测行星的平衡温度或轨道参数,从而深化对行星形成与演化机制的理解。
实际应用
在实际应用层面,NASA系外行星档案数据集支撑了多项天文观测任务与公共科学项目。例如,它为开普勒(Kepler)与凌星系外行星巡天卫星(TESS)等太空望远镜的目标筛选与后续观测规划提供参考,协助天文学家优先观测具有特殊性质的行星系统。同时,该数据集也被用于公众科普平台与教育工具开发,通过可视化界面向公众展示系外行星多样性,激发社会对宇宙探索的兴趣,并促进公民科学项目如行星猎手(Planet Hunters)的参与。
衍生相关工作
基于该数据集衍生的经典研究工作广泛涵盖系外行星分类、宜居性评估与发现方法创新。例如,多项研究利用其数据训练随机森林或神经网络模型,以自动识别行星类型(如类地行星、气态巨行星),并预测未知行星的存在概率。此外,学者通过分析数据集中的轨道参数与恒星属性,提出了修订版的宜居带计算模型,并推动了多行星系统动力学稳定性的统计研究。这些工作不仅丰富了系外行星科学的知识体系,也为未来大型巡天项目的设计提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



