Kepler Object of Interest Dataset

github2023-04-21 更新2024-05-31 收录

下载链接：

https://github.com/JamesMcGuigan/dataset-kepler

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Kepler太空望远镜观测到的恒星及其潜在行星的数据，用于探索和分析地球大小的系外行星及其在宜居带的可能性。

This dataset comprises data on stars and their potential planets observed by the Kepler Space Telescope, utilized for exploring and analyzing Earth-sized exoplanets and their potential within the habitable zone.

创建时间：

2020-01-25

原始信息汇总

数据集概述

数据集来源

数据源: https://exoplanetarchive.ipac.caltech.edu/cgi-bin/TblView/nph-tblView?app=ExoTbls&config=cumulative
文件: ./data/kepler_koi.csv
- 格式: CSV
- 内容: 所有列和行，仅包含数值
列定义: https://exoplanetarchive.ipac.caltech.edu/docs/API_kepcandidate_columns.html

数据集内容

KOIs数量: 9564
太阳系数量: 8214
命名行星数量: 2305

数据清理与预处理

预处理:
- 数据按列分组为概念组（id, archive, disposition, transit, TCE, stellar, KIC, pixels）
- 手动分配Pandas数据类型
- 应用.fillna(0 or )到特定列
- 处理koi_fpflag_nt中的错误值
- 简化包含季度时间戳信息的列
- 排除包含无用信息的14列和URL数据的2列
OneHot编码:
- koi_disposition和koi_comment进行OneHot编码

数据集分析

基本统计:
- KOI处置情况分析
- 确认和候选行星的命名情况
相关性分析:
- fpflags和评论与处置的相关性
- fpflags之间的相关性
- 评论标志与处置的相关性
机器学习应用:
- 使用Fastai训练神经网络模型预测KOI处置
- 准确率: 83.3%（仅使用fpflags和评论）和89.6%（使用完整数据集）

星图与散点图分析

星图观察:
- 银河系边缘的星密度更高
- 确认与假阳性的比例与银河系边缘的距离有关
散点图分析:
- 星体质量、温度、金属性与半径的相关性
- 不同处置状态下的相关性差异

宜居性分析

宜居行星筛选:
- 温度范围: 273.2K - 373.2K
- 行星半径范围: 0.8-1.7$E_r$
- 宜居行星数量: 17 (0.74%)
宜居行星列表:
- Kepler-1185 b, Kepler-138 d, Kepler-1512 b, Kepler-1646 b, Kepler-186 e, Kepler-220 e, Kepler-249 d, Kepler-296 A b, Kepler-296 A d, Kepler-367 c, Kepler-395 c, Kepler-437 b, Kepler-438 b, Kepler-445 c, Kepler-49 e, Kepler-54 d, Kepler-577 b

星型与行星型分析

星型分析:
- 宜居行星与恒星质量和轨道距离的线性相关性
- 可能的星型分类
行星型分析:
- 行星半径与恒星金属性的相关性
- 可能的行星组成分类

搜集汇总

数据集介绍

构建方式

该数据集源自开普勒空间望远镜的观测数据，通过使用凌日法检测地球大小的系外行星。数据集包含了530,506颗恒星的观测结果，其中检测到2,662颗行星。数据来源于NASA的系外行星档案库，经过预处理和清洗，将数据按概念分组，并手动分配数据类型以确保数据质量。此外，数据集中的某些列进行了填充和映射处理，以消除错误值和不相关的信息。

特点

该数据集具有高度的科学价值，涵盖了从恒星特性到行星发现的各种信息。其特点包括详细的恒星和行星参数、多种分类标签以及丰富的注释信息，这些都为研究系外行星的性质和分布提供了坚实的基础。此外，数据集还包含了机器学习模型的训练结果，展示了如何利用这些数据进行预测分析。

使用方法

使用该数据集时，用户可以通过提供的Jupyter笔记本进行数据探索和分析，这些笔记本涵盖了从基本统计到复杂机器学习模型的应用。数据集的CSV文件可以直接下载并导入到数据分析工具中，如Pandas进行进一步处理。此外，数据集的列定义和预处理代码也提供了详细的文档，帮助用户理解和处理数据。

背景与挑战

背景概述

Kepler Object of Interest (KOI) 数据集源自于开普勒太空望远镜的任务，该望远镜旨在通过凌日法观测天空中的一小部分区域，以发现地球大小的系外行星，并估计银河系中拥有此类行星的恒星数量。自2009年发射以来，开普勒望远镜在超过九年的运行中，观测了530,506颗恒星，并检测到2,662颗行星。该数据集由加州理工学院的系外行星档案馆提供，记录了这些观测结果，包括行星候选者的详细信息，如轨道周期、行星半径和恒星属性等。KOI数据集不仅为天文学家提供了宝贵的数据资源，还推动了系外行星探测和宜居性研究的发展。

当前挑战

KOI数据集在构建和分析过程中面临多项挑战。首先，数据质量问题，如缺失值和错误标记，需要通过复杂的预处理步骤来解决。其次，数据集中的大量变量和复杂的相关性分析增加了模型训练的难度。此外，由于系外行星的稀有性和观测限制，数据集的样本量相对较小，这影响了机器学习模型的泛化能力。最后，确定行星的宜居性需要综合考虑多个物理参数，如行星温度和半径，这增加了数据解释和模型预测的复杂性。

常用场景

经典使用场景

Kepler Object of Interest Dataset的经典使用场景主要集中在天体物理学和天文学领域，特别是用于研究系外行星的发现和特性。该数据集通过分析恒星的光变曲线，识别可能的行星候选者，并进一步验证这些候选者是否为真实的系外行星。研究者利用此数据集进行机器学习模型的训练，以提高行星候选者的分类准确性，从而更有效地筛选出潜在的宜居行星。

解决学术问题

Kepler Object of Interest Dataset解决了天文学中关于系外行星检测和分类的核心问题。通过提供详细的观测数据和行星候选者的分类信息，该数据集帮助研究者开发和验证新的检测算法，提高对系外行星的识别精度。此外，该数据集还为研究行星形成和演化提供了宝贵的数据支持，推动了我们对宇宙中行星多样性的理解。

衍生相关工作

基于Kepler Object of Interest Dataset，许多相关研究工作得以开展。例如，研究者利用该数据集开发了新的机器学习模型，用于自动分类行星候选者，显著提高了数据处理的效率。此外，该数据集还启发了对系外行星大气成分和气候模型的研究，进一步推动了系外行星科学的发展。这些衍生工作不仅丰富了我们对系外行星的理解，也为未来的天文探测任务提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集