five

Kepler Object of Interest Dataset

收藏
github2023-04-21 更新2024-05-31 收录
下载链接:
https://github.com/JamesMcGuigan/dataset-kepler
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Kepler太空望远镜观测到的恒星及其潜在行星的数据,用于探索和分析地球大小的系外行星及其在宜居带的可能性。

This dataset comprises data on stars and their potential planets observed by the Kepler Space Telescope, utilized for exploring and analyzing Earth-sized exoplanets and their potential within the habitable zone.
创建时间:
2020-01-25
原始信息汇总

数据集概述

数据集来源

  • 数据源: https://exoplanetarchive.ipac.caltech.edu/cgi-bin/TblView/nph-tblView?app=ExoTbls&config=cumulative
  • 文件: ./data/kepler_koi.csv
    • 格式: CSV
    • 内容: 所有列和行,仅包含数值
  • 列定义: https://exoplanetarchive.ipac.caltech.edu/docs/API_kepcandidate_columns.html

数据集内容

  • KOIs数量: 9564
  • 太阳系数量: 8214
  • 命名行星数量: 2305

数据清理与预处理

  • 预处理:
    • 数据按列分组为概念组(id, archive, disposition, transit, TCE, stellar, KIC, pixels
    • 手动分配Pandas数据类型
    • 应用.fillna(0 or )到特定列
    • 处理koi_fpflag_nt中的错误值
    • 简化包含季度时间戳信息的列
    • 排除包含无用信息的14列和URL数据的2列
  • OneHot编码:
    • koi_dispositionkoi_comment进行OneHot编码

数据集分析

  • 基本统计:
    • KOI处置情况分析
    • 确认和候选行星的命名情况
  • 相关性分析:
    • fpflags和评论与处置的相关性
    • fpflags之间的相关性
    • 评论标志与处置的相关性
  • 机器学习应用:
    • 使用Fastai训练神经网络模型预测KOI处置
    • 准确率: 83.3%(仅使用fpflags和评论)和89.6%(使用完整数据集)

星图与散点图分析

  • 星图观察:
    • 银河系边缘的星密度更高
    • 确认与假阳性的比例与银河系边缘的距离有关
  • 散点图分析:
    • 星体质量、温度、金属性与半径的相关性
    • 不同处置状态下的相关性差异

宜居性分析

  • 宜居行星筛选:
    • 温度范围: 273.2K - 373.2K
    • 行星半径范围: 0.8-1.7$E_r$
    • 宜居行星数量: 17 (0.74%)
  • 宜居行星列表:
    • Kepler-1185 b, Kepler-138 d, Kepler-1512 b, Kepler-1646 b, Kepler-186 e, Kepler-220 e, Kepler-249 d, Kepler-296 A b, Kepler-296 A d, Kepler-367 c, Kepler-395 c, Kepler-437 b, Kepler-438 b, Kepler-445 c, Kepler-49 e, Kepler-54 d, Kepler-577 b

星型与行星型分析

  • 星型分析:
    • 宜居行星与恒星质量和轨道距离的线性相关性
    • 可能的星型分类
  • 行星型分析:
    • 行星半径与恒星金属性的相关性
    • 可能的行星组成分类
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自开普勒空间望远镜的观测数据,通过使用凌日法检测地球大小的系外行星。数据集包含了530,506颗恒星的观测结果,其中检测到2,662颗行星。数据来源于NASA的系外行星档案库,经过预处理和清洗,将数据按概念分组,并手动分配数据类型以确保数据质量。此外,数据集中的某些列进行了填充和映射处理,以消除错误值和不相关的信息。
特点
该数据集具有高度的科学价值,涵盖了从恒星特性到行星发现的各种信息。其特点包括详细的恒星和行星参数、多种分类标签以及丰富的注释信息,这些都为研究系外行星的性质和分布提供了坚实的基础。此外,数据集还包含了机器学习模型的训练结果,展示了如何利用这些数据进行预测分析。
使用方法
使用该数据集时,用户可以通过提供的Jupyter笔记本进行数据探索和分析,这些笔记本涵盖了从基本统计到复杂机器学习模型的应用。数据集的CSV文件可以直接下载并导入到数据分析工具中,如Pandas进行进一步处理。此外,数据集的列定义和预处理代码也提供了详细的文档,帮助用户理解和处理数据。
背景与挑战
背景概述
Kepler Object of Interest (KOI) 数据集源自于开普勒太空望远镜的任务,该望远镜旨在通过凌日法观测天空中的一小部分区域,以发现地球大小的系外行星,并估计银河系中拥有此类行星的恒星数量。自2009年发射以来,开普勒望远镜在超过九年的运行中,观测了530,506颗恒星,并检测到2,662颗行星。该数据集由加州理工学院的系外行星档案馆提供,记录了这些观测结果,包括行星候选者的详细信息,如轨道周期、行星半径和恒星属性等。KOI数据集不仅为天文学家提供了宝贵的数据资源,还推动了系外行星探测和宜居性研究的发展。
当前挑战
KOI数据集在构建和分析过程中面临多项挑战。首先,数据质量问题,如缺失值和错误标记,需要通过复杂的预处理步骤来解决。其次,数据集中的大量变量和复杂的相关性分析增加了模型训练的难度。此外,由于系外行星的稀有性和观测限制,数据集的样本量相对较小,这影响了机器学习模型的泛化能力。最后,确定行星的宜居性需要综合考虑多个物理参数,如行星温度和半径,这增加了数据解释和模型预测的复杂性。
常用场景
经典使用场景
Kepler Object of Interest Dataset的经典使用场景主要集中在天体物理学和天文学领域,特别是用于研究系外行星的发现和特性。该数据集通过分析恒星的光变曲线,识别可能的行星候选者,并进一步验证这些候选者是否为真实的系外行星。研究者利用此数据集进行机器学习模型的训练,以提高行星候选者的分类准确性,从而更有效地筛选出潜在的宜居行星。
解决学术问题
Kepler Object of Interest Dataset解决了天文学中关于系外行星检测和分类的核心问题。通过提供详细的观测数据和行星候选者的分类信息,该数据集帮助研究者开发和验证新的检测算法,提高对系外行星的识别精度。此外,该数据集还为研究行星形成和演化提供了宝贵的数据支持,推动了我们对宇宙中行星多样性的理解。
衍生相关工作
基于Kepler Object of Interest Dataset,许多相关研究工作得以开展。例如,研究者利用该数据集开发了新的机器学习模型,用于自动分类行星候选者,显著提高了数据处理的效率。此外,该数据集还启发了对系外行星大气成分和气候模型的研究,进一步推动了系外行星科学的发展。这些衍生工作不仅丰富了我们对系外行星的理解,也为未来的天文探测任务提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作