five

space-datasets

收藏
github2026-04-03 更新2026-04-01 收录
下载链接:
https://github.com/juliensimon/space-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
开源数据管道,将160多个空间、天文学和物理学数据集以Parquet格式发布到Hugging Face。涵盖卫星、轨道力学、小行星、空间天气、太阳活动、系外行星、引力波、脉冲星、无线电调查、X射线目录、空间探测器、粒子物理学等,数据来源于NASA、NOAA、ESA、SpaceX、Wikidata和其他公共API。每日通过GitHub Actions更新。

An open-source data pipeline that publishes over 160 space, astronomical and physics datasets in Parquet format to Hugging Face. Covering satellite data, orbital mechanics, asteroids, space weather, solar activity, exoplanets, gravitational waves, pulsars, radio surveys, X-ray catalogs, space probes, particle physics and more. The datasets are sourced from NASA, NOAA, ESA, SpaceX, Wikidata and other public APIs, with daily updates via GitHub Actions.
创建时间:
2026-03-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称:space-datasets
  • 发布平台:Hugging Face
  • 发布者:juliensimon
  • 数据格式:Parquet
  • 数据集总数:144+
  • 总下载量:4,543
  • 最后更新日期:2026-03-31

核心特点

  • 数据来源:NASA、NOAA、ESA、Wikidata 及其他公共 API。
  • 更新频率:通过 GitHub Actions 每日更新。
  • 易用性:所有数据集均可通过一行代码(load_dataset("juliensimon/..."))加载,无需 API 密钥,并与 pandaspolars 或任何兼容 Parquet 的工具兼容。

热门数据集(按下载量排序)

  1. space-track-tle-history:654 次下载
  2. starlink-fleet-data:145 次下载
  3. donki-space-weather-events:82 次下载
  4. constellation-census:79 次下载
  5. starlink-ground-stations:73 次下载
  6. space-track-satcat:66 次下载
  7. solar-flare-events:62 次下载
  8. neo-close-approaches:61 次下载
  9. solar-wind:59 次下载
  10. starlink-tle-latest:59 次下载

数据集分类与详情

1. 轨道力学

跟踪环绕地球及更远轨道的物体。涵盖完整的 NORAD 卫星目录、每日星链星座状态、可追溯至 1959 年的两行轨道要素集、发射记录以及 NASA JPL 的近地小行星监测数据。

代表性数据集

  • space-track-tle-history:自 1959 年以来每个编目物体的 2.38 亿个轨道要素集。
  • space-track-satcat:完整的 NORAD 卫星目录,包含 6.8 万颗卫星、火箭箭体和碎片。
  • starlink-fleet-data:每日星链星座状态,包含各轨道层的卫星数量和状态。
  • neo-close-approaches:来自 NASA JPL 的 3.5 万多个近地小行星和彗星近距离接近事件。
  • jpl-small-body-database:140 多万个小行星和彗星,包含轨道要素和物理参数。

2. 空间探测器与任务

包含人类最遥远航天器和表面探测器的返回数据。涵盖旅行者号和先驱者号 50 多年的行星际测量数据、卡西尼号的土星观测数据、毅力号的火星表面天气数据、好奇号激光光谱仪的岩石成分数据、洞察号的火星震探测数据,以及 ESA 火星快车和罗塞塔任务的数百万条观测记录。

代表性数据集

  • deep-space-probes:来自旅行者 1/2 号和先驱者 10/11 号的 120 万条每小时读数(1972–2025)。
  • insight-marsquake-catalog:洞察号 SEIS 地震仪探测到的 2,715 次火星震(2019–2022,最终目录)。
  • esa-mars-express-observations:ESA 火星快车的 166 万条观测元数据(8 台仪器,自 2003 年起)。

3. 空间天气

涵盖太阳活动、地磁指数、太阳风、空间天气事件等数据。

代表性数据集(从工作流徽章推断):

  • donki-space-weather-events
  • solar-flare-events
  • solar-wind
  • dst-index
  • kp-index

4. 天文学

涵盖系外行星、引力波、脉冲星、射电巡天、X射线星表、黑洞、类星体等数据。

代表性数据集(从工作流徽章推断):

  • exoplanets
  • gravitational-waves
  • pulsars
  • black-holes
  • quasars

5. 行星科学

涵盖撞击坑、陨石等数据。

代表性数据集(从工作流徽章推断):

  • impact-craters
  • meteorites

6. 物理学

涵盖宇宙射线、粒子物理、诺贝尔物理学奖等数据。

代表性数据集(从工作流徽章推断):

  • crdb
  • pdg
  • physics-nobel

数据访问

所有数据集均托管于 Hugging Face:https://huggingface.co/juliensimon

搜集汇总
数据集介绍
main_image_url
构建方式
在空间科学与天文学领域,数据的系统化整合对于推动研究至关重要。space-datasets通过开源数据管道构建,汇集了来自NASA、NOAA、ESA、Wikidata等权威机构的公开数据,覆盖卫星轨道力学、小行星监测、空间天气、系外行星等多个子领域。该数据集采用自动化工作流,通过GitHub Actions实现每日更新,确保数据的时效性与连续性。所有原始数据经过清洗与转换,以Parquet格式发布在Hugging Face平台,形成一套结构统一、便于访问的数据集合。
特点
该数据集囊括144个以上子数据集,内容跨度从1959年至今的轨道历史记录到实时空间天气事件,体现了高度的多样性与历史深度。其核心优势在于数据格式的标准化,所有数据集均以Parquet格式提供,无需API密钥即可直接加载,兼容pandas、polars等主流分析工具。数据更新机制灵活,部分子集按日更新,部分按周或季度更新,满足了不同研究场景对数据新鲜度的需求。此外,数据集规模从几千字节到数十吉字节不等,兼顾了轻量查询与大规模分析的应用场景。
使用方法
研究人员可通过Hugging Face的`load_dataset`函数,以单行代码加载任意子数据集,例如`load_dataset('juliensimon/space-track-tle-history')`。加载后的数据可直接转换为DataFrame,进行轨道传播分析、空间态势感知建模或太阳活动模式挖掘。对于需要跨领域关联的研究,用户可并行加载多个子集,利用Parquet的高效列式存储特性进行联合查询。数据集亦支持本地下载,供离线环境或自定义管道集成使用,为学术研究、工程应用与科普教育提供了灵活的数据基础。
背景与挑战
背景概述
space-datasets是由独立研究者Julien Simon构建并维护的一个综合性开放数据集合,专注于汇聚空间科学、天文学及物理学领域的多源异构数据。该数据集项目依托Hugging Face平台,通过自动化数据管道整合了来自NASA、NOAA、ESA等权威机构的144个以上子数据集,涵盖卫星轨道力学、空间天气、太阳活动、系外行星、引力波等多个前沿研究方向。其核心目标在于解决空间科学数据分散、获取门槛高、格式不统一等长期存在的瓶颈,通过提供标准化、可即时加载的Parquet格式数据,显著降低了相关领域研究的数据工程复杂度,为轨道预测、空间态势感知、天体物理分析等任务提供了坚实的数据基础。
当前挑战
该数据集致力于应对空间科学领域数据整合与高效利用的核心挑战。在科学问题层面,其需要支撑从近地天体监测、空间碎片演化建模到太阳活动对地球环境影响预测等一系列复杂且动态的研究任务,这些任务对数据的时效性、完整性和准确性提出了极高要求。在构建过程中,挑战主要源于多源异构数据的实时采集、清洗与标准化。数据来源包括数十个独立且更新频率各异的官方API与数据库,需通过精密的自动化工作流实现每日同步,并处理不同数据模式之间的语义对齐问题,同时确保大规模历史轨道数据(如包含2.38亿条记录的TLE历史数据集)的存储与查询效率。
常用场景
经典使用场景
在轨道力学与空间态势感知领域,space-datasets的经典应用场景集中于卫星轨道预测与空间碎片监测。该数据集整合了自1959年以来的两行轨道根数历史记录、完整的NORAD卫星编目以及近地天体接近数据,为研究人员提供了海量且持续更新的轨道信息。通过加载如space-track-tle-history等数据集,学者能够利用SGP4等模型进行高精度轨道传播,分析大规模星座的动态演化,并评估空间碰撞风险,从而支撑起空间交通管理与碎片减缓策略的制定。
解决学术问题
该数据集有效解决了空间科学中数据分散与访问壁垒的长期挑战。通过将NASA、NOAA、ESA等权威机构的原始数据统一转化为Parquet格式并集成于Hugging Face平台,它消除了传统研究中需要跨多个API手动获取数据的繁琐流程。此举不仅提升了数据可复现性,还使得轨道力学、空间天气、系外行星探测等跨学科研究能够基于标准化数据源开展,从而加速了关于空间环境建模、天体物理现象关联分析以及深空探测任务规划等前沿问题的探索。
衍生相关工作
基于该数据集衍生的经典工作主要集中在自动化空间态势感知系统与数据驱动的天体发现领域。研究人员利用其轨道力学数据集开发了实时碰撞预警算法和碎片演化模型,相关成果已发表于《空间研究进展》等期刊。在空间天气方面,结合太阳耀斑与太阳风数据,学者构建了日地空间环境扰动预测框架。此外,系外行星与引力波数据的集成催生了多信使天文学研究,例如通过交叉分析TESS凌星数据与脉冲星计时阵列,探索系外行星系统的动力学特征,推动了数据密集型天体物理学的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作