five

hst-observations

收藏
Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/juliensimon/hst-observations
下载链接
链接失效反馈
官方服务:
资源简介:
哈勃太空望远镜观测目录是一个完整的观测索引数据集,包含了自1990年4月24日发射以来NASA/ESA哈勃太空望远镜获取的所有观测数据,数据来源于Mikulski空间望远镜档案馆(MAST)。该数据集记录了哈勃望远镜35年多来在低地球轨道连续运行产生的科学观测数据。每条记录代表一次HST观测,包含观测提案信息(提案ID、PI、标题、类别)、目标信息(名称、坐标、移动标志)、仪器和探测器信息(ACS WFC/HRC/SBC, WFC3 UVIS/IR等)以及观测意图。数据集共包含2,627,714条观测记录(1990年至今),其中科学观测2,165,235条,校准观测462,479条,涉及12,277个不同的提案。主要字段包括:观测ID(主键)、观测类型、观测意图(科学/校准)、提案信息(ID、PI、标题、项目代码)、目标信息(名称、坐标、是否移动)、仪器和探测器等。该数据集适用于表格分类任务,可用于交叉匹配目标目录、项目级摘要、规划JWST后续观测,以及作为观测推荐系统的训练数据。数据集每周更新一次(UTC时间周一13:30),采用CC-BY-4.0许可协议。
创建时间:
2026-04-18
原始信息汇总

数据集概述:哈勃太空望远镜观测目录

本数据集是 NASA/ESA 哈勃太空望远镜自 1990 年 4 月 24 日发射以来所有观测记录的完整索引,数据来源于 Mikulski 太空望远镜档案(MAST)。

数据集基本信息

属性 详情
数据集名称 Hubble Space Telescope Observation Catalog
语言 英语
许可证 CC-BY-4.0
任务类型 表格分类(tabular-classification)
数据量 约 260 万行(1M < n < 10M)
更新频率 每周更新(周一 13:30 UTC)
数据格式 Parquet(单文件,split: train)

数据规模与统计

  • 总观测数:2,627,714 条(1990 年至今)
  • 科学观测:2,165,235 条
  • 校准观测:462,479 条
  • 不同提案数:12,277 个
  • 主要仪器排名
    • WFC3:896,172 条
    • ACS:542,987 条
    • WFPC2:377,101 条
    • NICMOS:345,395 条
    • STIS:244,163 条

数据模式(Schema)

数据集包含 14 个字段,覆盖观测标识、目标信息、仪器参数、提案信息等。

列名 类型 描述 缺失率
obs_id string MAST 观测标识符(主键) 0.0%
obstype string CAOM 观测类型代码(S/C) 0.0%
intent string 观测意图:science 或 calibration 0.0%
proposal_id string 哈勃提案标识符 3.3%
proposal_pi string 提案首席研究员姓名 3.3%
proposal_title string 提案完整标题 34.1%
proposal_project string 提案项目代码(GO/GTO/SNAP/DDT/CAL) 3.5%
target_name string 目标名称 0.0%
target_ra float64 目标赤经(十进制,ICRS) 0.3%
target_dec float64 目标赤纬(十进制,ICRS) 0.3%
target_moving bool 是否为移动目标(太阳系天体) 0.0%
instrument string 仪器名称 0.0%
detector string 探测器或观测模式 4.8%

数据用途

  • 查询哈勃在特定天区(RA/Dec)的观测情况
  • 分析特定仪器(如 STIS)的紫外光谱观测提案
  • 交叉匹配目标星表(星系、类星体、恒星、太阳系天体)
  • 生成项目级摘要
  • 规划 JWST 后续观测
  • 训练观测推荐系统

数据来源与相关数据集

  • 数据来源:Mikulski 太空望远镜档案(MAST)
  • 数据源链接:https://archive.stsci.edu/
  • 相关数据集
    • juliensimon/jwst-observations
    • juliensimon/chandra-x-ray-sources
    • juliensimon/erosita-erass1-xray
    • juliensimon/4xmm-dr14-xray-sources
    • juliensimon/nasa-exoplanets

补充说明

  • 当前 v1 版本仅提供观测级元数据,不包含详细的时间/曝光数据
  • 校准和工程观测均已包含,可通过 intent 列区分
  • 数据每周从 MAST 刷新,保持与档案同步
  • 详细的时间/滤光片信息可通过 MAST Portal 或 astroquery.mast Python 包按观测 ID 查询
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自NASA/ESA哈勃太空望远镜自1990年发射以来所获取的全部观测记录,数据提取自Mikulski空间望远镜档案库(MAST)的通用观测数据模型(CAOM)。每一行代表一次独立的望远镜曝光操作,涵盖了提案信息、目标属性、仪器配置及观测意图等核心元数据。数据仓库每周通过自动化流水线从MAST更新,确保与最新已归档观测同步。当前版本v1聚焦于观测级元数据,而详细的时序与曝光信息将在v2中通过异步批处理管线集成。
特点
数据集共包含超过260万条观测记录,其中科学观测占比约82%,校准观测占比约18%,涵盖12,277个独立观测提案。仪器分布以WFC3(约89.6万次)、ACS(约54.3万次)、WFPC2(约37.7万次)为主导,覆盖从紫外到红外的宽广波谱范围。每条记录明确标注观测类型、目标名称与坐标、是否为移动目标,以及仪器与探测器的精细配置,为天文学多波段交叉匹配与统计分析提供了标准化的权威参考。
使用方法
用户可通过Hugging Face的datasets库便捷加载数据,推荐使用load_dataset函数并以Pandas DataFrame格式进行后续分析。典型应用场景包括:基于赤经赤纬的锥形搜索、特定仪器及探测器的观测计数与可视化、提案历时分布统计,以及作为观测推荐系统的训练数据。跨源联合查询可通过MAST门户或astroquery.mast Python包实现,以获取更精细的滤波器与曝光时间信息。
背景与挑战
背景概述
自1990年4月发射升空以来,哈勃太空望远镜以其2.4米主镜与多代精密仪器,在近地轨道上持续运行超过35年,产出了天文学史上最具科学价值的观测档案之一。由Julien Simon创建的哈勃太空望远镜观测目录,从Mikulski空间望远镜档案馆(MAST)中系统性地提取了每一次观测的元数据,构成了一个涵盖超过262万条记录的完整索引。该数据集以每行代表一次独立观测为核心设计,集成了提案信息、目标坐标、仪器配置与观测意图等关键字段,旨在为天文学家、数据科学家和机器学习研究者提供统一、可重用的数据基础。其影响力体现在能够支持目标交叉匹配、巡天规划、JWST协同观测及观测推荐系统的训练,成为连接传统天文学发现与现代数据驱动研究的桥梁。
当前挑战
该数据集面临的核心挑战在于解决天文学领域大跨度、多仪器观测数据的整合难题。哈勃望远镜包含ACS、WFC3、STIS等十余种仪器与探测器组合,不同时期的观测格式与元数据标准各异,构建过程中需克服MAST数据库中复杂的数据清洗与模式统一问题。此外,当前版本仅提供观测级元数据,缺失每次观测的详细曝光时间与滤光片信息,这些精细数据存储于MAST的caomplane表中,涉及超过460万行记录,获取过程需构建异步批处理管道,在数据完整性、更新频率与计算资源间寻求平衡。每周一次的自动更新机制虽保证了时效性,但跨系统调度、数据一致性校验及大规模Parquet文件的版本管理仍是持续的技术难点。
常用场景
经典使用场景
哈勃空间望远镜观测目录(HST Observation Catalog)是自1990年发射以来哈勃望远镜所有观测数据的完整索引,广泛应用于天文学研究中的观测数据分析。该数据集最经典的使用场景是进行锥形搜索(cone search),即围绕特定的天体坐标(如已知星系、类星体或星团的位置)查询哈勃在该区域内的所有观测记录。研究者可以通过目标名称、仪器类型(如ACS、WFC3、STIS)或探测器模式(如UVIS、IR)快速筛选出符合科学需求的观测数据。此外,该数据集支持基于提案ID或主要研究者(PI)的统计性分析,帮助追踪特定科学项目的历史观测覆盖情况,是规划后续观测和跨数据集交叉匹配的核心工具。
解决学术问题
该数据集解决了天文学研究中观测数据分散、元数据难以统一检索的学术难题。哈勃望远镜在35年运行中积累了超过262万次观测,但原始数据分散在MAST档案中,缺乏结构化的元数据索引。HST Observation Catalog通过规范化的表格结构(包含观测标识符、仪器、探测器、目标坐标、观测意图等关键字段),使研究者能够高效地回答诸如“某个天区被哈勃观测了多少次”或“哪些提案使用了STIS进行紫外光谱观测”等经典问题。该数据集还支持区分科学观测与校准观测,避免了仪器校正数据对科学分析的干扰,显著提升了跨波段、跨时段的天文大数据挖掘效率。其标准化格式为后续机器学习模型(如观测推荐系统)提供了训练基础,推动了计算天文学的发展。
衍生相关工作
该数据集衍生出一系列重要的相关工作。在观测规划领域,基于该目录的统计分析与JWST观测数据集(juliensimon/jwst-observations)形成互补,研究者可通过联合分析两个望远镜的覆盖天区,优化多波段协同观测策略。在交叉匹配研究方面,结合钱德拉X射线源目录(juliensimon/chandra-xray-sources)和eROSITA巡天数据(juliensimon/erosita-erass1-xray),科学家能定位同时具有哈勃光学/近红外成像和其他波段辐射的天体,推动多信使天文学发展。此外,该数据集为推荐系统研究提供了现实背景,鼓励开发基于历史观测模式的算法,自动建议特定科学目标的最佳观测仪器与滤波器组合,进一步提升了空间望远镜的利用效率。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作