gaia-eb-teff-datasets
收藏Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/Dedulek/gaia-eb-teff-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自盖亚任务的218万颗食双星的多巡天测光和恒星参数。它结合了盖亚DR3、Pan-STARRS DR1和2MASS的数据,旨在通过机器学习预测缺乏光谱测量恒星的有效温度(Teff)。数据集提供了统一的光度测量数据集和最终预测目录,包括盖亚原始温度和机器学习预测温度,覆盖了97.2%的恒星。数据集还详细描述了光度覆盖范围、恒星参数覆盖范围、温度分布、数据质量问题、模型性能以及引用和许可信息。
This dataset contains multi-survey photometry and stellar parameters for 2.18 million eclipsing binary stars from the Gaia mission. It combines data from Gaia DR3, Pan-STARRS DR1, and 2MASS, aiming to predict the effective temperature (Teff) of stars without spectroscopic measurements via machine learning. The dataset provides a unified photometric dataset and a final prediction catalog, including Gaia's original temperatures and machine learning-predicted temperatures, covering 97.2% of the stars. It also details photometric coverage, stellar parameter coverage, temperature distribution, data quality issues, model performance, as well as citation and licensing information.
创建时间:
2025-12-11
原始信息汇总
Gaia Eclipsing Binary Effective Temperature Datasets 数据集概述
数据集基本信息
- 标题: Gaia Eclipsing Binary Effective Temperature Datasets
- 发布平台: Hugging Face
- 语言: 英语
- 许可证: CC BY 4.0
- 数据规模: 1M < n < 10M
- 任务类别: 表格回归
- 标签: 天文学、天体物理学、食双星、恒星参数、测光、盖亚、有效温度
数据集描述
该数据集包含来自盖亚任务的 218万颗食双星 的多巡天测光数据和恒星参数。它结合了Gaia DR3、Pan-STARRS DR1和2MASS的数据,旨在为缺乏光谱测量的恒星预测有效温度。
数据集摘要
- 总目标数: 2,179,680 颗食双星
- Gaia DR3 覆盖率: 100% (所有源均有盖亚测光数据)
- Pan-STARRS 覆盖率: 53.5% (1,166,000 个源)
- 2MASS 覆盖率: 可变 (J, H, K波段)
- Teff 覆盖率: 58% 的星拥有盖亚GSP-Phot温度
- ML预测覆盖率: 38.9% (847,000 颗星) 拥有机器学习预测的温度
包含的巡天数据
- Gaia DR3 (2023)
- G、BP、RP星等和颜色
- GSP-Phot有效温度
- 天体测量参数
- Pan-STARRS DR1 (2016)
- g、r、i、z、y光学星等
- PSF和Kron测光
- 2MASS (2003)
- J、H、K近红外星等
数据集结构
统一测光数据集
- 文件:
photometry/eb_unified_photometry.parquet - 大小: 227 MB
- 格式: Apache Parquet
- 描述: 包含所有测光和恒星参数的主要数据集。
关键列
- 标识符:
source_id(Gaia DR3源标识符) - Gaia测光:
g,bp,rp星等及bp_rp,g_bp,g_rp颜色;parallax,pmra,pmdec天体测量值。 - Gaia恒星参数:
teff_gaia(有效温度,单位K)、logg_gaia(表面重力)、mh_gaia(金属丰度)。 - Pan-STARRS测光:
ps_gPSFMag等PSF星等;ps_gKronMag等Kron星等;ps_g_r等颜色。 - 2MASS测光:
j_m,h_m,k_m星等;j_h,h_k,j_k颜色。 - 缺失值: 所有缺失值均编码为
-999.0。
包含预测的最终星表
- 文件:
catalogs/stars_types_with_best_predictions.fits - 大小: 196 MB
- 格式: FITS二进制表
- 描述: 包含210万颗食双星的完整星表,内容有:原始盖亚温度(如可用)、机器学习预测温度(三模型集成最佳结果)、预测不确定性、质量标志(A=盖亚,B/C/D=按不确定性划分的ML预测,X=无)。
- 覆盖率: 97.2% 的星拥有Teff值 (58.3% 盖亚原始值 + 38.9% ML预测值)。
数据集统计
测光覆盖率
| 巡天 | 覆盖率 | 星数 |
|---|---|---|
| Gaia DR3 | 100% | 2,179,680 |
| Pan-STARRS DR1 | 53.5% | 1,166,000 |
| 2MASS (J) | ~60% | ~1,300,000 |
| 2MASS (H) | ~60% | ~1,300,000 |
| 2MASS (K) | ~60% | ~1,300,000 |
恒星参数覆盖率
| 参数 | 覆盖率 | 平均值 | 标准差 | 范围 |
|---|---|---|---|---|
| Teff (Gaia) | 58% | 7,450 K | 3,200 K | 2,500 - 50,000 K |
| log(g) | 56% | 3.8 | 0.5 | 0.5 - 5.5 |
| [Fe/H] | 48% | -0.2 | 0.4 | -2.5 - +0.5 |
温度分布
| Teff 范围 | 星数 | 百分比 |
|---|---|---|
| < 4,000 K (冷) | 180,000 | 14% |
| 4,000-6,000 K (中) | 520,000 | 41% |
| 6,000-10,000 K (热) | 450,000 | 36% |
| > 10,000 K (极热) | 115,000 | 9% |
数据质量
缺失值约定
所有巡天数据均使用 -999.0 表示缺失值。
已知问题
- Gaia GSP-Phot偏差: 对热星 (>10,000 K) 的Teff存在系统性低估。校正系数可在模型仓库
data/teff_correction_coeffs_deg2.pkl中找到。 - Pan-STARRS覆盖率: 存在北半球偏差 (赤纬 > -30°)。
- 2MASS饱和: 亮星 (J < 6) 可能饱和。
模型性能
预训练模型在保留测试集上的性能如下:
| 模型 | 特征 | MAE (K) | RMSE (K) | R² | Within 10% |
|---|---|---|---|---|---|
| Gaia Colors (Log) | 6个盖亚颜色/波段 | 557 | 1,021 | 0.640 | 68.5% |
| Gaia + 2MASS | 5个光学+红外颜色 | 765 | 1,168 | 0.315 | 43.4% |
| Best-of-Three Ensemble | 多个模型 | 263 | - | - | - |
引用要求
使用此数据集时,请引用提供的BibTeX条目,并同时引用原始的Gaia DR3、Pan-STARRS和2MASS巡天。
许可证
本数据集根据 CC BY 4.0 许可证发布。
搜集汇总
数据集介绍

构建方式
在恒星天体物理领域,精确测定食双星的有效温度对于理解恒星结构与演化至关重要。本数据集通过整合盖亚任务(Gaia DR3)、泛星计划(Pan-STARRS DR1)以及2微米全天巡天(2MASS)三大巡天项目的观测数据,构建了一个包含218万颗食双星的多波段测光与恒星参数统一目录。数据融合过程采用了严格的交叉匹配与质量控制,确保了天体标识的一致性;缺失值统一编码为-999.0,便于后续处理。最终生成的数据集以Parquet和FITS格式存储,不仅包含了原始的盖亚GSP-Phot有效温度,还通过机器学习模型对未覆盖的光谱温度进行了预测,使得温度参数的总体覆盖率达到97.2%。
使用方法
为便于科研应用,数据集提供了灵活高效的访问方式。用户可通过Hugging Face Hub的Python接口或命令行工具直接下载Parquet或FITS格式的文件。推荐使用Polars库进行数据加载,以高效处理海量数据。在数据分析前,需依据编码规则过滤缺失值(-999.0)。数据集可直接用于训练机器学习模型以预测恒星有效温度,示例代码展示了如何基于盖亚测光特征构建随机森林回归模型。研究者亦可利用其丰富的多波段测光与参数信息,开展食双星的分类、物理性质关联分析或作为其他天体物理模型的输入数据。
背景与挑战
背景概述
在恒星天体物理学领域,精确测定恒星的有效温度是理解其物理性质、演化阶段和化学成分的基石。Gaia Eclipsing Binary Teff Datasets 应运而生,它整合了盖亚任务(Gaia DR3, 2023)、泛星计划(Pan-STARRS DR1, 2016)和2微米全天巡天(2MASS, 2003)的观测数据,由相关研究人员于2025年构建并发布。该数据集的核心研究目标是为218万颗食双星提供统一的光度测量数据,并利用机器学习方法预测那些缺乏光谱观测的恒星的有效温度,从而极大扩展了可用于分析的恒星参数样本,对恒星物理、双星系统研究以及星系考古学等领域产生了深远影响。
当前挑战
该数据集旨在解决恒星天体物理学中大规模、高精度测定恒星有效温度的挑战。具体而言,其面临的领域问题挑战包括:如何克服盖亚GSP-Phot参数对高温恒星(>10,000 K)的系统性低估偏差,以及如何整合来自不同时代、不同仪器、不同观测波段(光学与近红外)和不同空间覆盖范围(如泛星计划的北天偏向)的多源异构数据,以构建一个物理一致且完整的光度-参数关系模型。在构建过程中,挑战主要体现为数据融合的复杂性,包括处理海量数据(超过200万颗星)中的大量缺失值(统一标记为-999.0),协调不同巡天数据的测光系统与误差,并开发稳健的机器学习模型来可靠地外推预测未知温度,同时确保预测结果的不确定性可量化。
常用场景
经典使用场景
在天体物理学领域,对食双星系统进行精确的恒星参数测定是理解恒星演化与双星相互作用的关键。该数据集整合了盖亚、泛星和2MASS三大巡天项目的测光数据,为超过218万颗食双星提供了统一的光度与颜色信息。其经典应用场景在于,研究人员可利用这些多波段测光数据,通过机器学习模型预测缺乏光谱观测的恒星的有效温度,从而大规模填补恒星物理参数的空白,为统计性研究提供坚实的数据基础。
解决学术问题
该数据集有效解决了恒星天体物理学中几个核心的学术难题。首先,它通过机器学习方法,为大量缺乏直接光谱观测的食双星提供了可靠的有效温度估计,显著缓解了光谱观测资源有限所带来的瓶颈。其次,数据集整合了光学与近红外波段信息,有助于更精确地修正星际消光影响,并研究恒星大气模型在不同波段的适用性。最后,其大规模样本为探索食双星系统的温度分布、质量-温度关系以及双星相互作用对表面温度的影响等统计性研究提供了前所未有的机会。
实际应用
在实际应用层面,该数据集为天文观测与天体物理建模提供了直接支持。观测天文学家可利用数据集中预测的有效温度,为后续的光谱观测候选体进行优先级排序,优化望远镜时间分配。在理论建模方面,这些温度数据可用于校准恒星演化模型,特别是针对双星系统的演化轨迹。此外,数据集还可服务于系外行星研究,因为食双星是探测凌星行星的重要背景源,其宿主星的精确温度是分析行星大气性质的必要参数。
数据集最近研究
最新研究方向
在恒星天体物理领域,盖亚任务释放的食双星有效温度数据集正推动着机器学习方法在恒星参数测定中的前沿应用。该数据集整合了盖亚DR3、泛星计划及2MASS的多波段测光数据,为缺乏光谱观测的食双星提供了大规模有效温度预测。当前研究热点聚焦于利用集成学习模型提升温度预测精度,特别是针对高温恒星的系统偏差校正,以及结合多源数据融合技术优化恒星物理参数的推断。这些进展不仅深化了对双星系统演化机制的理解,也为未来大规模巡天数据的自动化处理奠定了算法基础,显著提升了恒星天体物理学的数据驱动研究能力。
以上内容由遇见数据集搜集并总结生成



