UniverseTBD/pu-embeddings

Name: UniverseTBD/pu-embeddings
Creator: UniverseTBD
Published: 2026-05-01 22:14:46
License: 暂无描述

Hugging Face2026-05-01 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/UniverseTBD/pu-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

README内容描述了一个名为pu-embeddings的数据集，包含用于天文调查的基础模型图像嵌入。这是UniverseTBD等人（2025年）的论文《柏拉图宇宙：基础模型看到的天空是否相同？》的配套数据发布。数据集包括由各种预训练模型应用于不同调查图像生成的嵌入，旨在测试天文数据上的柏拉图表示假设。数据集按目录结构组织，每个目录对应一个特定的调查，并包含用于跨模态比较的配对嵌入。README还提到了使用互k近邻（MKNN）度量来衡量模型之间的表示对齐。

The README content describes a dataset named pu-embeddings, which contains foundation-model image embeddings for astronomy surveys. It is a companion data release for a paper titled The Platonic Universe: Do Foundation Models See the Same Sky? by UniverseTBD et al. (2025). The dataset includes embeddings produced by various pre-trained models applied to different survey imagery, with the goal of testing the Platonic Representation Hypothesis on astronomical data. The dataset is structured into directories, each corresponding to a specific survey, and contains paired embeddings for cross-modal comparison. The README also mentions the use of the Mutual k-Nearest Neighbour (MKNN) metric for measuring representation alignment between models.

提供机构：

UniverseTBD

搜集汇总

数据集介绍

构建方式

在天文学与物理学领域，大规模科学数据的涌现为机器学习模型提供了丰富的训练素材。pu-embeddings数据集的构建过程体现了对多源科学图像的深度整合，其核心方法在于利用前沿的视觉编码器对来自詹姆斯·韦伯太空望远镜（JWST）、暗能量光谱仪（DESI）以及Legacy Survey等多个权威天文项目的图像进行特征提取。这些图像首先经过预处理和标准化，随后通过一系列预训练的视觉变换器（如ViT、DINOv3、CLIP）和卷积神经网络（如ConvNeXt）模型生成高维嵌入向量。最终，这些向量以Parquet格式存储，形成了结构化的特征表示集合，为后续的跨模态学习和表征分析奠定了坚实基础。

特点

该数据集最显著的特点在于其广泛覆盖了多种先进视觉模型的嵌入表示，囊括了从轻量级到超大规模的不同架构变体。每个配置对应特定的天文数据源和模型，例如“jwst_astropt_850M”代表韦伯望远镜图像经由850M参数AstroPT模型生成的嵌入。这种设计使得研究者能够横向比较不同模型在天文图像表征上的性能差异，同时纵向探索同一模型在不同天文数据集上的泛化能力。数据集以高度模块化的方式组织，每个Parquet文件独立封装了对应模型和数据源的嵌入向量，便于按需加载和高效计算，为天文信息学中的表征学习提供了宝贵的基准资源。

使用方法

使用pu-embeddings数据集时，研究人员可根据具体实验目标灵活选择相应的配置。例如，若需研究韦伯望远镜图像的语义表征，可加载“jwst”前缀的配置；若关注模型在物理仿真图像上的测试表现，则可选用“physics_test”系列。通过Hugging Face数据集库，用户能够直接调用指定配置名称来获取对应的Parquet文件，进而利用Pandas或PyArrow等工具进行读取和分析。这些嵌入向量可直接用于下游任务，如天体分类、异常检测或跨模态检索，也可作为预训练特征输入到自定义的机器学习管道中，以加速模型收敛并提升性能。

背景与挑战

背景概述

在人工智能与天文学交叉领域，预训练嵌入向量数据集正成为推动科学发现的关键基础设施。pu-embeddings数据集由相关研究机构构建，旨在系统化地整合来自詹姆斯·韦伯太空望远镜（JWST）、暗能量光谱仪（DESI）及遗产巡天（Legacy Survey）等尖端天文观测项目的多模态嵌入表示。该数据集的核心研究问题聚焦于如何高效利用大规模预训练模型提取的天文图像特征，以支持星系分类、天体物理参数推断及宇宙学模拟等复杂任务。通过提供涵盖AstroPT、CLIP、ConvNeXt、DINOv3、IJEPA、PaliGemma及ViT等多种前沿模型架构的标准化嵌入，该数据集显著降低了天文学研究中计算视觉技术的应用门槛，促进了数据驱动型天文发现的范式革新。

当前挑战

pu-embeddings数据集致力于解决天文学中高维异构数据的特征表示与跨模态对齐挑战。具体而言，天文图像通常包含噪声、尺度差异及复杂物理背景，使得通用视觉模型提取的嵌入可能无法充分捕获天体物理特性，导致下游任务如红移估计或星系形态分类的性能瓶颈。在构建过程中，数据集面临多重挑战：需协调来自不同望远镜和巡天项目的异构数据格式与校准标准；处理海量天文图像生成嵌入所需的巨大计算资源与存储开销；确保不同预训练模型生成的嵌入向量在语义空间中的一致性与可比性；以及为多样化的模型变体（如不同规模的ViT或ConvNeXt）维护统一的数据接口与元数据规范。

常用场景

经典使用场景

在天文学与物理学领域，大规模科学图像数据的处理与分析正面临前所未有的挑战。pu-embeddings数据集通过整合詹姆斯·韦伯太空望远镜（JWST）、暗能量光谱仪（DESI）及遗产巡天（LegacySurvey）等项目的观测数据，并利用多种前沿视觉模型（如CLIP、DINOv3、ConvNeXt等）生成预计算的特征嵌入，为研究人员提供了一个标准化的多模态表征基准。该数据集最经典的使用场景在于支持跨模态检索与相似性搜索，例如将天文图像与物理概念进行语义对齐，从而加速天体分类、异常检测等任务的模型开发与评估流程。

解决学术问题

该数据集有效解决了科学计算中高维数据表征一致性不足的学术难题。传统方法在处理异构天文图像时，常因特征提取管道分散而导致结果难以复现与比较。pu-embeddings通过统一提供多种预训练模型生成的特征向量，使得研究者能够直接聚焦于下游任务的设计与优化，避免了重复计算资源的消耗。其意义在于构建了一个可扩展的嵌入空间评估框架，促进了跨模型性能对比研究，并为表征学习理论在科学领域的应用提供了实证基础。

衍生相关工作

围绕pu-embeddings数据集，已衍生出一系列聚焦科学表征学习的经典研究工作。例如，基于其多模态嵌入的天文物体跨波段检索系统、利用对比学习增强的星系红移预测模型，以及结合物理先验的嵌入空间解释性分析。这些工作不仅拓展了自监督学习在科学领域的边界，还催生了如AstroPT、Paligemma等针对天文数据优化的预训练架构，形成了从基础表征到领域适应算法的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集