pu-embeddings

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/UniverseTBD/pu-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置对应一组以Parquet格式存储的数据文件。配置按名称分类，包括'jwst'、'physics'、'desi'、'jwst_gio'和'legacysurvey'，可能代表不同的数据集或子集。每个配置下包含多种模型变体（如'astropt_015M'、'clip_base'、'convnext_tiny'）及其对应的文件路径。文件命名模式一致（如'train'分割、'.parquet'文件），表明这是一个结构化的数据集，可能用于机器学习任务，尤其是涉及视觉模型的任务（如模型名称中的'vit'、'convnext'）。但README中未提供关于数据集目的、内容或结构的明确描述。

创建时间：

2026-04-01

原始信息汇总

数据集概述

数据集基本信息

数据集名称: pu-embeddings
发布者: UniverseTBD
托管地址: https://huggingface.co/datasets/UniverseTBD/pu-embeddings

数据集结构与配置

该数据集包含多个配置，每个配置对应一个特定的数据文件。所有配置的划分均为“train”。

配置分类

配置名称根据前缀可归类为以下几个主要系列：

JWST系列
- 配置名称前缀: jwst_
- 示例: jwst_astropt_015M, jwst_clip_base, jwst_convnext_tiny, jwst_dinov3_vitb16, jwst_ijepa_giant, jwst_paligemma_3b, jwst_vit-mae_base, jwst_vit_base, jwst_vjepa_giant
- 数据文件路径: jwst/*.parquet
Physics测试系列
- 配置名称前缀: physics_ 且后缀为 _test
- 示例: physics_astropt_015M_test, physics_clip_base_test, physics_convnext_tiny_test, physics_dinov3_vitb16_test, physics_ijepa_giant_test, physics_paligemma_3b_test, physics_vit-mae_base_test, physics_vit_base_test, physics_vjepa_giant_test
- 数据文件路径: physics/*_test.parquet
DESI系列
- 配置名称前缀: desi_
- 示例: desi_astropt_015M, desi_clip_base, desi_convnext_tiny, desi_dino_base, desi_dinov3_small_vits16, desi_ijepa_giant, desi_llava_15_7b, desi_paligemma_3b_3b, desi_vit-mae_base, desi_vit_base, desi_vjepa_giant
- 数据文件路径: desi/desi_*.parquet
JWST_GIO系列
- 配置名称前缀: jwst_gio_
- 示例: jwst_gio_astropt_015M, jwst_gio_clip_base, jwst_gio_convnext_tiny, jwst_gio_dino_base, jwst_gio_dinov3_small_vitb16, jwst_gio_ijepa_giant, jwst_gio_llava_15_7b, jwst_gio_paligemma_3b_3b, jwst_gio_vit-mae_base, jwst_gio_vit_base, jwst_gio_vjepa_large
- 数据文件路径: jwst_gio/jwst_*.parquet
LegacySurvey系列
- 配置名称前缀: legacysurvey_
- 示例: legacysurvey_astropt_015M, legacysurvey_clip_base, legacysurvey_convnext_tiny, legacysurvey_dino_base, legacysurvey_ijepa_giant, legacysurvey_paligemma_3b_3b, legacysurvey_vit-mae_base, legacysurvey_vit_base, legacysurvey_vjepa_giant
- 数据文件路径: legacysurvey/legacysurvey_*.parquet

嵌入模型与架构

配置名称中包含了生成嵌入所使用的多种视觉模型架构及其变体，主要包括：

AstroPT: astropt_015M, astropt_095M, astropt_850M
CLIP: clip_base, clip_large
ConvNeXt: convnext_base, convnext_large, convnext_nano, convnext_tiny
DINO/DINOv3: dino_base, dino_giant, dino_large, dino_small, dinov3_vit7b16, dinov3_vitb16, dinov3_vith16plus, dinov3_vitl16, dinov3_vits16, dinov3_vits16plus
I-JEPA: ijepa_giant, ijepa_huge
LLaVA: llava_15_13b, llava_15_7b
PaliGemma: paligemma_10b, paligemma_28b, paligemma_3b, paligemma_10b_10b, paligemma_3b_3b
ViT (Vision Transformer): vit_base, vit_huge, vit_large
ViT-MAE: vit-mae_base, vit-mae_huge, vit-mae_large
V-JEPA: vjepa_giant, vjepa_huge, vjepa_large

数据格式

所有数据文件均以 Parquet 格式存储。

搜集汇总

数据集介绍

构建方式

在人工智能与天文学交叉领域，pu-embeddings数据集通过系统化流程构建而成。其核心方法涉及对多个天文观测项目（如JWST、DESI、Legacy Survey）的原始图像数据进行预处理，并利用前沿的视觉编码器模型（包括CLIP、ConvNeXt、DINOv3、IJEPA、VJEPA、ViT-MAE及PaLI-Gemma等系列）提取高维特征向量。这些特征向量经过标准化处理后，以Parquet格式存储，形成结构化的嵌入表示集合，为天文图像的语义分析奠定了数据基础。

特点

该数据集展现出多源异构与模型多样性的鲜明特点。它整合了来自不同望远镜和巡天项目的天文图像，覆盖了从近红外到光学波段的观测数据。尤为突出的是，数据集为同一批图像提供了超过数十种预训练视觉模型生成的嵌入向量，涵盖了从轻量级到巨型架构的多种规模，例如从1500万参数的AstroPT到百亿参数的PaLI-Gemma模型。这种设计使得研究者能够在统一的基准上，系统评估和比较不同视觉表示学习方法在天文领域的迁移性能与语义捕获能力。

使用方法

研究人员可通过Hugging Face数据集库直接加载pu-embeddings。使用前需根据具体研究目标选择合适的配置（config），例如`jwst_astropt_015M`或`physics_clip_base_test`。每个配置对应一个包含特定模型嵌入的Parquet文件，可通过标准数据加载流程读取。这些嵌入向量可直接用于下游任务，如天体分类、异常检测、跨模态检索或作为预训练特征输入到机器学习模型中。数据集的模块化结构支持灵活的对比实验，便于探索不同视觉表示对天文图像分析任务的影响。

背景与挑战

背景概述

在人工智能与天文学交叉领域，预训练模型嵌入向量的标准化与共享成为推动科学发现的关键。pu-embeddings数据集由相关研究机构于近年构建，旨在整合来自詹姆斯·韦伯太空望远镜（JWST）、暗能量光谱仪（DESI）及遗产巡天（Legacy Survey）等大型天文项目的图像数据，通过多种前沿视觉模型（如CLIP、DINOv3、ConvNeXt等）生成统一的特征表示。该数据集的核心研究问题聚焦于如何高效利用预训练嵌入进行跨任务的天体识别、分类与物理属性推断，其发布显著降低了天文学界应用深度学习技术的门槛，促进了数据驱动型天体物理研究的范式革新。

当前挑战

pu-embeddings数据集致力于解决天文学中高维图像数据的表征学习与迁移应用难题，其挑战体现在模型嵌入的泛化能力评估，以及不同天文仪器和观测条件所引致的分布偏移问题。在构建过程中，数据集面临多源异构数据的对齐与清洗挑战，包括来自JWST、DESI等设备的图像在分辨率、波段与噪声特性上的差异；同时，大规模嵌入向量的计算、存储与高效检索亦对基础设施提出严峻要求，需平衡计算成本与特征质量，确保嵌入的可靠性及下游任务的适用性。

常用场景

经典使用场景

在天文学与物理学领域，大规模图像数据的表征学习正成为推动科学发现的关键技术。pu-embeddings数据集通过整合詹姆斯·韦伯太空望远镜（JWST）、暗能量光谱仪（DESI）及遗产巡天（Legacy Survey）等项目的图像，并利用AstroPT、CLIP、DINOv3、ConvNeXt等多种前沿视觉模型生成预计算嵌入向量，为研究者提供了一个统一且高效的跨模态表征基准。该数据集最经典的使用场景在于支持天文图像的零样本分类、跨域迁移学习以及大规模天体物理对象的相似性检索，使得研究人员能够直接利用预训练嵌入进行下游任务，无需从头训练模型，显著提升了计算效率与模型泛化能力。

解决学术问题

面对天文数据爆炸式增长带来的计算瓶颈与标注稀缺挑战，pu-embeddings数据集有效解决了高维图像特征提取的标准化问题。该数据集通过提供多源、多尺度的预计算嵌入，降低了天文图像分析中模型训练的计算成本，并缓解了领域内标注数据不足的困境。其意义在于为跨望远镜、跨波段的图像对齐与联合分析建立了可复现的基准，促进了表征学习在天体物理学中的可解释性研究，推动了数据驱动天文学从传统手工特征向端到端深度学习范式的转变。

衍生相关工作

围绕pu-embeddings数据集，已衍生出一系列经典研究工作，特别是在跨模态天文信息检索与生成式模型领域。例如，基于CLIP嵌入的图文检索系统被用于构建交互式天文图像数据库；结合AstroPT与ViT-MAE嵌入的生成模型，能够合成高保真的模拟天文图像以补充训练数据。此外，该数据集还支撑了多任务学习框架的开发，如同时进行红移估计与星系分类的联合模型，这些工作显著提升了天文数据分析的自动化水平，并为下一代巡天项目的实时处理系统提供了算法储备。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集