five

platonic-embeddings

收藏
Hugging Face2026-04-16 更新2026-04-17 收录
下载链接:
https://huggingface.co/datasets/kshitijd/platonic-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个以parquet格式存储的配置文件,每个配置文件对应不同的模型及其变体(如astropt、convnext、dino、hiera、ijepa、vit-mae、vit等,以及它们的base、large、small、tiny、huge、giant等变体)。数据文件路径表明这些数据集可能按不同的天文观测项目或仪器(如DESI、JWST、Legacy Survey、SDSS)进行分类组织。所有数据文件均标记为'train'分割,可能用于模型训练。然而,README中未提供关于数据集具体内容、用途或结构的详细描述。
创建时间:
2026-04-15
原始信息汇总

数据集概述

数据集名称

platonic-embeddings

数据集地址

https://huggingface.co/datasets/kshitijd/platonic-embeddings

数据集结构

数据集包含多个配置,每个配置对应一个特定的数据文件。所有配置的数据分割均为“train”。

配置列表

来源:desi

  • desi_astropt_015M_layerwise
  • desi_astropt_095M_layerwise
  • desi_astropt_850M_layerwise
  • desi_convnext_base_layerwise
  • desi_convnext_large_layerwise
  • desi_convnext_nano_layerwise
  • desi_convnext_tiny_layerwise
  • desi_dino_base_layerwise
  • desi_dino_large_layerwise
  • desi_dino_small_layerwise
  • desi_hiera_base-plus_layerwise
  • desi_hiera_large_layerwise
  • desi_hiera_small_layerwise
  • desi_hiera_tiny_layerwise
  • desi_ijepa_giant_layerwise
  • desi_ijepa_huge_layerwise
  • desi_vit-mae_base_layerwise
  • desi_vit-mae_huge_layerwise
  • desi_vit-mae_large_layerwise
  • desi_vit_base_layerwise
  • desi_vit_huge_layerwise
  • desi_vit_large_layerwise

来源:jwst

  • jwst_astropt_015M_layerwise
  • jwst_astropt_095M_layerwise
  • jwst_astropt_850M_layerwise
  • jwst_convnext_base_layerwise
  • jwst_convnext_large_layerwise
  • jwst_convnext_nano_layerwise
  • jwst_convnext_tiny_layerwise
  • jwst_dino_base_layerwise
  • jwst_dino_large_layerwise
  • jwst_dino_small_layerwise
  • jwst_hiera_base-plus_layerwise
  • jwst_hiera_large_layerwise
  • jwst_hiera_small_layerwise
  • jwst_hiera_tiny_layerwise
  • jwst_ijepa_giant_layerwise
  • jwst_ijepa_huge_layerwise
  • jwst_vit-mae_base_layerwise
  • jwst_vit-mae_huge_layerwise
  • jwst_vit-mae_large_layerwise
  • jwst_vit_base_layerwise
  • jwst_vit_huge_layerwise
  • jwst_vit_large_layerwise
  • jwst_vjepa_giant_layerwise
  • jwst_vjepa_huge_layerwise
  • jwst_vjepa_large_layerwise

来源:legacysurvey

  • legacysurvey_astropt_015M_layerwise
  • legacysurvey_astropt_095M_layerwise
  • legacysurvey_convnext_base_layerwise
  • legacysurvey_convnext_large_layerwise
  • legacysurvey_convnext_nano_layerwise
  • legacysurvey_convnext_tiny_layerwise
  • legacysurvey_dino_small_layerwise
  • legacysurvey_hiera_small_layerwise
  • legacysurvey_hiera_tiny_layerwise

来源:sdss

  • sdss_astropt_015M_layerwise
  • sdss_astropt_095M_layerwise
  • sdss_astropt_850M_layerwise
  • sdss_convnext_base_layerwise
  • sdss_convnext_large_layerwise
  • sdss_convnext_nano_layerwise
  • sdss_convnext_tiny_layerwise
  • sdss_dino_base_layerwise
  • sdss_dino_large_layerwise
  • sdss_dino_small_layerwise
  • sdss_hiera_base-plus_layerwise
  • sdss_hiera_large_layerwise
  • sdss_hiera_small_layerwise
  • sdss_hiera_tiny_layerwise
  • sdss_ijepa_giant_layerwise
  • sdss_ijepa_huge_layerwise
  • sdss_vit-mae_base_layerwise
  • sdss_vit-mae_huge_layerwise
  • sdss_vit-mae_large_layerwise
  • sdss_vit_base_layerwise
  • sdss_vit_huge_layerwise
  • sdss_vit_large_layerwise
  • sdss_vjepa_giant_layerwise
  • sdss_vjepa_huge_layerwise
  • sdss_vjepa_large_layerwise

数据文件格式

所有数据文件均为Parquet格式,路径结构为“来源/模型名称_layerwise.parquet”。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与天文学交叉领域,Platonic-Embeddings数据集通过系统化流程构建而成。其核心方法涉及从多个权威天文观测项目(如DESI、JWST、Legacy Survey和SDSS)中采集原始图像数据,随后运用一系列前沿视觉Transformer模型(包括ConvNeXt、DINO、Hiera、IJEPA、VJEPA及ViT等架构的不同变体)进行深度特征提取。这些模型在图像上逐层生成嵌入向量,最终以Parquet格式高效存储,形成结构化的层间表示集合,为多模态天文数据分析奠定了坚实基础。
特点
该数据集最显著的特点在于其跨模态与跨层级的表示多样性。它不仅涵盖了从地面到空间的多源天文观测数据,还集成了多种视觉骨干网络在不同深度产生的特征嵌入。这种设计使得研究者能够探索同一图像在不同模型架构与不同抽象层次下的语义表达,为比较模型表征能力、研究特征可迁移性以及进行跨任务知识蒸馏提供了丰富资源。数据以标准化Parquet文件组织,确保了访问的高效性与兼容性。
使用方法
研究人员可通过Hugging Face数据集库直接加载Platonic-Embeddings的特定配置。典型应用流程包括:根据研究目标选择对应的天文数据源和预训练模型配置,加载相应的Parquet文件后,即可获取图像的多层特征嵌入。这些嵌入可直接用于下游任务,如天文目标分类、形态学分析或相似性检索;也可用于表征分析研究,例如通过可视化或相似性度量来比较不同模型对同一宇宙现象的编码差异。数据集的结构化设计支持灵活的批处理与流式读取。
背景与挑战
背景概述
在人工智能与天文学交叉研究领域,大规模天文图像数据的深度表征学习正成为推动科学发现的关键驱动力。Platonic-Embeddings数据集由相关研究机构于近期构建,旨在系统化地整合来自DESI、JWST、Legacy Survey及SDSS等顶尖天文观测项目的图像数据,并通过多种前沿视觉Transformer模型(如ViT、ConvNeXt、DINO等)提取层次化特征嵌入。该数据集的核心研究问题聚焦于如何利用预训练视觉模型捕捉天文图像中的复杂模式与物理特性,从而为星系分类、天体检测及宇宙学参数推断等任务提供统一且可迁移的特征表示。其构建不仅促进了跨项目天文数据的标准化表征,也为探索自监督学习在天文领域的适用性奠定了重要基础。
当前挑战
Platonic-Embeddings数据集所应对的领域挑战在于天文图像分析中固有的高维度、低信噪比以及复杂背景干扰等问题,传统方法难以有效提取鲁棒且物理意义明确的特征表示。在数据集构建过程中,研究人员面临多重技术挑战:首先,需协调不同天文观测项目(如DESI、JWST、SDSS)在数据格式、分辨率与波长覆盖上的异构性,确保特征提取流程的一致性;其次,大规模图像数据通过多种深度模型进行层次化嵌入计算,涉及巨大的计算资源与存储开销;此外,如何评估不同模型生成嵌入在天文任务中的有效性,并建立标准化评估基准,亦是该数据集推广与应用的关键难点。
常用场景
经典使用场景
在计算机视觉与天文学交叉领域,platonic-embeddings数据集通过提供来自DESI、JWST、LegacySurvey和SDSS等大型巡天项目的天体图像,结合多种先进视觉Transformer模型(如ViT、ConvNeXt、DINO)的层级嵌入表示,为研究者构建了一个标准化的跨模态表征学习平台。该数据集最经典的使用场景在于支持自监督与对比学习算法的评估与比较,使得研究人员能够系统地分析不同模型架构在天文图像特征提取中的性能差异,从而推动视觉表征学习在天文数据处理中的方法创新。
解决学术问题
该数据集有效解决了天文信息学中高维异构数据表征学习的核心挑战。传统方法在处理海量天文图像时,常面临特征工程复杂、泛化能力不足的问题。platonic-embeddings通过预计算的模型嵌入,提供了统一且可复现的特征基准,降低了计算门槛,使得研究重心得以转向表征质量的分析与比较。其意义在于促进了天文领域与机器学习社区的深度协作,为探索宇宙天体分类、红移估计、异常检测等任务提供了可靠的数据基础,加速了数据驱动天文学的发展进程。
衍生相关工作
围绕platonic-embeddings数据集,已衍生出多项经典研究工作,主要集中在跨模态表征对齐、领域自适应与可解释性分析等方面。例如,有研究利用该数据集比较了不同自监督学习策略(如MAE、DINO、IJEPA)在天文图像上的迁移效果;另有工作探索了嵌入特征在天体物理属性回归任务中的泛化能力。这些研究不仅验证了数据集的实用价值,也进一步推动了通用视觉模型在天文学中的适配与优化,形成了良性循环的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作