five

legacysurveys-dr10-embeddings

收藏
Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/astronolan/legacysurveys-dr10-embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'Legacy Survey DR10 Embeddings for 100M+ Galaxies',包含来自Legacy Survey DR10的1.1亿多个星系的嵌入表示,具体数量为110,204,390个星系。这些嵌入是使用AION-Search和AION-1-B模型生成的,适用于天文学中的语义搜索等任务。数据集基于MIT许可证发布,但原始Legacy Survey数据仍需遵守其原始数据使用政策和致谢要求。Legacy Survey DR10是Legacy Surveys的第十个公开数据发布,包含来自DECaLS、BASS和MzLS三个互补项目的数据。使用该数据集时,需引用相关论文并遵守原始数据的致谢要求。
创建时间:
2026-04-11
原始信息汇总

Legacy Survey DR10 Embeddings 数据集概述

数据集基本信息

  • 数据集名称: Legacy Survey DR10 Embeddings for 100M+ Galaxies
  • 数据集地址: https://huggingface.co/datasets/astronolan/legacysurveys-dr10-embeddings
  • 许可证: MIT
  • 数据规模: 10M < n < 100M
  • 标签: astronomy, galaxy-embeddings, clip, aion, semantic-search

数据集内容

该数据集包含来自“多模态宇宙”中超过1亿个Legacy DR10星系的AION-Search和AION-1-B嵌入向量。具体包含110,204,390个星系。

许可证与数据来源

  • 嵌入向量及本仓库的打包内容根据MIT许可证发布。
  • 底层目录数据源自Legacy Survey DR10,仍需遵守原始的Legacy Survey数据使用政策及必要的致谢要求。

引用信息

嵌入向量相关引用

会议论文引用:

@inproceedings{koblischke2025why, title={Why wait for human annotations when you have AI? Semantic searching scientific images with synthetic labels}, author={Nolan Koblischke and Liam Parker and Francois Lanusse and Irina Espejo Morales and Jo Bovy and Shirley Ho}, booktitle={NeurIPS 2025 AI for Science Workshop}, year={2025}, url={https://openreview.net/forum?id=j8Qxvb37HQ} }

预印本引用:

@misc{koblischke2025semantic, title={Semantic search for 100M+ galaxy images using AI-generated captions}, author={Nolan Koblischke and Liam Parker and Francois Lanusse and Irina Espejo Morales and Jo Bovy and Shirley Ho}, year={2025}, eprint={2512.11982}, archivePrefix={arXiv}, primaryClass={astro-ph.IM}, url={https://arxiv.org/abs/2512.11982}, }

预印本链接:https://arxiv.org/abs/2512.11982

原始Legacy Survey数据集引用

数据发布10(DR10)是Legacy Surveys的第十次公共数据发布。在论文中使用Legacy Surveys的数据时,请使用README中提供的完整致谢文本。

学术文献引用:

@ARTICLE{2019AJ....157..168D, author = {{Dey}, Arjun and {Schlegel}, David J. and {Lang}, Dustin and {Blum}, Robert and {Burleigh}, Kaylan and {Fan}, Xiaohui and {Findlay}, Joseph R. and {Finkbeiner}, Doug and {Herrera}, David and {Juneau}, St{e}phanie and {Landriau}, Martin and {Levi}, Michael and {McGreer}, Ian and {Meisner}, Aaron and {Myers}, Adam D. and {Moustakas}, John and {Nugent}, Peter and {Patej}, Anna and {Schlafly}, Edward F. and {Walker}, Alistair R. and {Valdes}, Francisco and {Weaver}, Benjamin A. and {Y{`e}che}, Christophe and {Zou}, Hu and {Zhou}, Xu and {Abareshi}, Behzad and {Abbott}, T.~M.~C. and {Abolfathi}, Bela and {Aguilera}, C. and {Alam}, Shadab and {Allen}, Lori and {Alvarez}, A. and {Annis}, James and {Ansarinejad}, Behzad and {Aubert}, Marie and {Beechert}, Jacqueline and {Bell}, Eric F. and {BenZvi}, Segev Y. and {Beutler}, Florian and {Bielby}, Richard M. and {Bolton}, Adam S. and {Brice{~n}o}, C{e}sar and {Buckley-Geer}, Elizabeth J. and {Butler}, Karen and {Calamida}, Annalisa and {Carlberg}, Raymond G. and {Carter}, Paul and {Casas}, Ricard and {Castander}, Francisco J. and {Choi}, Yumi and {Comparat}, Johan and {Cukanovaite}, Elena and {Delubac}, Timoth{e}e and {DeVries}, Kaitlin and {Dey}, Sharmila and {Dhungana}, Govinda and {Dickinson}, Mark and {Ding}, Zhejie and {Donaldson}, John B. and {Duan}, Yutong and {Duckworth}, Christopher J. and {Eftekharzadeh}, Sarah and {Eisenstein}, Daniel J. and {Etourneau}, Thomas and {Fagrelius}, Parker A. and {Farihi}, Jay and {Fitzpatrick}, Mike and {Font-Ribera}, Andreu and {Fulmer}, Leah and {G{"a}nsicke}, Boris T. and {Gaztanaga}, Enrique and {George}, Koshy and {Gerdes}, David W. and {Gontcho}, Satya Gontcho A. and {Gorgoni}, Claudio and {Green}, Gregory and {Guy}, Julien and {Harmer}, Diane and {Hernandez}, M. and {Honscheid}, Klaus and {Huang}, Lijuan Wendy and {James}, David J. and {Jannuzi}, Buell T. and {Jiang}, Linhua and {Joyce}, Richard and {Karcher}, Armin and {Karkar}, Sonia and {Kehoe}, Robert and {Kneib}, Jean-Paul and {Kueter-Young}, Andrea and {Lan}, Ting-Wen and {Lauer}, Tod R. and {Le Guillou}, Laurent and {Le Van Suu}, Auguste and {Lee}, Jae Hyeon and {Lesser}, Michael and {Perreault Levasseur}, Laurence and {Li}, Ting S. and {Mann}, Justin L. and {Marshall}, Robert and {Mart{\i}nez-V{a}zquez}, C.~E. and {Martini}, Paul and {du Mas des Bourboux}, H{e}lion and {McManus}, Sean and {Meier}, Tobias Gabriel and {M{e}nard}, Brice and {Metcalfe}, Nigel and {Mu{~n}oz-Guti{e}rrez}, Andrea and {Najita}, Joan and {Napier}, Kevin and {Narayan}, Gautham and {Newman}, Jeffrey A. and {Nie}, Jundan and {Nord}, Brian and {Norman}, Dara J. and {Olsen}, Knut A.~G. and {Paat}, Anthony and {Palanque-Delabrouille}, Nathalie and {Peng}, Xiyan and {Poppett}, Claire L. and {Poremba}, Megan R. and {Prakash}, Abhishek and {Rabinowitz}, David and {Raichoor}, Anand and {Rezaie}, Mehdi and {Robertson}, A.~N. and {Roe}, Natalie A. and {Ross}, Ashley J. and {Ross}, Nicholas P. and {Rudnick}, Gregory and {Safonova}, Sasha and {Saha}, Abhijit and {S{a}nchez}, F. Javier and {Savary}, Elodie and {Schweiker}, Heidi and {Scott}, Adam and {Seo}, Hee-Jong and {Shan}, Huanyuan and {Silva}, David R. and {Slepian}, Zachary and {Soto}, Christian and {Sprayberry}, David and {Staten}, Ryan and {Stillman}, Coley M. and {Stupak}, Robert J. and {Summers}, David L. and {Sien Tie}, Suk and {Tirado}, H. and {Vargas-Maga{~n}a}, Mariana and {Vivas}, A. Katherina and {Wechsler}, Risa H. and {Williams}, Doug and {Yang}, Jinyi and {Yang}, Qian and {Yapici}, Tolga and {Zaritsky}, Dennis and {Zenteno}, A. and {Zhang}, Kai and {Zhang}, Tianmeng and {Zhou}, Rongpu and {Zhou}, Zhimin}, title = "{Overview of the DESI Legacy Imaging Surveys}", journal = {aj}, keywords = {catalogs, surveys, Astrophysics - Instrumentation and Methods for Astrophysics}, year = 2019, month = may, volume = {157}, number = {5}, eid = {168}, pages = {168}, doi = {10.3847/1538-3881/ab089d}, archivePrefix = {arXiv}, eprint = {1804.08657}, primaryClass = {astro-ph.IM}, adsurl = {https://ui.adsabs.harvard.edu/abs/2019AJ....157..168D}, adsnote = {Provided by the SAO/NASA Astrophysics Data System} }

搜集汇总
数据集介绍
main_image_url
构建方式
在当代天文学研究中,大规模巡天数据的语义化表征已成为推动科学发现的关键。Legacy Survey DR10 Embeddings数据集的构建,源于对超过一亿个星系图像进行高效语义检索的需求。研究团队基于Legacy Surveys第十次数据发布(DR10)的原始图像与星表,运用先进的视觉-语言模型AION-Search与AION-1-B,为每个星系生成了高维嵌入向量。这一过程将海量的天文图像转化为机器可理解的稠密语义表示,为后续的相似性搜索与模式挖掘奠定了坚实基础。
特点
该数据集的核心特征在于其前所未有的规模与丰富的语义信息。它精确包含了110,204,390个星系的嵌入向量,覆盖了Legacy Survey DR10的绝大部分天区。每个嵌入向量都凝聚了星系在多波段图像中的形态、颜色与结构特征,并通过AI生成的描述标签赋予了语义层面的理解。数据集不仅提供了两种不同模型(AION-Search与AION-1-B)的嵌入结果以供比较,其结构化的组织形式也极大便利了大规模向量相似性计算与跨模态检索任务的开展。
使用方法
利用该数据集进行科学研究,首要步骤是理解其数据架构与访问方式。研究者可通过HuggingFace平台直接加载数据集,或利用提供的脚本批量读取嵌入向量。典型应用场景包括:基于余弦相似度在嵌入空间中进行星系语义搜索,以发现具有特定形态或物理性质的星系群体;或将嵌入向量作为特征输入下游机器学习模型,用于星系分类、红移估计等任务。使用时需遵循Legacy Surveys的数据引用规范,并在工作中恰当引用本嵌入数据集及相关原始论文。
背景与挑战
背景概述
在当代天体物理学研究中,大规模巡天项目产生的海量星系图像数据为理解宇宙结构演化提供了前所未有的机遇。Legacy Surveys DR10作为第十次公开数据释放,由暗能量相机遗产巡天、北京-亚利桑那巡天和Mayall z波段遗产巡天三大项目联合完成,其数据采集工作涉及全球多个顶尖天文机构。2025年,Nolan Koblischke等研究人员基于该巡天数据,利用AION-Search和AION-1-B模型为超过1.1亿个星系生成了嵌入向量,旨在通过人工智能生成的语义标签实现星系图像的语义搜索,从而突破传统人工标注在规模与效率上的局限,为星系形态分类、异常天体发现等研究开辟了新的方法论路径。
当前挑战
该数据集致力于解决天体物理图像语义搜索这一前沿问题,其核心挑战在于如何从数十亿像素的巡天图像中提取具有物理意义的语义特征,并建立高效检索体系。构建过程中的技术挑战尤为显著:首先,处理超过1.1亿个星系图像需要设计可扩展的分布式计算框架,以应对PB级原始数据的存储与处理需求;其次,跨波段图像的对齐与校准需要克服大气扰动、仪器噪声等观测系统误差;再者,将CLIP等视觉-语言模型适配于天文领域时,需解决自然图像与天文图像在亮度分布、背景噪声等方面的域适应问题;最后,确保生成嵌入向量的物理可解释性,使其与星系的红移、星族年龄等物理参数建立可靠关联,是验证方法科学性的关键环节。
常用场景
经典使用场景
在天文学研究领域,大规模巡天数据的高效检索与分析一直是关键挑战。Legacysurveys-dr10-embeddings数据集通过为超过一亿个星系图像提供AION-Search和AION-1-B嵌入向量,实现了基于语义的星系图像搜索。研究人员能够利用自然语言描述,如“具有明显旋臂的棒旋星系”,直接在海量数据中定位目标天体,极大提升了天体发现与分类的效率。
解决学术问题
该数据集有效应对了传统天文图像分析依赖人工标注、耗时耗力的困境。通过AI生成标注与嵌入技术,它解决了大规模星系数据的自动化语义索引问题,使得基于内容的图像检索成为可能。这不仅推动了数据驱动天文学的发展,也为研究星系形态演化、宇宙大尺度结构等课题提供了新的方法论,显著降低了科学发现的成本与门槛。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多模态学习与天文信息检索的交叉领域。例如,基于CLIP架构的AION模型系列被扩展用于生成星系图像的语义嵌入,相关研究进一步探索了无监督或弱监督下的天体分类。这些工作不仅验证了AI生成标签在天文学中的可行性,也为后续开发更通用的科学图像基础模型奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作