five

AstroCompress

收藏
arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://huggingface.co/AstroCompress
下载链接
链接失效反馈
官方服务:
资源简介:
AstroCompress数据集由加州大学尔湾分校、加州大学伯克利分校和劳伦斯伯克利国家实验室创建,旨在解决天文观测数据传输瓶颈问题。该数据集包含5个不同的数据集,涵盖了多种观测条件、探测器技术和动态范围,总数据量约为320GB。数据集包括地面和太空观测的16位无符号整数成像数据,以及多波长和时间序列成像数据。该数据集的设计目的是为了促进机器学习社区对天文物理数据压缩的研究,并评估了7种无损压缩方法的性能,展示了神经压缩在科学应用中的巨大潜力。

The AstroCompress dataset was developed by the University of California, Irvine, the University of California, Berkeley, and Lawrence Berkeley National Laboratory, aiming to address the bottleneck problem in astronomical observation data transmission. The dataset consists of five distinct subsets covering a wide range of observation conditions, detector technologies, and dynamic ranges, with a total data volume of approximately 320 GB. It includes 16-bit unsigned integer imaging data from both ground-based and space-based observations, as well as multi-wavelength and time-series imaging data. This dataset is designed to promote research on astrophysical data compression within the machine learning community, and it evaluates the performance of seven lossless compression methods, demonstrating the considerable potential of neural compression in scientific applications.
提供机构:
加州大学尔湾分校;加州大学伯克利分校;劳伦斯伯克利国家实验室
创建时间:
2025-06-10
搜集汇总
数据集介绍
main_image_url
构建方式
AstroCompress数据集的构建基于多源天文观测数据,通过严格的筛选和处理流程确保数据的多样性和代表性。数据集包含来自地面和空间望远镜的原始成像数据,涵盖了光学和红外波段,数据格式为16位无符号整数。构建过程中特别注重避免天空区域的重复覆盖,确保训练集和测试集的空间独立性。数据来源包括Keck天文台、哈勃空间望远镜、詹姆斯·韦伯空间望远镜和斯隆数字巡天等权威天文设施,所有数据均经过格式统一和标准化处理,便于机器学习模型的直接应用。
特点
AstroCompress数据集的核心特点体现在其多维数据结构和丰富的天体物理信息。数据集不仅包含传统的二维成像数据,还创新性地引入了三维时间序列和四维多波长数据立方体,为压缩算法提供了探索时空相关性的独特机会。数据集中天体目标的动态范围覆盖了从微弱背景噪声到明亮恒星的全光谱强度,真实再现了天文观测中的复杂场景。特别值得注意的是,空间望远镜数据中普遍存在的宇宙射线干扰和电荷转移效率问题,为开发鲁棒性压缩算法提供了现实挑战。不同望远镜的探测器特性(如CCD与HgCdTe阵列)也带来了数据统计特性的显著差异,进一步丰富了数据集的多样性。
使用方法
AstroCompress数据集的使用方法充分考虑到了机器学习工作流的便捷性。数据集通过HuggingFace平台发布,支持直接加载为numpy数组或PyTorch张量格式。用户可以选择完整数据集或测试用的小规模子集,并灵活指定训练/测试划分。对于神经压缩算法的适配,数据集提供了两种处理16位数据的方案:直接建模16位分布或将像素分解为高低8位双通道。基准测试脚本内置了对传统压缩算法(JPEG-XL、JPEG-2000等)和神经压缩方法(IDF、L3C等)的评估框架,支持单帧图像和多维数据立方体的压缩性能比较。数据集中每个图像都附带完整的元数据信息,便于进行压缩比特分配与信噪比等天体物理参数的关联分析。
背景与挑战
背景概述
AstroCompress是由加州大学欧文分校和伯克利分校的研究团队于2025年提出的天文图像压缩基准数据集,旨在解决天文观测中数据传输受限的核心问题。随着现代天文台探测器规模的扩大,观测数据量呈现指数级增长,而天文台所处的偏远环境导致数据传输能力严重受限。该数据集包含来自哈勃太空望远镜、詹姆斯·韦伯太空望远镜等五大天文设施的320GB 16位无符号整数图像数据,涵盖空间基、地基、多波段和时序成像等多种模式。其创新性地引入了高维数据立方体结构,为神经压缩算法开发提供了首个系统性研究平台,对提升价值数十亿美元的天文设备数据利用率具有重要战略意义。
当前挑战
AstroCompress面临双重技术挑战:在领域问题层面,需突破传统手工编解码器对天文图像时空波长特性的低效建模,解决宇宙射线干扰像素和电荷转移效率缺陷导致的噪声问题;在构建过程层面,需处理多源异构数据的标准化整合,确保非重叠天区覆盖以避免模型过拟合,并开发支持16位深度数据的神经压缩架构。特别是JWST红外探测器产生的三维时序数据立方体,要求算法能有效利用时间维度冗余,而SDSS多波段数据则需要建模波长间相关性。此外,天文图像中背景噪声像素与目标源像素的熵值差异达3倍,对动态比特分配提出了更高要求。
常用场景
经典使用场景
AstroCompress数据集为天体物理学图像的无损压缩研究提供了标准化的基准测试平台。该数据集整合了来自地面和空间望远镜的多模态观测数据,包括Keck天文台的光学图像、哈勃太空望远镜的F606W波段数据、JWST的红外时间序列以及SDSS的多波长巡天数据。研究者可利用该数据集评估不同压缩算法在保持天体物理特征完整性方面的性能,尤其适用于验证神经网络压缩模型在跨波长、跨时间维度上的冗余信息挖掘能力。
衍生相关工作
该数据集催生了多项跨学科研究:1) Maireles-González等基于SDSS数据开发的近无损压缩框架;2) Hayne等将VDM扩展应用于湍流气候数据压缩;3) Wang等提出的医学图像混合压缩架构借鉴了其位分配策略。在基础理论层面,Kingma的变分扩散模型通过该数据集验证了似然估计与无损压缩的等价性,推动了概率生成模型在天体物理中的应用。
数据集最近研究
最新研究方向
AstroCompress数据集在天文图像压缩领域的最新研究方向主要集中在神经无损压缩技术的优化与应用。随着天文观测数据的爆炸式增长,传统的手工设计压缩算法在处理高动态范围、多波长和时间序列的天文图像时面临效率瓶颈。AstroCompress通过引入基于深度生成模型的神经压缩算法,如离散归一化流、扩散模型和变分自编码器,显著提升了压缩性能。这些方法能够自动学习天文图像中的空间、时间和波长结构冗余,从而在保持数据完整性的同时实现更高的压缩比。此外,该数据集还推动了针对特定科学数据特性的定制化压缩算法的研究,如针对宇宙射线影响像素和电荷转移效率问题的优化处理。前沿研究还探索了将神经压缩技术应用于即将发射的南希·格雷斯·罗曼太空望远镜等任务,以解决其前所未有的数据传输挑战。
相关研究论文
  • 1
    AstroCompress: A benchmark dataset for multi-purpose compression of astronomical data加州大学尔湾分校;加州大学伯克利分校;劳伦斯伯克利国家实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作