five

LenghuSky-8

收藏
Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/ruiyicheng/LenghuSky-8
下载链接
链接失效反馈
官方服务:
资源简介:
LenghuSky-8 是一个天文气候观测数据集,主要用于云分割和背景变化分析。数据集包含多个部分:1) 背景掩码注释(bkg_mask),包括背景变化事件的时间记录、二进制分类结果及标注的 JSON 文件;2) 天体测量校准数据(calibration),包含校准多项式系数和索引文件;3) 云分割图像和对应的逻辑值(images logits),图像经过裁剪和调整大小(512x512),并附有 DINOv3 局部特征的线性探针结果;4) 数据收集中断事件记录(interrupt.csv)。数据集总规模在 100B 到 1T 之间,部分处理后的数据(约 60GB)可通过 GitHub 获取。
创建时间:
2026-03-04
原始信息汇总

LenghuSky-8 数据集概述

数据集基本信息

  • 数据集名称: LenghuSky-8
  • 许可证: Apache-2.0
  • 标签: climate, astronomy
  • 数据规模: 10B < n < 100B

数据内容与结构

背景掩码数据 (bkg_mask/)

  • 背景变化事件记录: bkg_mask/bkg_change.csv 文件记录了每个背景变化事件的开始时间(格式为yyyy-mm-dd-HH-MM-SS),其中“l”代表下部分,“u”代表上部分。
  • 背景二分类结果: bkg_mask/bkg_binary_classification_merged.csv 文件包含了2023-09-27-18-09-48之后捕获的所有图像的二元分类器时间类别和概率,其中1代表屋顶在图像上部,0代表屋顶在图像下部。结果由 code/background_classify 生成。
  • 标注文件: bkg_mask/masks/ 目录包含使用labelme标注的所有json文件,每个json文件对应发生背景变化的一帧。
  • 背景掩码文件: bkg_mask/mask_mat/ 目录包含 bkg_change.csv 中每个开始时间对应的背景掩码npy文件。
  • 映射文件: bkg_mask/bkg_map.txt 提供了logits文件与 bkg_mask/mask_mat/ 中背景掩码npy文件之间的映射关系。

天体测量定标数据 (calibration/)

  • 定标系数文件: yyyy-mm-dd-HH-MM-SS_calibration.json 文件包含从指定时间(yyyy-mm-dd-HH-MM-SS)开始捕获的图像的定标多项式系数。由 code/calibration/Jia25_ensemble.pycode/calibration/calibrate_and_save.py 生成。
  • 定标索引文件: calibration_index.json 文件包含每个图像时间戳对应的定标文件指针。这些数据由 code/calibration/calibrate_and_save.py 生成。

图像与分割logits数据

  • 原始图像: 由云相机在不同时间戳捕获的原始样本图像,由于数据量巨大(约5TB),未公开发布。
  • 预处理图像: 对云相机中心部分截取的图像进行云分割,应用了[mean-1sigma, mean+3sigma]裁剪并调整尺寸至512*512,生成 image/ 目录下的数据。数据量约20GB,由 code/preprocess/preprocess.py 生成。
  • 分割logits: logits/ 目录包含 image/ 中每个样本图像对应的云分割logits。数据量约40GB,由 code/inference_segmentation_dinov3/inference.py 生成,可在GitHub仓库中获取。

数据收集中断事件记录

  • 中断事件文件: interrupt.csv 文件记录了数据收集中每个中断事件的[开始, 结束)时间(格式为yyyy-mm-dd-HH-MM-SS)。这些数据由 code/preprocess/find_interrupt.py 生成。部分中断事件以时间不连续结束,因此中断持续时间的统计可能略有高估。

相关资源

  • 项目代码仓库: https://github.com/ruiyicheng/LenghuSky-8
搜集汇总
数据集介绍
构建方式
在气候与天文学交叉领域,LenghuSky-8数据集通过系统化的数据采集与标注流程构建而成。数据源自冷湖天文台云相机的连续观测,原始图像经过中心裁剪、标准化剪裁与尺寸调整至512x512像素,生成约20GB的预处理图像集。背景变化事件通过标注工具LabelMe进行手动掩码标注,并辅以二元分类器自动识别屋顶位置;天体测量校准则利用多项式系数计算,为每幅图像提供精确的空间坐标映射。数据收集过程中的中断事件通过时间序列分析识别并记录,确保数据完整性。
使用方法
使用该数据集时,研究者可依据校准索引文件将图像与对应天体测量参数关联,实现天文目标的精确定位。云分割任务可直接调用logits文件进行模型训练或评估,无需重复计算特征提取。背景掩码npy文件与变化时间表配合,可用于动态天空建模或数据清洗,去除观测设备结构干扰。中断事件文件帮助用户筛选连续观测时段,提升时间序列分析的可靠性。数据集采用标准化目录结构,所有辅助文件均通过明文映射表关联,支持模块化调用与跨平台集成。
背景与挑战
背景概述
LenghuSky-8数据集诞生于天文与气候交叉研究的前沿领域,由中国科学院等研究机构于近年主导构建,旨在系统性地捕捉和分析青海冷湖赛什腾山天文台址的云层动态与天空背景变化。该数据集的核心研究问题聚焦于通过高时间分辨率的图像数据,量化天文台址的云覆盖特性与背景干扰,为天文观测的选址优化和实时气象监测提供关键数据支撑。其多模态数据架构,涵盖原始图像、背景掩码、天体测量校准及云分割逻辑输出,显著推动了自动化天文观测与环境感知技术的发展,对提升望远镜观测效率及气候模型验证具有深远影响。
当前挑战
LenghuSky-8数据集所针对的领域挑战在于,天文台址云层监测需在复杂自然环境下实现高精度、实时性的云分割与背景分离,这对算法的鲁棒性与计算效率提出了严峻考验。在构建过程中,数据采集面临高原环境的极端气候波动与设备中断事件,导致时序数据的不连续性;同时,原始数据规模高达约5TB,后续预处理需进行高效的剪裁、校准与标注,涉及大规模背景掩码生成与多源数据对齐,这些技术环节均需克服存储、处理与标注一致性的多重障碍。
常用场景
经典使用场景
在天文观测与气候研究领域,LenghuSky-8数据集为云层分割与背景变化分析提供了关键数据支持。该数据集通过高时间分辨率的图像序列,捕捉了冷湖天文台天空的动态变化,经典使用场景包括基于深度学习的云层自动分割模型训练。研究人员利用图像及其对应的logits数据,构建语义分割网络,以精确识别云层覆盖区域,从而评估观测条件对天文活动的影响。这一过程不仅提升了云检测的准确性,还为实时天文观测调度提供了数据基础。
解决学术问题
LenghuSky-8数据集致力于解决天文气象学中的核心挑战,即如何量化云层干扰并优化观测效率。它通过标注背景掩码和校准数据,帮助研究者分析望远镜圆顶位置变化对图像质量的影响,从而减少观测中的系统误差。此外,数据集中的中断事件记录为理解数据采集过程中的异常提供了依据,支持了观测可靠性的统计研究。这些贡献显著推进了自动化天文站点管理方法的发展,并为气候建模中的局部大气现象研究提供了实证数据。
实际应用
在实际应用中,LenghuSky-8数据集被广泛应用于天文台站的智能运维系统。基于其云分割结果,观测团队可以动态调整望远镜观测计划,避开云层密集时段,提升数据采集效率。同时,背景掩码信息辅助了图像预处理流程,确保校准后的天空图像更适用于天体测量研究。这些应用不仅优化了冷湖等远程观测站点的资源利用,也为全球类似环境下的自动化气候监测网络提供了技术范本。
数据集最近研究
最新研究方向
在气候与天文观测领域,LenghuSky-8数据集凭借其高分辨率天空图像与精细化背景掩码标注,正推动基于深度学习的云层分割与天文校准研究的前沿进展。该数据集整合了DINOv3局部特征的线性探针logits输出,为云层动态模式识别提供了可扩展的语义表征基础,同时背景变化事件的时间序列标注助力于观测中断检测与数据质量控制算法的优化。相关研究聚焦于多模态天文气候数据的融合分析,旨在提升偏远台站自动化监测系统的鲁棒性,对全球气候变化背景下的长期天空观测网络构建具有重要科学意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作