solarhub-cme
收藏Hugging Face2026-03-11 更新2026-03-12 收录
下载链接:
https://huggingface.co/datasets/SpaceGen/solarhub-cme
下载链接
链接失效反馈官方服务:
资源简介:
SolarHub CME 标注数据集是一个用于公民科学太阳观测分类项目的标注数据集合,专门针对日冕物质抛射(CME)任务。数据集包含50,615个样本,每个样本包含太阳观测图像的HTTPS URL(url字段)、固定为'cme'的任务类型标识(task_type字段)、人工标注标签(user_label字段)以及包含标注者信息、问题编号和时间戳的元数据(metadata字段)。数据通过GitHub Issues收集,并由Aurora管道每晚合并。该数据集对应的训练模型已发布在SpaceGen/solarhub-model-cme。数据集采用CC-BY-4.0许可协议,适用于图像分类任务,特别适合太阳活动研究和天文学相关应用。
创建时间:
2026-03-08
搜集汇总
数据集介绍

构建方式
在太阳物理学领域,对日冕物质抛射(CME)的观测与分类是理解空间天气事件的关键。SolarHub-CME数据集的构建依托于SolarHub公民科学项目,通过开源协作平台GitHub Issues系统化地收集志愿者对太阳观测图像的人工标注。每日夜间,Aurora数据处理管道自动整合这些标注,形成结构化的标注记录,确保了数据来源的多样性与时效性。该流程将公众参与与自动化处理相结合,为太阳活动研究提供了大规模、高质量的标注数据基础。
特点
SolarHub-CME数据集专注于日冕物质抛射的图像分类任务,其核心特征体现在标注来源的开放性与结构化设计。数据集包含五万余条标注样本,每条记录均关联太阳观测图像的URL、固定的任务类型标识以及由志愿者提供的分类标签。元数据字段详细记录了标注者、时间戳及数据来源,增强了数据的可追溯性。作为公民科学项目产物,该数据集融合了分布式人工标注的多样性,为训练和验证太阳活动自动检测模型提供了丰富的真实世界标注资源。
使用方法
该数据集适用于太阳物理学与计算机视觉交叉领域的研究,特别是日冕物质抛射的自动识别与分类模型开发。使用者可通过提供的图像URL直接访问原始观测数据,结合对应的人工标注标签进行监督学习训练。数据集已预先划分为任务集,可直接加载至主流机器学习框架。研究人员可进一步利用元数据信息分析标注一致性或进行时间序列研究。配套的预训练模型SpaceGen/solarhub-model-cme为模型微调与性能比较提供了基准参考。
背景与挑战
背景概述
SolarHub-CME数据集诞生于2023年,由SpaceGen机构主导,依托公民科学项目SolarHub构建,专注于太阳物理学中的日冕物质抛射(CME)自动检测问题。该数据集通过GitHub平台汇聚全球志愿者对太阳观测图像的人工标注,旨在训练机器学习模型以识别CME事件,从而提升空间天气预警的时效性与准确性。其构建模式革新了传统天文数据标注的局限,推动了太阳活动监测领域向自动化、智能化方向发展,为空间环境研究提供了宝贵的数据资源。
当前挑战
在太阳物理学领域,日冕物质抛射的自动识别面临巨大挑战,因其形态多样、与背景日冕对比度低,且易与其他太阳活动混淆,要求模型具备极高的特征分辨能力。数据集构建过程中,依赖公民科学标注虽能扩大数据规模,但引入标注者主观差异与专业水平不均等问题,导致标签一致性难以保障;同时,太阳观测图像数据来源异构、时间序列不连续,进一步增加了数据清洗与标准化难度,对模型训练的鲁棒性构成严峻考验。
常用场景
经典使用场景
在太阳物理学领域,solarhub-cme数据集为日冕物质抛射(CME)的自动检测与分类提供了关键支持。该数据集通过众包方式收集了大量太阳观测图像的人工标注,涵盖了丰富的CME形态特征,使得研究人员能够基于这些标注数据训练和验证机器学习模型,从而实现对CME事件的精准识别与追踪。这一过程不仅提升了太阳活动监测的自动化水平,也为深入理解CME的物理机制奠定了数据基础。
解决学术问题
solarhub-cme数据集有效解决了太阳物理学中CME事件识别标准不统一、标注数据稀缺的学术难题。通过提供大规模、高质量的众包标注,该数据集促进了机器学习模型在太阳图像分析中的应用,推动了CME自动检测算法的发展,并有助于建立更可靠的太阳活动预警系统。其意义在于将公民科学的力量引入专业研究,加速了太阳物理数据的标准化进程,对空间天气预测和太阳活动研究产生了深远影响。
衍生相关工作
围绕solarhub-cme数据集,衍生了一系列经典研究工作,包括SpaceGen团队开发的solarhub-model-cme模型,该模型利用数据集训练实现了高效的CME自动分类。此外,许多研究基于该数据集的标注探索了深度学习在太阳图像分割、CME速度估计等任务中的应用,推动了太阳物理学与人工智能的交叉融合,为后续的太阳活动预测模型提供了重要参考。
以上内容由遇见数据集搜集并总结生成



