thinking_earth_hackathon_bids2025
收藏Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/franzigrkn/thinking_earth_hackathon_bids2025
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于地球观测和天气预测的数据集,包含了地球观测基础模型和2018 ERA5测试数据,适用于深度学习和数据科学领域的研究者和开发者。
创建时间:
2025-09-05
原始信息汇总
数据集概述
基本信息
- 数据集名称: ThiningEarth Hackathon BiDS 2025
- 标签: thinkingearth, bids2025
- 语言: 英语 (en)
- 数据规模: 10B到100B之间
背景与用途
该数据集属于ThinkingEarth黑客马拉松的一部分,该活动在拉脱维亚里加举办的Big Data from Space 2025会议上组织。数据集旨在支持参与者利用Copernicus基础模型解码地球空间数据。
黑客马拉松描述
ThinkingEarth黑客马拉松邀请人工智能和地球观测爱好者探索Copernicus规模基础模型的力量。活动由Horizon Europe项目ThinkingEarth组织,提供最先进的资源,包括地球观测(EO)基础模型、基于图的天气预报工具和用于卫星数据的视觉语言模型。
参与者可选择以下三个开放轨道之一:
- 轨道1:EO基础模型:针对地理空间任务微调和适配大型模型
- 轨道2:天气预报:评估和扩展基于人工智能的天气模型
- 轨道3:EO的视觉语言模型:连接图像和文本以增强EO数据解释
活动包括三周的远程开发阶段和在BiDS25的现场冲刺,团队将原型化解决方案、接受专家指导并竞争奖项。挑战对具有深度学习和数据科学强技能的个人和小团队开放,无需先前EO经验。
轨道2:天气预报
轨道2提供预处理的2018年ERA5测试数据,参与者可用其开始工作,并根据具体项目需求扩展数据设置。
搜集汇总
数据集介绍

构建方式
在气象数据科学领域,ThinkingEarth Hackathon BiDS2025数据集的构建依托于欧洲中期天气预报中心的ERA5再分析数据。该数据集精选2018年的测试数据,经过标准化预处理,确保时空一致性和物理量完整性,为人工智能天气模型评估提供高质量基准。数据涵盖多层级大气变量,采用网络通用数据格式存储,便于研究人员直接调用与分析。
特点
该数据集显著特点在于其耦合了传统数值天气预报与前沿人工智能技术,提供全球覆盖、时空连续的气象要素场。数据包含温度、湿度、风场等核心变量,具备0.25度空间分辨与小时级时间精度,支持多维时空特征提取。其开放性和可扩展性允许研究者根据特定需求补充其他年份或变量,为天气预测模型创新提供丰富素材。
使用方法
研究者可通过HuggingFace平台直接加载数据集,利用PyTorch或TensorFlow框架构建时空预测模型。建议先进行数据标准化处理,采用卷积神经网络提取空间特征,结合循环神经网络捕捉时间演化规律。该数据集特别适合用于评估生成式天气模型性能、验证多步预测精度,以及探索极端天气事件的机理分析与预测方法。
背景与挑战
背景概述
ThinkingEarth Hackathon BiDS2025数据集由欧洲地平线计划ThinkingEarth项目组于2025年创建,旨在推动人工智能与地球观测领域的深度融合。该数据集依托Big Data from Space国际会议平台,汇集了哥白尼计划的基础模型、气象预报图神经网络及卫星视觉-语言模型等多模态数据资源,重点关注地球系统解码、气候变化分析和灾害预测等核心科学问题。其创新性体现在首次将大规模遥感基础模型与人工智能天气预测模型整合,为地球科学研究者提供了跨学科交叉研究的基础设施,显著提升了全球环境监测与预测能力的研究范式。
当前挑战
该数据集主要解决地球观测多模态融合与气象预测精度提升的双重挑战:一方面需克服卫星遥感数据与气象数据在时空分辨率、物理量纲和语义表征层面的异构性对齐问题;另一方面要求突破AI气象模型在极端天气事件预测中的泛化性瓶颈。数据构建过程中面临哥白尼数据海量存储与实时处理的工程挑战,包括10-100GB级多维数据的标准化清洗、不同传感器数据的时空配准,以及气象变量与遥感影像的跨模态语义关联等关键技术难题。
常用场景
经典使用场景
在气象科学与人工智能交叉领域,该数据集为研究人员提供了评估和扩展基于AI的天气模型的标准化测试平台。参与者利用2018年ERA5再分析数据,能够系统性地验证神经网络在气象要素预测中的性能,特别是在极端天气事件模拟和长期气候趋势分析方面展现显著价值。
实际应用
在实际应用中,该数据集支撑着高精度天气预报系统的开发,为航空航海、农业生产和灾害预警提供决策支持。能源行业依托其衍生模型优化风电场功率预测,城市管理部门则利用其进行洪涝灾害模拟和基础设施韧性评估,显著提升了社会应对气候变化的适应性。
衍生相关工作
基于该数据集衍生的经典工作包括时空图神经网络在气象插值中的应用、多模态融合模型对于极端天气的早期预警系统,以及生成式对抗网络在气候场景合成中的创新。这些工作显著推动了ECMWF开源模型生态的发展,并为Copernicus计划提供了可验证的算法基础。
以上内容由遇见数据集搜集并总结生成



