five

Digital Typhoon|气象数据数据集|机器学习数据集

收藏
arXiv2023-11-05 更新2024-06-21 收录
气象数据
机器学习
下载链接:
http://agora.ex.nii.ac.jp/digital-typhoon/dataset/
下载链接
链接失效反馈
资源简介:
Digital Typhoon数据集是由日本国立情报学研究所创建的,包含自1978年至2022年共44个台风季节的189,364张卫星图像。该数据集旨在为机器学习模型提供长期时空数据基准,特别适用于深度学习模型的分类和回归任务。数据集通过Lambert等面积投影技术处理,确保图像质量,并解决了传感器噪声、数据缺失和长期传感器校准等数据质量问题。该数据集的应用领域包括气象分析、社会影响评估和气候变化研究,旨在通过机器学习技术提升对台风活动的理解和预测,从而减少灾害风险和应对气候变化。
提供机构:
日本国立情报学研究所
创建时间:
2023-11-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
Digital Typhoon Dataset V2的构建方式主要通过扩展时间和空间维度来实现。在时间维度上,该数据集每年进行常规更新,基于日本气象厅(JMA)发布的最佳路径数据,增加了2023年台风季节的数据。在空间维度上,新增了南半球的数据,这些数据基于澳大利亚气象局(BoM)的最佳路径数据。通过Himawari卫星的观测数据,应用相同的数据处理管道,将北半球和南半球的数据整合在一起,形成了WP(西太平洋)和AU(澳大利亚周边)两个数据集。此外,数据处理管道中的地图投影方法从兰伯特等面积投影改为等距投影,以适应气象研究的需求。
特点
Digital Typhoon Dataset V2的主要特点在于其跨半球和跨区域的数据覆盖,这使得研究者能够探索不同区域和半球之间的热带气旋特征差异。数据集包含了从1978年到2023年的卫星图像和最佳路径数据,总计超过19万张图像和1116个热带气旋。此外,数据集还采用了自监督学习框架进行表示学习,结合LSTM模型进行强度预测和热带风暴向温带风暴的过渡预测,提供了多种机器学习任务的可能性。
使用方法
使用Digital Typhoon Dataset V2时,研究者可以利用Python库pyphoon2进行数据加载和构建机器学习管道。该数据集适用于多种任务,包括台风中心估计、强度预测和热带风暴向温带风暴的过渡预测。研究者可以通过对比不同半球和区域的数据,探索热带气旋的区域特性,并通过训练模型在不同区域和半球之间的迁移能力,评估模型的泛化性能。数据集的公开访问地址为http://agora.ex.nii.ac.jp/digital-typhoon/dataset/,代码和相关工具可在https://github.com/kitamoto-lab/digital-typhoon/获取。
背景与挑战
背景概述
热带气旋,亦称为台风或飓风,因其对社会产生的重大影响而成为关键研究对象。传统上,研究热带气旋主要依赖于大气模拟模型等数值方法,然而,随着数据驱动方法如机器学习的兴起,这些新方法在分析和预测热带气旋方面展现出巨大潜力。为促进机器学习在热带气旋研究中的应用,日本国家信息学研究所与横滨国立大学台风科学与技术研究中心等机构于2023年11月发布了首个数字台风数据集(Digital Typhoon Dataset V1)。该数据集跨越40多年,包含由气象卫星Himawari系列创建的台风图像和日本气象厅的最佳路径数据,为气象学与机器学习领域的结合提供了标准数据集。随着研究的深入,2024年发布的第二版数据集(Digital Typhoon Dataset V2)不仅进行了常规的年度更新,还首次引入了南半球的热带气旋数据,这使得研究者能够探索不同区域和半球之间的差异,进一步推动了热带气旋研究的边界。
当前挑战
数字台风数据集V2的构建面临多重挑战。首先,数据集的扩展不仅涉及时间维度的更新,还包括空间维度上南半球数据的引入,这要求在数据处理和质量控制方面进行新的调整。其次,由于热带气旋图像的特殊性,数据增强技术的应用受到限制,因为简单的图像翻转或旋转可能会破坏图像的物理意义。此外,不同半球和区域的数据在风速单位、强度等级定义等方面的差异,增加了模型跨区域泛化的难度。最后,尽管数据集的公开为研究提供了便利,但如何确保数据的一致性和准确性,以及如何处理不同机构间最佳路径数据的不一致性,仍是亟待解决的问题。这些挑战不仅影响了数据集的构建,也对其在实际应用中的效果提出了考验。
常用场景
经典使用场景
数字台风数据集V2(Digital Typhoon Dataset V2)在热带气旋研究领域中被广泛应用于机器学习模型的基准测试。其经典使用场景包括热带气旋强度预测和热带气旋中心估计。通过结合自监督学习框架和长短期记忆网络(LSTM),该数据集能够有效支持热带气旋的时空数据分析,特别是在强度预测和热带气旋向温带风暴过渡的预测任务中表现出色。此外,数据集还支持热带气旋中心估计任务,通过对象检测模型从卫星图像中准确识别台风中心。
解决学术问题
数字台风数据集V2解决了热带气旋研究中的多个关键学术问题。首先,它通过提供南北半球的热带气旋数据,促进了跨区域和跨半球模型的泛化能力研究。其次,数据集支持新的研究问题,如模型在不同区域间的迁移学习能力。此外,数据集还推动了自监督学习在热带气旋表示学习中的应用,解决了高维度和时间依赖性数据的表示学习难题。这些研究不仅提升了热带气旋预测的准确性,还为气象学和机器学习领域的交叉研究提供了新的视角。
衍生相关工作
数字台风数据集V2的发布催生了多项相关经典工作。首先,基于数据集的自监督学习框架在热带气旋表示学习中的应用,推动了表示学习技术在气象数据分析中的发展。其次,数据集支持的热带气旋中心估计任务,启发了新的对象检测方法在气象图像处理中的应用。此外,数据集还促进了跨区域和跨半球模型的泛化能力研究,为机器学习模型在不同气象条件下的适应性提供了新的研究方向。这些衍生工作不仅丰富了热带气旋研究的理论基础,还为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Global Firepower Index (GFI)

Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。

www.globalfirepower.com 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2024)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2024年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2024)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录