five

simonko912/dwd-hf-classify-1

收藏
Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/simonko912/dwd-hf-classify-1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从斯洛伐克的20米天线接收的军事天气信息(DWD)中收集的。目前数据集非常小,接收过程耗时较长,传输速率为50波特(50bps)。数据包含多种类型,如垃圾/损坏行、元数据头(包含PN、EDZW、FQEN、WODL等站点代码)、区域头(包含KATTEGAT、BALTIC SEA等区域坐标和海面温度线)、预测条目、原始天气参数行片段以及损坏但有结构的数据行。数据质量分为三个等级:不可用/噪音、部分可读和基本正确但有轻微损坏。

Dataset gathered from a 20m antenna from Slovakia, receiving DWD (military weather info). Currently super small, receiving took a lot of time at 50 baud (50bps). The dataset includes various types of data lines such as garbage/broken lines, metadata headers (with station codes like PN, EDZW, FQEN, WODL), region headers (with areas like KATTEGAT, BALTIC SEA, coordinates and SST lines), forecast entries, raw weather parameters line fragments, and corrupted-but-structured data lines. Data quality is categorized into three levels: unusable/noise, partially readable, and mostly correct with minor corruption.
提供机构:
simonko912
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自斯洛伐克一处20米天线对德国军事气象服务(DWD)信号的长期监听。由于传输采用50波特(约50bps)的低速速率,单次数据捕获极为耗时,因此当前数据集规模尚小。采集过程中,原始信号经解码与人工标注,依据内容结构与完整性被划分为六类,涵盖元数据头、区域标识、预报条目、原始气象参数行、结构化噪声以及乱码片段。每类数据还附加了质量等级,以反映其可读性与损坏程度。
特点
数据集最显著的特点在于其稀有性与专业性,聚焦于军事气象通信这一极端小众领域。所有样本均经精细分类,类别0至5不仅区分了内容类型,更特别强调了结构化噪声与损坏但可修复片段,为模型训练提供了高难度的噪声容错场景。质量等级标注进一步丰富了数据维度,使得模型能够在低信噪比条件下学习识别有价值信息,强化了鲁棒性。
使用方法
该数据集适用于训练文本分类与序列标注模型,尤其适合气象信息提取、低速率通信解析和噪声环境下文本恢复等任务。使用时,可将类别标签作为多分类任务的目标变量,亦可将质量等级作为回归或权重辅助指标。由于数据量有限,建议搭配数据增强或迁移学习策略以提升泛化能力。数据集以Apache-2.0许可证发布,便于学术研究与开源项目使用。
背景与挑战
背景概述
该数据集名为DWD HF CLASSIFY 1,由斯洛伐克的研究人员通过20米天线接收来自德国气象局(DWD)的军事气象信息而构建。数据采集于极低传输速率(50波特,即每秒50比特)的HF无线电频段,导致数据量极为有限。研究核心聚焦于利用深度学习模型对接收到的气象文本进行自动化分类与质量评估,涵盖从垃圾数据到结构化天气参数等六种类型,并标注了数据质量等级。该数据集在业余无线电气象监测与低带宽通信数据解析领域具有开创性意义,为后续从低频信号中提取有用气象信息的研究提供了基础标注资源。
当前挑战
该数据集面临的核心挑战在于其极端有限的规模与不平衡的数据分布,严重限制了深度学习模型的泛化能力。由于传输速率仅50 bps,数周的持续接收仅能产生微小样本,且各类别(如元数据头与原始天气参数片段)出现频率差异悬殊。构建过程中的挑战更为严峻:高频无线电传播易受大气干扰、军事加密与协议的不透明性,导致原始信号夹杂大量噪声与断裂行;人工标注需在模糊文本中区分“可恢复的噪声”与“结构性损坏”,要求标注者具备气象知识与低带宽通信经验。此外,如何利用迁移学习或数据增强技术从微小数据集中提取鲁棒特征,是推动该领域应用的关键难题。
常用场景
经典使用场景
该数据集源自斯洛伐克20米天线以50波特率接收的德国 military 气象广播(DWD),内容涵盖从原始信号解码后的气象信息。其经典使用场景聚焦于短波气象文本的分类任务,将接收到的行数据划分为垃圾信息、元数据头、区域头、预报条目、原始参数片段以及虽受干扰但具可恢复性的结构化文本等六类。这一分类体系为低带宽、噪声环境下气象通信数据的自动解析提供了基础,尤其适用于研究信号解调后文本的类别识别与结构化提取。
实际应用
在实际应用中,该数据集可助力构建自动气象信息提取系统,用于军事通信、远程监测站或应急场景中短波广播的解码与分析。例如,当救灾区域依赖低频气象广播时,模型可实时将接收的破碎文本分类并整合为可用预报条目,减少人工判读负担。此外,其分类逻辑可迁移至其他低频数字通信的文本解析任务,如海洋气象或航空安全广播中的噪声文本处理。
衍生相关工作
该数据集衍生的工作可围绕低比特率通信中的文本分类与噪声鲁棒性展开。研究者可基于其分类体系设计轻量级深度学习模型(如时序卷积网络或Transformer变体),探索在信号严重衰减下如何利用上下文特征恢复结构化信息。同时,该数据促进了对气象预报特定格式(如'SU 26. 12Z: SW 4 0.5 M')的实体识别研究,相关方法可延伸至其他周期性广播内容(如船舶航行公告)的自动化解析,形成跨领域的短波文本智能处理范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作