five

msd_beijing_multi_site_air_quality

收藏
Hugging Face2025-05-10 更新2025-05-11 收录
下载链接:
https://huggingface.co/datasets/TalBarami/msd_beijing_multi_site_air_quality
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了id、24x13的浮点数数组x、站点分类station、年份分类year、月份分类month、日期分类day和季节分类season等多个特征。数据集分为训练集train、验证集val和测试集test,各自包含了12272、2630和2630个样本。数据集的总下载大小为9462423字节,总数据大小为24404544字节。

This dataset comprises multiple features: an ID, a 24×13 floating-point array x, and categorical features including station, year, month, day, and season. The dataset is divided into training set (train), validation set (val), and test set (test), which contain 12272, 2630, and 2630 samples respectively. The total download size of the dataset is 9462423 bytes, and the total data size is 24404544 bytes.
创建时间:
2025-05-10
搜集汇总
数据集介绍
main_image_url
构建方式
在环境科学领域,北京多站点空气质量数据集通过整合北京市12个监测站点自2013年至2017年的连续观测记录构建而成。数据采集过程严格遵循时序规范,将每日24小时的空气质量和气象参数整合为多维序列,并标注站点位置、时间维度及季节属性,形成具有时空一致性的结构化数据集。原始数据来源于UCI机器学习知识库,经过清洗与标准化处理,确保了数据的完整性与可比性。
特点
该数据集的核心特征体现在其多维时空架构上,涵盖PM2.5、二氧化硫等13项环境指标的小时级监测数据。通过12个地理分布的监测站点持续五年的观测,呈现出城市空气污染的时空演化规律。数据集特别设计了按年份、季节、站点的分层标注体系,支持对气象条件与污染扩散模式的关联分析,为区域环境研究提供了高粒度时空解析基础。
使用方法
研究者可通过加载标准化的训练-验证-测试分割方案直接应用本数据集,每个样本包含24小时时序观测矩阵及对应的元数据标签。适用于时间序列预测、跨站点对比分析等任务,建议结合深度学习框架进行时空特征提取。使用时应遵循非商业研究协议,并按规定引用原始文献以保障学术规范性。
背景与挑战
背景概述
随着城市化进程加速,大气污染监测成为环境科学领域的关键课题。北京多站点空气质量数据集由陈松等人于2017年通过加州大学欧文分校机器学习知识库发布,涵盖2013至2017年间北京市12个监测站的连续观测记录。该数据集通过整合每小时污染物浓度与气象参数,构建了具有时空特性的多维序列数据,为研究城市空气污染动态演变规律提供了重要基础,推动了环境信息学与时空预测模型的交叉研究。
当前挑战
在空气质量预测领域,该数据集需解决多站点时空关联建模与复杂气象因子耦合的难题。数据构建过程中面临监测设备精度差异导致的数值漂移、极端天气条件下的数据缺失,以及不同地理区位站点分布异质性等挑战。这些因素要求研究者开发具有鲁棒性的插补算法和能够融合空间依赖关系的深度学习架构。
常用场景
经典使用场景
在环境科学领域,该数据集通过整合北京12个监测站点连续五年的空气质量与气象时序数据,为时空预测模型提供了典型验证平台。其24小时连续观测的13维特征序列,常被用于训练循环神经网络与图卷积网络,以捕捉污染物浓度的时空传播规律。研究者可基于多站点关联分析,揭示区域污染传输机制与局部排放特征的交互作用。
实际应用
基于该数据集构建的预测模型已实际应用于京津冀地区空气质量预警系统。环保部门借助其多站点监测优势,实现了对区域污染过程的动态模拟与溯源分析。在智慧城市建设中,这些模型为交通管制与工业排放调控提供了决策支持,同时助力公共卫生部门开展健康风险时空评估,推动环境治理向精准化方向发展。
衍生相关工作
该数据集催生了多项经典研究工作,包括基于注意力机制的时空图神经网络AirGNN、融合气象因子的多任务学习框架MT-AQ等。在ICLR与KDD等顶级会议上,相继涌现出利用该数据集的解耦表征学习方法,这些成果不仅深化了对污染形成机制的理解,更推动了时空数据挖掘理论在环境领域的创新应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作