AirData.kz — Open Air Quality Data for Kazakhstan
收藏github2026-03-26 更新2026-03-27 收录
下载链接:
https://github.com/qazybekb/AirDatakz-OpenData
下载链接
链接失效反馈官方服务:
资源简介:
提供哈萨克斯坦政府及独立监测网络的清洁、经过质量检查的空气质量测量数据,免费用于研究、新闻、教育和公众意识。数据每日更新,包括历史数据集和不同城市的详细测量数据。
Provides clean, quality-checked air quality measurement data sourced from the Government of Kazakhstan and independent monitoring networks, which is freely available for research, journalism, education, and public awareness initiatives. The data is updated daily, and includes both historical datasets and detailed measurement records for various cities.
创建时间:
2026-03-19
原始信息汇总
AirData.kz — 哈萨克斯坦开放空气质量数据集概述
数据集基本信息
- 数据集名称:AirData.kz — Open Air Quality Data for Kazakhstan
- 描述:来自哈萨克斯坦政府及独立监测网络的、经过清理和质量检查的空气质量测量数据。
- 用途:免费用于研究、新闻、教育和公众意识。
- 维护方:Global Shapers Almaty Hub
- 更新频率:每日更新
- 网站:https://airdata.kz
- 联系邮箱:airdatakz@gmail.com
数据内容与结构
主要数据目录
数据以gzip压缩的CSV格式存储,采用UTF-8编码,包含标题行。
csv/almaty/:阿拉木图数据,9种参数,2017年至今。csv/astana/:阿斯塔纳数据,11种参数,2018年至今。csv/karaganda/:卡拉干达地区数据,12种参数,2018年至今。csv/rest_of_kz/:哈萨克斯坦其他城市数据,9种参数,2020年至今。
数据文件类型
-
小时数据文件 (
{city}/{parameter}.csv.gz)- 每行代表一个站点每小时的测量结果。
- 仅包含通过所有质量检查的测量值。
- 主要列包括:
datetime_utc(测量时间UTC)、station_id、station_name、source、lat、lon、value_ugm3(统一单位后的值)、raw_value(原始值)、raw_unit(原始单位)、conversion_note、cluster_id、cluster_name。
-
日数据文件 (
{city}/daily/{parameter}.csv.gz)- 每行代表一天的城市范围平均值。
- 平均值基于地理聚类平均值计算,确保单个密集聚类不占主导。
- 主要列包括:
date、value_ugm3(城市日平均值)、median_value、min_cluster、max_cluster、std_cluster、n_clusters、n_stations。
监测参数
| 代码 | 参数 | 单位 | 备注 |
|---|---|---|---|
pm25 |
PM2.5 | µg/m³ | 主要健康指标,历史最长。 |
pm10 |
PM10 | µg/m³ | |
co |
一氧化碳 | µg/m³ | |
no2 |
二氧化氮 | µg/m³ | |
no |
一氧化氮 | µg/m³ | |
so2 |
二氧化硫 | µg/m³ | |
o3 |
臭氧 | µg/m³ | 站点有限 |
h2s |
硫化氢 | µg/m³ | |
tsp |
总悬浮颗粒物 | µg/m³ | 仅限KGMT |
nh3 |
氨 | µg/m³ | 阿斯塔纳、卡拉干达 |
ch4 |
甲烷 | µg/m³ | 仅限卡拉干达 |
thc |
总烃 | µg/m³ | 仅限卡拉干达 |
pm2_5 |
PM2.5(全国命名) | µg/m³ | rest_of_kz目录使用此代码 |
pmtot |
总PM(全国命名) | µg/m³ | 仅限rest_of_kz |
数据来源
| 来源 | 类型 | 站点数量 | 覆盖城市 |
|---|---|---|---|
kgmt |
政府参考级(KazHydroMet) | 141+ | 哈萨克斯坦全境 |
openaq |
国际聚合器(OpenAQ) | 22 | 阿拉木图、阿斯塔纳 |
waqi |
国际聚合器(aqicn.org) | 11 | 阿拉木图 |
airgradient |
低成本传感器(AirGradient) | 139 | 阿拉木图 |
airkaz |
低成本传感器,历史数据(AirKaz) | 41 | 阿拉木图(2017–2020) |
数据质量保证
每个测量值在纳入数据集前都需通过7阶段自动化清洗流程:
- S1 负值/空值过滤:剔除不可能的值。
- S2 硬上限检查:剔除物理上不可信的读数(如PM2.5 > 1,000 µg/m³)。
- S3 恒定/失效传感器检查:剔除冻结或故障仪器的数据。
- S4 统计异常值检查:剔除稳健Z分数 > 10(采用部分池化)的数据。
- S5 峰值检测:剔除与相邻值相比跳跃 > 10倍的孤立跳变。
- S6 传感器卡滞检查:剔除连续6小时以上数值完全相同的数据。
- S7 聚类异常值检查:剔除站点日平均值与聚类中位数相比稳健Z分数 > 3的数据。 被标记为可疑或无效的测量值已从文件中排除。
单位转换
| 来源 | 原始单位 | 发布单位 | 转换方法 |
|---|---|---|---|
| KGMT(浓度) | mg/m³ | µg/m³ | × 1,000 |
| KGMT(压力) | mmHg | hPa | × 1.33322 |
| WAQI(PM2.5, PM10) | AQI指数 | µg/m³ | EPA断点反向转换 |
| 其他所有来源 | µg/m³ | µg/m³ | 无转换 |
原始值保存在raw_value和raw_unit列中以便追溯。 |
数据覆盖范围
| 城市 | PM2.5起始时间 | 参数数量 | 小时数据行数 | 日数据行数 |
|---|---|---|---|---|
| 阿拉木图 | 2017年3月 | 9 | 290万 | 1.5万 |
| 阿斯塔纳 | 2018年1月 | 11 | 190万 | 1.9万 |
| 卡拉干达 | 2018年1月 | 12 | 120万 | 2.3万 |
| 哈萨克斯坦其他地区 | 2020年6月 | 9 | 2800万 | 47.9万 |
已知局限性
- 阿拉木图 2017–2020年:PM2.5数据主要来自AirKaz低成本传感器(日粒度,精度低于政府参考监测器)。多参数小时数据始于2020年。
- 卡拉干达 2019年:无可用数据——源数据覆盖存在缺口。
- 阿斯塔纳 2019年:仅限于PM2.5(其他参数始于2020年)。
- rest_of_kz目录:使用
pm2_5和pmtot代码,而非pm25和tsp(与KGMT全国命名约定匹配)。 - 站点坐标:部分历史站点缺少经纬度坐标(在CSV中显示为空)。
附加数据(Google云端硬盘)
较大的历史数据集(不适合存放在此代码库中)可在Google云端硬盘获取: https://drive.google.com/drive/folders/1M_GBxFrVUxeL0DsVgCPpxjALyS-MlZfM?usp=share_link 包含:
- AirKaz:阿拉木图41个低成本传感器的每日PM2.5数据(2017–2020年)。
- EcoGosFond.kz:哈萨克斯坦全国年度、季度和月度污染统计的环境报告(2005–2022年)。
- KGMT Historical:从KazHydroMet Excel档案中提取的17个城市的每小时空气质量数据(2018–2022年)。
使用许可
- 许可证:CC BY-NC 4.0
- 允许:用于研究、新闻、教育、个人项目、非营利工作。
- 禁止:出售数据、将其包含在商业产品中或在付费服务中使用。
- 要求:必须注明AirData.kz出处并链接到此代码库。 完整许可证:https://creativecommons.org/licenses/by-nc/4.0/ 上游来源条款(KazHydroMet、OpenAQ、WAQI)同样适用。
引用格式
AirData.kz. Open Air Quality Dataset for Kazakhstan. Global Shapers Almaty Hub, 2019–present. https://airdata.kz
搜集汇总
数据集介绍

构建方式
在环境科学领域,获取高质量且经过严格清洗的空气质量数据对于研究大气污染趋势至关重要。AirData.kz数据集通过整合哈萨克斯坦境内政府监测网络(如KazHydroMet)与独立传感器网络(如AirKaz、AirGradient)的多源数据,构建了一个全面的空气质量数据库。数据采集覆盖了从2017年至今的多个城市,包括阿拉木图、阿斯塔纳和卡拉干达等主要区域,每小时记录一次测量值。所有原始数据均经过一个七阶段的自动化清洗流程,包括负值过滤、硬性上限检测、异常值剔除及传感器故障识别,确保最终入库数据的可靠性与一致性。
特点
该数据集以其广泛的地理覆盖与多参数监测能力而著称,不仅囊括了PM2.5、PM10等常见污染物,还包含了臭氧、氨气、甲烷等特殊指标,为深入分析空气污染组成提供了丰富维度。数据以UTC时间戳记录,并保留了原始测量值与单位,同时通过地理聚类方法生成城市级日平均统计,有效避免了局部密集监测点对整体趋势的干扰。此外,数据集持续每日更新,且提供压缩CSV格式,兼顾了数据完整性与使用便捷性,尤其适合长期环境变化研究与公共卫生评估。
使用方法
研究人员可通过直接下载压缩的CSV文件,利用Python或R等编程语言进行数据读取与分析。例如,使用pandas库加载阿拉木图地区的PM2.5小时数据后,可进一步按时间范围筛选或计算统计指标。数据集还提供了按城市与参数分类的目录结构,便于针对性提取所需信息;对于大规模历史数据,用户可访问Google Drive获取完整档案。在应用时需注意遵守CC BY-NC 4.0许可协议,确保非商业用途并正确标注数据来源,以支持开放科学的可持续发展。
背景与挑战
背景概述
空气污染监测是环境科学和公共健康领域的核心议题,尤其在中亚地区,长期缺乏系统化、开放的高质量空气质量数据集。AirData.kz 数据集由世界经济论坛下属的全球杰出青年阿拉木图枢纽于2019年发起并持续维护,旨在整合哈萨克斯坦境内政府及独立监测网络的空气质量数据。该数据集覆盖PM2.5、PM10、二氧化氮等多种污染物参数,时间跨度自2017年至今,涉及阿拉木图、阿斯塔纳、卡拉干达等多个主要城市。通过提供经过严格质量控制的标准化数据,该数据集为区域环境政策制定、流行病学研究及公众意识提升奠定了坚实的数据基础,显著填补了中亚地区大气环境数据共享的空白。
当前挑战
构建AirData.kz数据集面临多重挑战。在领域问题层面,空气质量监测需应对污染物时空异质性高、低成本传感器精度有限以及多源数据标准不统一等难题,确保数据在健康影响评估和政策分析中的可靠性至关重要。在构建过程中,挑战主要源于数据源的异构性,包括政府机构KazHydroMet的历史Excel档案格式复杂、不同监测网络单位制式各异,以及部分历史站点地理坐标缺失。此外,数据集需通过七阶段自动化清洗流程剔除异常值、识别传感器故障,并协调低成本传感器与参考级监测设备的数据质量差异,以保障数据集的科学严谨性与实用性。
常用场景
经典使用场景
在环境科学与公共卫生领域,空气质量数据的长期监测与分析对于揭示污染动态至关重要。AirData.kz数据集以其覆盖哈萨克斯坦多城市、多参数的时序特性,成为研究区域空气污染时空分布与演变规律的经典工具。研究者常利用其小时级与日级数据,结合地理聚类信息,深入剖析PM2.5、NO2等关键污染物的浓度变化模式,识别污染热点区域与传输路径,为理解中亚地区独特的气候与工业背景下的空气质量问题提供了坚实的数据基础。
实际应用
超越学术研究,AirData.kz在公共政策制定、环境健康预警与公众意识提升方面展现出广泛的实际应用价值。政府部门可依据其提供的城市级日平均浓度与空间聚类差异数据,科学评估空气质量标准的达标情况,优化监测站点布局,并制定针对性的减排策略。同时,媒体与教育机构能够利用这些开放数据制作可视化的污染报告与科普材料,增强公众对空气污染问题的认知,促进社区参与环境保护行动,体现了数据驱动决策与公民科学的社会影响力。
衍生相关工作
基于AirData.kz的丰富数据,已衍生出一系列具有影响力的相关研究工作。例如,研究者利用其长期的PM2.5序列,结合气象与土地利用数据,开发了针对哈萨克斯坦城市的污染预测模型。另有工作聚焦于数据融合方法,旨在提升低成本传感器数据的准确性,或比较不同来源数据的一致性。这些经典工作不仅深化了对本地污染机制的理解,也为开发适用于资源有限地区的低成本环境监测与评估工具提供了方法论参考,推动了开放科学在环境治理中的应用。
以上内容由遇见数据集搜集并总结生成



