iqair dataset
收藏数据集概述
数据集简介
该数据集旨在提供越南主要城市(如河内、岘港和胡志明市)的空气质量数据,以支持环境研究和分析。数据集通过自动化工具每小时从iqair.com网站抓取数据,确保数据的透明性和可追溯性。
技术栈
- GitHub Actions: 用于自动化数据收集,确保数据的透明性和历史变更的可追溯性。
- Python: 主要编程语言,用于数据抓取。
- CSV: 数据存储格式。
数据结构
数据以CSV文件格式存储,定期更新。数据文件位于result/目录下,按城市和月份组织。
数据文件结构
result/ ├── ha-noi/ │ ├── aqi_ha-noi_2025_jan.csv │ ├── aqi_ha-noi_2025_feb.csv │ └── ... ├── da-nang/ │ ├── aqi_da-nang_2025_jan.csv │ └── ... └── ho-chi-minh/ ├── aqi_ho-chi-minh_2025_jan.csv └── ...
数据列
timestamp: 数据采集时间city: 城市名称aqi: 空气质量指数weather: 天气状况wind_speed: 风速humidity: 湿度
使用指南
-
克隆仓库到本地: bash git clone https://github.com/nghiahsgs/iqair-dataset.git
-
数据存储在
result/目录下的CSV文件中。 -
可以使用Power BI、Python、R等工具进行数据分析和可视化。
安装与运行
系统要求
- Python 3.8及以上
- pip(Python包安装工具)
- Chromium浏览器(自动安装)
安装步骤
-
克隆仓库: bash git clone https://github.com/nghiahsgs/iqair-dataset.git cd iqair-dataset
-
安装所需库: bash pip install -r requirements.txt
-
安装Chromium: bash playwright install chromium
运行项目
-
运行数据抓取脚本: bash python crawl_iqair.py
-
抓取的数据将保存到
result/目录下的CSV文件中。
更新频率
数据通过GitHub Actions每小时自动更新,确保数据的连续性和可靠性。
使用建议
- 分析一天中不同时间段的空气质量变化。
- 比较不同地区的空气质量。
- 研究交通、天气等因素对空气质量的影响。
- 使用Power BI等工具创建空气质量监控仪表盘。
免责声明
该项目仅从第三方来源收集和提供原始数据,不对数据的准确性负责。项目旨在为科学研究服务,不提供任何关于空气污染原因的结论或判断。
贡献
这是一个开源项目,欢迎任何形式的贡献。请通过创建pull request或issue来改进项目。




